Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STAT0005: Probability and Inference 2019/20 Level 5

Solutions & Mark Allocations

Health Warning: These solutions are incomplete. Many intermediate steps are omitted and required explanations are not given. The sole purpose of these solutions is to enable you to check your answers when you attempt the exam yourself.  If there had been any student in the exam who had handed in the work reproduced below without further cal- culations or explanations, it would probably have resulted in an investigation as to where the student got the solutions from before the exam.

Section A

● A1

(a)

k

E[Y] =         α jX (α)dα = . . . = 1/5

!k

alternative routes (e.g. laboriously computing the pdf of Y first) are also acceptable. (b)

Var(Y) = . . . = 16/225

(c)

jY (夕) = . . . = 夕!3/     on (0, 1)

special handling for 夕 = 0 not required as per discussion in the lecture: single points don’t matter in a pdf.

● A2

(a) X  = (α + ó, 1 2(α + ó), α + ó), Y  = (α + ó, 1 2(α + ó), α + ó) for α = 一1, 0, 1 respectively.

could use a symmetry argument to spare explicit calculation of one of the pmfs.

(b) E[Ⅹ] = 一1 × (α + ó) + 0 × (1 2(α + ó)) + 1 × (α + ó) = 0 and the same calculation

and result holds for E[Y].

Could use a symmetry argument to spare explicit calculation of one of the expec- tations.

(c)

Var(Ⅹ) = . . . = 2α + 2ó

Var(Ⅹ) = Var(Y) because the two random variables have the same pmf.

(d)

Cov(Ⅹ, Y) = . . . = 2(ó 一 α)

ó 一 α

Corr(, Y) = . . . =

(e)  α ≥ 0 and ó ≥ 0 are needed in order for P (Ⅹ = Y = 一1) and P (Ⅹ = 1, Y = 一1)

to be non-negative.  Additionally we need α + ó ≤ 1/2 for the central entry of the pmf to be non-negative.

(f)  The smallest possible value for the correlation is 一1 and this is attained e.g.  for (α, ó) = (1/2, 0).  (All pairs with ó = 0 and α e (0, 1/2] work).

● A3

(a)

P (0 < Ⅹ ≤ 1, 0 < 夕 ≤ 1) = . . . = 1

, 0   if  < 0

(b)  FY() = limxk FX,Y(α) =  1(夕)   i(i)f(f) 夕(0)  1(夕)  1  .

To see how this limit works when 0 < 夕 < 1, note that α will eventually be larger than 夕 such that min{α, } = 夕 .

(c)

P (Ⅹ < 1/2|Y < 1/2) = . . . = 1

Since ... Ⅹ and Y are dependent.

final answer: Ⅹ and Y are dependent.

Sample explanation:  Since the marginal probability that X is less than one half differs from the conditional probability conditioning on Y being less than one half, it follows that the marginal distribution and the conditional distribution of X differ. Hence, X and Y are dependent.  (43 words)

Section B

● B1

(a) For a = 1 this is the sample variance.

The sample variance has been shown to be unbiased in lectures whence E[T(] = n2 . A computation is also acceptable but not expected.

(b) E[Tα] = . . . = n2  .

(c) Var(Tα) = . . . =  .

(d)

mse(T; n2 ) = . . . = (n na)2  ╱a2 一 2a 一 1 + 2n

(e)

d             (2a  2)(n  a)2  (a2  2a  1 + 2n)(2a  2n)

da                                          (n 一 a)

Equating to zero yields

. . .

a e {一1, n}

The second order condition is omitted.

The result a = n is beyond the domain of definition, hence only a = 一1 remains as a possible minimum of mse. Checking for boundary maxima: as a → 一&, the bias goes to n2 which leads to an mse of at least n  . This is larger than what we obtain

for a = 1. As a  n, the bias blows up. Thus, there are no boundary minima.

(f)  The estimator of form Tα  with smallest possible mse is simply T!( .

Example explanation:

“One reason why T(  is used in practice w is that it is unbiased (contrary to T!() and therefore desirable. Perhaps more to the point, T!( is biased such that it tends

to underestimate the variance.  This is undesirable as confidence intervals derived from an under-estimated variance are too tight and therefore will not reach the desired confidence level. Therefore, the situation is asymmetric in typical statistical applications (underestimating the variance is worse than overestimating it) and thus mse is not the best measure of goodness.”  (87 words)

● B2

(a) Example explanation:

“A maximum likelihood estimator is obtained by computing the parameter value that maximizes the probability density function or the probability mass function of the statistical model (depending on whether the model is continuous or discrete) evaluated at the observed data.”  (40 words)

(b)  Take the logarithm of the given multivariate Gaussian pdf to obtain

é(a) =  ( aα)T Σ!( ( aα) + const

(c)

 = aαΣ!( α + αΣ!(  0

αT Σ!(

  =

d2 é

Since we know that  Σ  is  a  covariance  matrix  and that  α    0,  it  follows that αΣ  (! α > 0  (by definition of positive-definiteness from the course), whence the second derivative is negative.   Therefore, the one critical point is identified as a local maximum. A boundary check can be done but does not attract marks here.

(d) Inserting the regression model into 夕 yields:

E[NíE] = . . . = a

(e) Using the formula for the Fisher info given in the preamble, we obtain I (a)  = E[αT Σ!( α] = αΣ  (! α whence

Var(Y)  

holds for any unbiased estimator of a.  It says that every unbiased estimator of a must have variance at least (αT Σ!( α)!( .

(f) Using the representation from the hint

NíE = . . . = a +  T i

enables use of a lemma from the lecture: if ~ N (u, Σ) then αT ~ N (αT u, αT Σα). Applying this, we immediately see

NíE  N a,  Σ  \ ,

whence

Var(NíE ) = . . . = αΣ!( α!(

Thus, NíE  achieves the CRLB.

Section C

(a)  This mimicks the derivation of the standard result closely:

MY(g) defi   tion . . . = exp  gAu + gT AΣATg

(b)  Since identity of mgfs implies identity of distributions, we may infer that  Y  ~ N(Au, AΣAT) by comparison with the known mgf for the multivariate normal dis- tribution. Hence the pdf is

jY () = det(2  AΣATπ(1) ) exp  ( Au)T AΣAT!( ( Au).

If A does not have full rank (e.g.  when A = 0) then AΣAT  is singular and hence the resulting distribution does not have a pdf as per remark in lecture notes.

(c) If Ⅹi and Ⅹj are independent then we use that independence implies zero correlation and hence zero covariance (and hence Σi,j  = 0) as shown in the course.                  The other direction is probably easiest by reducing to the bivariate case.   The bivariate marginal distribution of i  and j  has mgf

MXl,Xj (gi, gj) = MX ((0, . . . , 0, gi , 0, . . . , gj , 0, . . . , 0))

= exp  giui + gjuj +   g(g)j(i)   T  

    g(g)j(i)   \

Now, if Σi,j  = 0, this simplifies to

MXl,Xj (gi, gj) = exp(giui + Σi,i/2).exp(gjuj + Σj,j/2)

and then the fact that the joint mgf of i  and j  can be written as a product of the marginal mgfs implies independence of i  and j .

This could also be established using integration, however, writing out the integration carefully teasing apart the components of Ⅹi, Ⅹj  from the other components is a bit of a notational nightmare.

(d) First compute the covariance of the two random variables in question: Cov(Ⅹ(, Ⅹ2 + . . . + Ⅹn) = . . . = 0

In order to conclude independence, we establish joint normality of these random

variables using the result from (a) with matrix A =  .

(e)   (i) Independence implies zero covariance (integrability does not need to be consid- ered for full marks)

Cov(U, r + W) = Cov(U, r) + Cov(U, W) = 0 + 0 = 0

They must be uncorrelated.

(ii)  This gets at the difference between pairwise independence and mutual indepen- dence which has not seen much emphasis in the course. The easiest connection for students to make is that to Example 1.1. We assign U = 21A 一1, r = 21B 一1 and W = 21C 一 1. Then U and r as well as U and W are independent because the coin tosses are assumed independent.  U and r + W are not independent because r = W = 1 implies U = 1, i.e.  P (U = 1|r = W = 1) = 1  P (U = 1) = 1/2. The corresponding joint probability mass function is:

Prob.

U

V

W

r + W

0

-1

-1

-1

 

1/4

-1

-1

1

0

1/4

1

-1

-1

-2

0

1

-1

1

 

1/4

-1

1

-1

0

0

-1

1

1

 

1/4

1

1

1

2

0

1

1

-1

 

(f)  Possible ways include but are not limited to the following:

  The Gaussian distribution is obtained for sample means (standardized to ex- pectation zero and variance one) in the limit of sample size tending to infinity by virtue of the Central Limit Theorem.

  Two uncorrelated jointly normally distributed random variables are indepen- dent (see part 3)

  The multivariate Gaussian distribution has the property that conditioning al- ways reduces variance.

  The Gaussian distribution has the property that pairwise zero correlation im- plies (mutual) independence (related to part 4).

 All linear combinations of jointly normally distributed random variables are normal.

Example explanation:

“The Gaussian distribution is different from other distributions in the course in that it arises as the limiting distribution of the sample mean (standardized to mean zero and variance one) of a random sample with nite variance.  It is also special

in the sense that zero correlation implies independence whereas normally only the reverse implication is necesarily true (assuming finite variances). Another difference is that, in the Gaussian distribution, conditioning never increases variance whereas in other distributions, it may increase or decrease or leave the conditional variance the same as the marginal variance depending on the value being conditioned on.” (100 words)