Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STAT0005: Probability and Inference, Level 5

Health Warning:  These solutions are incomplete.  Many intermediate steps are omitted and required explanations are not given. The sole purpose of these solutions is to enable you to check your answers when you attempt the exam yourself. If there had been any student in the exam who had handed in the work reproduced below without further calculations or explanations, it would probably have resulted in an investigation as to where the student got the solutions from before the exam.

Section A

A1   (a) A and B are not independent because P (A) = 2/3 = P (B) and so P (A)P (B) =

4/9 but P (A n B) = P ({ω2 }) = 1/3.

They are conditionally independent given C because P (AIC) = P (ω2 )/P (ω2 ) = 1, P (BIC) = P (ω2 )P (ω2 ) = 1 and so P (AIC)P (BIC) = 1 = P (A n BIC) =  P (ω2 )/P (ω2 ) = 1.

(b)  ... Thus the set of solutions can be described as

{(p1 , 1 - p1 , 0)T  e 皿3  : p1  e [0, 1]} u {(0, 1 - p3 , p3 )T  e 皿3  : p3  e [0, 1]}

A2   (a)  ... and hence FX (x) = 

(b) As pointed out in part (a), X and Y are independent due to the independence lemma. Hence their covariance is zero.

(c) For the reasons already given (omitted in these solutions!) above, X and Y are independent.

A3   (a) The explanation should cover the following points:

Obtain the marginal mgf

by evaluating for one argument set to zero

check whether product of marginal mgfs equals joint mgf

The mgf needs to exist  (finite in an open neighbourhood of zero was the standard condition used in the course)

clarity

(b) In the first case, the mgf does not exist because ...

Hence the method from part (a) will not work regardless of the distribution of Y .

For the second case, the mgf exists  (no need to compute) and hence the method could in principle be applied

A4   (a) The likelihood is the joint pdf evaluated at the data viewed as a function of the parameters.  Since we’re dealing with a random sample, the joint pdf is given as a product of the marginal pdfs.

. . .

n

÷ a(o) = n log o - (o + 1)      log(xi )

i=1

(b) We differentiate

solve for a critical point

Compute second derivative

check the sign of the second derivative

and check for a boundary maximum

∂a       n

=                -

∂o      o

log xi

 =   1

∂2a         n

∂o2             o2

lim a(o) = -o

g∶l

lim a(o) = -o

g|0

The limit for o → o should be justified by saying that...

Section B

B1   (a) The log likelihood is a(µ) = -       ixi - n log µ (up to constants wrt µ).  The MLE is found by taking the derivative  (µ) and equating to zero yielding

n

i=1

The expectation ... so that it has zero bias.

The variance calculation crucially uses ... and results in Var( MLE ) =  and in the absence of bias this equals the mse.

(b) The distribution of the sample minimum results from a calculation that was practiced in a worked example during the lecture for i.i.d. exponential case. Following the same reasoning applied in the lecture to obtain the distribution of the sample mimimum, we get to

F(1) (x) = . . . = 1 - exp  - x

where ... Hence, X(1)  ~ Exp( ) and so (or by differentiation of the cdf), we have the pdf

f (1) (x) = exp  - x

Based on the pdf, the MLE given the sample minimum is obtained in an analogous fashion through

a(µ) = - log µ - x(1)

∂a          1       n(n + 1)

∂µ        µ         2µ2

÷ MIN  = x(1)

and from what we know about the distribution of X(1) , we can infer 匝[MIN ] = µ and Var(MIN ) = µ2 . In the absence of bias, the mse is equal to variance and hence µ2 .

(c)   (i)  Since ..., we get MIN  = mn .

(ii)  Since ..., we may infer that the other colleague’s remark is correct.        The estimator MIB   = nz (1)  based on bn  has mean µ and variance µ2 whence its MSE is also µ2 .

(iii)  ... MIB  = nbn .

Hence ...

a1  = x1 ,       an+1  =  (nan + (n + 1)xn+1)

(One could use other normalizations, e.g.  T = nS would also work but might pose computer problems with overflow that students are not ex- pected to know about). The resulting estimator is MLE  = an .

(d) The mse for the estimator based on mn  has already been calculated in part (b), it is µ2 .

The mse for the estimator based on an  has already been calculated in part (a), it is µ2 /n.

The mse for the estimator based on bn  has already been calculated in part (c)(ii), it is µ2 .

Hence, the method based on an  yields the smallest mean square error.

B2   (a)

E[|X|2(2)] = . . . = 1 + σ 1(2) + σ2(2)

(b) The log likelihood is given as

a(α) = -  x -  、、T  x -  、、 + const  =  T x

Hence, α must be such that  is orthogonal to x, or, in other words

 must be parallel with x. Hence, the MLE can be written as

2

(c)  ... And so the expected value is

i(α) = E  Σ  1    

(d)

i(α) = λ1(←)1  

、T u\2 + λ2(←)1   

- sin α cos α

T    \2

Since λ1   > λ2 , this is maximized if α is such that     and u are

orthogonal.

The sketch should show an ellipse (like the one on the lecture slides when visualizing the effect of parameter on the bivariate normal)

When i(α) is maximal, the major axis of the ellipse should be in line with the mean vector. When i(α) is minimal, the major axis of the ellipse should be orthogonal to the mean vector.

(e) The explanation should say that the variance of  will be minimal when i(α) is maximal

and that this happens when most of the variation is in line with the mean vector rather than orthogonal to it (or explanation to that effect)