Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

MATH3044 Statistical Inference

Coursework 2022/23

The coursework for this module is worth 100 marks and accounts for 50% of the total mark.  Your solutions should be submitted via Blackboard by Thursday 8 December 2022, 3pm.

Part A[50 marks].

A random sample X1, X2 , . . . , Xn is obtained from a Poisson distribution with probability mass func- tion f (x; θ) = exp(-θ)θ /x!. Also, let T = X1 + . . . + Xn  denote the sum of the sample elements.

1. Interest is in the probability θ exp(-θ) for a Poisson count to be exactly one.  Show that Y =  (1 - )T 1  is the minimum variance unbiased estimator for θ exp(-θ).                    [15 marks]

2.  Show that the Rao-Cram´er lower bound for the minimum variance unbiased estimator of g(θ) = θ exp(-θ) is given by exp(-2θ)(1 - θ)2 θ/n.                                                                    [10 marks]

3.  To investigate if the Rao-Cram´er lower bound is attained for small n, simulate the variance of Y using R and compare it with the Rao-Cram´er lower bound.  Use a grid of values for θ from 0.1 to 2 in steps of 0.1.  Also, choose n = 5.  To minimize simulation random error choose a large replication size such as 10, 000.  Provide a graph that shows the variance and the Rao- Cram´er lower bound.  What happens if n = 50?  [Hint: in R you can generate Poisson random sample with the command rpois(n,theta).  This would generate a Poisson sample of size n and parameter θ . To repeat this you can use a for loop, for example the code for (i in 1:10000) { X=rpois(n,theta); T=sum(X); Y[i] = T/n*(1-1/n)ˆ (T-1)}  would repeat this process 10000 times.                  [15 marks]

4.  Simulate the bias of Y (which is zero in theory) and compare it with the simulated bias of the plug-in estimator T/n exp(-T/n) which plugs in the maximum likelihood estimator T/n of θ into θ exp(-θ). Use the same setting as in question 3 and do this for n = 5 and n = 50. Provide graphs showing the bias of Y and the plug-in estimator against θ for the two values of n. Provide your interpretation.                 [10 marks]

Part B [50 marks].

In screening a large target population of size M  for a medical condition,  say colon cancer,  non- invasive diagnostic tests are used. Each member of the target population is tested m times (say on m consecutive days) to improve the accuracy of the procedure. These m tests per person are then sent in for evaluation. If they are all negative, no further action is taken. If any of these m tests is positive, the disease status is further investigated to arrive at a confirmation of the disease being present or not.

As a result a screening survey returns a sample of size n of persons with the disease:  X1 , . . . , Xn where Xi is the count of positive tests for the i-th diseased person. These are all necessarily positive as for X  = 0 the condition is not further explored.  Hence we can expect an unknown number of people with the condition within the set of those with X = 0. Let the zero-counts of these be denoted as Xn+1 , . . . , XN , where N is the total size of persons with the condition, which will be not known. Typically, N << M where M is the known size of the screened population and N is the unknown size of the screened population with the condition. Interest lies in θ, the probability of the test being positive per application, given there is disease.  If all counts would be observed, the associated distribution would be a binomial distribution with probability mass function

x(m)_θ (1 - θ)(m −北) .

However, X = 0 is not observed so that the probability mass function corresponding to the observable sample is the the zero-truncated binomial provided by

f (x; θ) =  x(m)_θ (1 - θ)(m −北)

where x can take integer values from 1 to m.

1.  Show that  f (x; θ) is  a proper probability mass function  (the probabilities sum up to one), determine the log-likelihood function of θ and its score.                                                  [5 marks]

2.  To nd the maximum likelihood estimate of θ use the EM algorithm.  Let f0  denote the unob- served frequency of persons with the disease for which the test was negative at all times.

Show in the M-step that, given the value of N = n + f0 , the maximum likelihood estimate of θ is given by θˆ =      Xi/(mN). Also, give the complete, unobserved log-likelihood.

Show in the E-step that the expected value of N , given the observed sample and θ, is given by

Nˆ = n/[1 - (1 - θ)m].                                                                            [15 marks]

3. A sample of subjects with the condition provided the following values. For 39 patients the test was positive exactly once in 6 applications, for 25 it was twice positive out 6 applications, for

7 it was 3 times positive and 3 had 4 positive tests in 6 applications.  Use R-code for the EM algorithm developed in 3) to estimate θ and N .  Use at least 25 iterations (cycles between E- and M-step).            [10 marks]

4.  Derive also the Gauss-Newton iteration (how to get from the current estimate of θ to the new estimate of θ) and provide R-code using the data from question 3). Again use 25 iterations. At convergence, nd an estimate of the asymptotic variance of θˆ from the Gauss-Newton iteration and provide a 95% confidence interval for θ .                  [10 marks]

5. A different approach considers both parameters, θ and N , as unknown parameters.  For this approach, the random variable number of positive tests X is an untruncated count with binomial distribution                                          x(m)_θx (1 - θ)(m x) .

We have that E (X ) = mθ and Var (X ) = mθ(1 - θ).  Note that we can set up two moment equations

N

E (X ) =        Xi                                                                             (1)

i=1

and

N

E (X2) =        Xi(2)                                                                           (2)

i=1

and we observe that S =      Xi as well as T =      Xi(2) are known as they equal the observed statistics S =      Xi  and T =      Xi(2), respectively.  Show that the moment estimators for θ and N can be found as θˆmo  = (T/S - 1)/(m - 1) and Nˆmo  = S/(mθˆmo ). Add these moment estimators to your R-code and give an interpretation. How many people with the condition have been missed according to maximum likelihood and moment estimator?                       [10 marks]