Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

MATH1617-WE01

Statistics I

2021

Q1 A fast swab test has been developed for the B117 strain of Covid-19 (often called

the UK variant”).  The following data classify 460 patients according to presence or absence of the B117 strain as diagnosed by a “gold standard” (an expensive and time consuming lab procedure) and by the results of the new fast but less accurate swab test.

 

Has disease? Yes          No D             D 

 

Total

Test result positive

Test result negative

228

12

250

210


 

 

1.1 Define and calculate the sensitivity and specificity of the test.

1.2 Define and calculate the false positive and false negative rates. Briefly discuss which one is more of a problem in this example and why.

1.3 A person from the general UK population who is selected at random, is tested and receives a positive test result. In the region of the UK the person is from, it is known that about 1 in 80 people have the disease. Calculate the probability the patient has the disease given they received a positive test result, P (D }T). Comment briefly on your answer.

1.4 The person was understandably concerned by the first test result, and has the test done a second time but this time received a negative result.   The two results are represented by the combined event T−   =  ~T, T2{, where T represents the first test (a positive result), and T2  the second test (a negative result).  Assuming the test results are conditionally independent given disease status, calculate the probability that they have the disease after receiving these two test results: P (D }T). Comment briefly on your answer.

1.5 Examine the coherence of Bayes Theorem for this example, by checking if you obtain the same value for P (D }T) if you calculate it by updating by both results T   at once,  or by updating by the individual results sequentially. Comment briefly on the importance of your conclusion.

 

Q2 A set of n Bernoulli trials Xl , . . . , Xn  are performed in a particle physics collider

experiment, with probability p of success in each trial, where success relates to the creation of an exotic particle.  The total number of successes over the n trials is summed and represented by X =      Xi .

2.1 What is the distribution of X?

2.2 If data is measured to be X  =  x, give the likelihood as a function of the parameter of interest p.

2.3 If n = 30 and x =  12, give an approximate 95% Confidence Interval for p. State clearly any approximations you use.

2.4 The scientist running the experiment has prior beliefs about p, based on the- oretical considerations.  They wish to represent their prior beliefs in the form p 2 Beta(a, b). Derive the full posterior pdf for p given x = 12, in terms of gen- eral a and b. Your answer should include an expression for the proportionality constant and clearly explain your reasoning.

2.5 The scientist now specifies additional prior information in terms of the expec- tation and variance of p in the form:

E[p]  =  0.5           and           Var[p]  =  

What choice of prior Beta distribution is consistent with this specification?

2.6 Find the posterior corresponding to the prior specified in question 2.5 and give a corresponding approximate 95% posterior Credible Interval for p.  Dis- cuss the differences between this interval and the 95% Confidence Interval you calculated in question 2.3.

 

Q3  Suppose that there are two Normal populations, one with mean µl  and variance σl(2);

and the other with mean µ2  and variance σ2(2).  You plan to take a simple random sample of size nl  from the first population, and a simple random sample of size n2 from the second population, and calculate the sample means l  and 2 . [Through- out this question you may assume that a linear combination of Normally distributed random variables is also Normally distributed.]

3.1 What is the distribution of l ? What is the distribution of 2 ?

3.2 Write down a probability statement of the form

 _A _  _ A  =  0.95

where you should determine expressions for A and B .

3.3 Rearrange this expression into the form

P (C _ µl  _ D)  =  0.95

where you should determine expressions for C and D .

3.4 Hence derive the formula for a 95% Confidence Interval for µl  when we have observed the sample mean l  = l .

3.5 Find E l _  and Var l _  .

3.6 What is the distribution of l _ 2 ?

3.7  Suppose our main interest is in testing hypotheses about the difference in population means, µl _ µ2 . Construct a probability statement which has this difference within a random interval, with probability 0.95.

3.8 Derive a (1 _ α) Confidence Interval for the difference (µl  _ µ2 ), in the case where σ l  and σ2  are known.

3.9  Suggest a similar (1 _ α) Confidence Interval in the case where σ l  and σ2  are unknown, but both nl  s 30 and n2  s 30.

 

Q4  4.1 A new species of tarantula is claimed to have been found in a geographically

isolated part of Venezuela. However, an expert suggest that it could just be a variant of a common species, which has an average leg span of 9.1cm. Twelve adult examples of the proposed new species are captured and have their leg span measured.  The data in cm are give below, along with a corresponding box plot and normal quantile plot.

Leg Span (cm):   7.1, 8.2, 9.6, 6.9, 7.9, 8.1, 8.7, 7.8, 10.0, 7.9, 8.4, 9.0

Tarantula Data Boxplot                                                Normal Q−Q Plot

 

 

 

     

 

 

 

 

 

 

 

 

 

− 1.5   − 1.0   −0.5    0.0     0.5     1.0     1.5

Theoretical Quantiles

(i) Test the hypothesis that the proposed new species has population mean µ = 9.1cm at the 10% significance level using the Confidence Interval ap- proach, and comment on your answer in relation to the scientific question. State clearly and justify any assumptions that you make.

(ii)  Calculate the corresponding p-value for this hypothesis, up to the level of

precision allowed by the attached tables.

4.2 Data on radioactive counts is gathered where the data Xl , . . . , Xn  are i.i.d. and known to be Poisson distributed with parameter λ, that is Xi  2 Po(λ).

(i) Derive the likelihood in terms of λ .

(ii) A random variable Y is said to have a Gamma distribution with parameters

α, β > 0, written Y 2 Gamma(α, β), if it has pdf

f(y}α, β)   =   yα  l e βy ,        y > 0

where Γ(α) is the Gamma function.  Show that the particular choice of prior λ 2 Gamma(α, β) is conjugate for the above Poisson likelihood.

(iii) Derive the MAP estimate MAP and compare with the maximum likelihood estimate MLE  in the large n limit.

(iv) In what situation does MAP  equal MLE  exactly?  Comment on whether

this makes intuitive sense.

 

Q5 Let Xl , . . . , Xn  be an i.i.d. sample size n from a N (µ, σ2 ) distribution. The pdf for

a generic random variable Y 2 N (µ, σ2 ) is given by

f (y}µ, σ) =  exp ,_   2 .

5.1 Assume that the population mean µ is unknown, but that σ > 0 is known (and is hence currently not a parameter of interest). The sample is observed to be xl , . . . , xn . Find the likelihood function for µ .

5.2 By writing (xi _ µ) = (xi _ ) + ( _ µ), prove that

n                                      n

(xi _ µ)2   =       (xi _ )2 + n( _ µ)2

i=l                                i=l

5.3 Hence show that  is sufficient for µ .

5.4 Find the MLE  of µ .

5.5  Suppose now that σ is also an unknown parameter.  Using the results above, write down the likelihood function for  (µ, σ2 ),  and find sufficient statistics (Tl , T2 ) for  (µ, σ2 ).   Hint:   Treat  “σ2 ” as a single variable representing the variance,  rather than the square of σ.   It may help to define v  =  σ 2   and re-write the likelihood as a function of µ and v .

5.6 By finding the partial derivatives of the log-likelihood with respect to µ, and with respect to v = σ 2 , find the MLEs  and 2  for µ and σ 2  respectively.

5.7  Comment on your expression for 2 .