Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit


MAST20005 Statistics

2017

 

Question 1 (18 marks) A discrete random variable X has the following pmf:

x         0        1    2

p(x)   1 − 2θ    θ    θ

(a) Find E(X) and var(X).

(b) Consider a random sample of size n on X .

(i) Write down the log-likelihood function.

(ii) Find the maximum likelihood estimator (MLE) of θ .

(iii) Determine a sufficient statistic for θ .

(iv) Is the MLE biased?

(v) Find the Cramr–Rao lower bound for unbiased estimators of θ .

(vi) Does the MLE achieve this bound?

(c) A random sample of size n = 20 produced the following observations:

0 1 0 0 0 2 1 2 0 2 0 2 2 1 0 2 1 2 0 2

(i) Give the MLE for this sample and its standard error.

(ii) Calculate an approximate 95% confidence interval for θ .

(iii) Carry out a goodness-of-fit test for this model, with a significance level of 5%.

(iv) Suppose all of the values of 1 and 2 were relabelled as 3 (meaning that the only possible observations are 0 and 3).  Is it still possible to carry out a goodness-of-fit test? Explain your answer. What distribution describes the relabelled data?

 

Question 2 (10 marks) Consider the same X as in Question 1.

(a) Consider a random sample of size n on X .

(i) Find the method of moments (MM) estimator of θ .

(ii) Is this estimator biased?

(iii) Does this estimator achieve the Cramr–Rao lower bound?

(iv) Which of the MLE or MM estimators is better?

(b) Consider the same random sample of size n = 20 as in Question 1.

(i) Give the MM estimate for this sample and its standard error.

(ii) Calculate an approximate 95% confidence interval for θ based on the MM estimator.


Question 3 (10 marks) Researchers are studying the reading speed of people under two levels of light.  The 10 people recruited into the study are each tested under both light conditions, giving the following measurements (in words per minute): 

Person    Strong light   Weak light

1               85                  80

2               84                  83

3               80                  77

4               89                  91

5               86                  76

6               82                  81

7               89                  89

8               88                  81

9               81                  79

10              97                  90

 

For simplicity, we can assume that these measurements are normally distributed, with a mean of μ1  under strong light and a mean of μ2  under weak light.

(a) Calculate a 95% confidence interval for the difference in mean reading speeds, μ1 − μ2 .

(b) The researchers want to test if there is a difference between the two light conditions.

(i) What are the null and alternative hypotheses?

(ii) What is an appropriate test statistic?

(iii) Specify the critical region for a test with significance level 5%.

(iv) Carry out the test for the dataset provided above.

 

Question 4 (14 marks)

(a) A newspaper commissions an opinion poll for an upcoming election.  Out of 500 people surveyed, 260 said they intend to vote for the Purple Party.  Calculate a 95% confidence interval for the proportion of people in the population that intend to vote in this way.

(b) The next week, the newspaper commissions another poll.  This time, out of 520 people surveyed, 255 said they will vote for the Purple Party.  By comparing it to the previous week, the newspaper reports this as,  “Public mood turns against Purple!”.  Is this an accurate summary of the data? How would you summarise the quantitative evidence here? Your answer should include the calculation of an appropriate 95% confidence interval.

(c) The editor of the newspaper wants to present a strong conclusion based on their next poll. She decides that they need an estimate that will be within (i.e. margin of error) at most 1% with 95% probability. How big should their sample size be?

(d) The finance officer at the newspaper overrules the editor and says they can only afford a poll of 2,000 people.  Based on this poll, if there is sufficient evidence that the Purple Party has majority support (greater than 50% of the population), the editor will decide to run a story predicting the outcome of the election in their favour. She will do this based on a hypothesis test with significance level of 5%.  What are the null and alternative hypotheses? Determine the power function of the test.

(e) If in fact the true public support for the Purple Party is 53%, what is the probability of a type II error?

 

Question 5 (8 marks) Damjan, who manages a supermarket, is worried about the quality of milk he is receiving from his suppliers. Managers of other stores, who share the same supplier, have said that about 1% of their stock was sour upon delivery and therefore unsuitable for sale. Damjan decides to test his own stock. He randomly samples 40 bottles and finds that 1 of them is sour. To help him plan his budget for potential customer refunds, as well as collect evidence to complain to his supplier, he would like to estimate the proportion, p, of his stock that is sour.

(a) Write down the maximum likelihood estimate of p.

(b) Damjan would like to incorporate the knowledge he has gained from the other managers. He decides to encode this in the form of a conjugate prior distribution.  What type of distribution should he use?

(c) He decides that this information is worth the equivalent of 5 random samples (i.e. as pseudodata) and it should have mean E(p) = 0.01. Determine the prior distribution that satisfies these constraints.

(d) Using this prior, what is the posterior distribution of p?               (e) Calculate the posterior mean and a central 95% credible interval.

 

Question 6 (6 marks) In a trial of a new drug for treating depression, we observe the following outcomes: 

Symptoms            

Worse    Same    Better

Placebo       15         10         18

Drug            7           5          45

 

Is there evidence that the drug has had an effect? Answer by doing an appropriate hypothesis test with a 1% significance level.

 

Question 7 (14 marks) Robert is conducting a tram reliability study.  At a particular tram stop, he observes the following times between successive tram arrivals:

1.7    2.2    0.9    5.7    8.0    4.1    6.8    3.5    2.2

For these data we have  = 3.90 and s = 2.46. Robert decides to use an exponential distribution with mean θ as a model for these data.

(a) Robert decides to use  as an estimator for θ .

(i) Use the Central Limit Theorem to give an approximate sampling distribution for this estimator.

(ii) What is Robert’s estimate of θ for this dataset?

(iii) Calculate a standard error for Robert’s estimate.

(b) Robert considers using the sample median, Mˆ, as an alternative estimator.

(i) Show that this estimator is biased.

(ii) Let T = cMˆ be an adjusted estimator. Find c so that T is asymptotically unbiased.

(iii) Use the asymptotic distribution of Mˆ to derive an approximate sampling distribution for T.

(iv) Which of  and T is the better estimator?

(v) What is the estimate, t, based on the data above?

(vi) Calculate a standard error for this estimate.

 

Question  8  (10  marks) Consider a random sample of size n on X which has a triangular

distribution with pdf:

f (x) = θ2 ,    0  x  θ.

(a) Find the maximum likelihood estimator of θ .

(b) Derive an exact central 95% confidence interval for θ based on this estimator.

(c) We observe the following random sample on X:

2.2    3.4    3.3    4.8     1.2    2.8

Calculate a 95% confidence interval for θ .