Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit


MAST 20005 Statistics

Summer 2022

Assignment 2

 

Instructions:   Questions labeled with ‘(R)’ require use of R. Please provide appropriate R commands and their output, along with sufficient explanation and interpretation of the output to demonstrate your understanding. Such R output should be presented in an integrated form together with your explanations; do not attach them as separate sheets. All other questions should be completed without reference to any R commands or output.  Make sure you give enough explanation so your tutor can follow your reasoning if you happen to make a mistake. Please also try to be as succinct as possible. Each assignment will include marks for good presentation and for attempting all problems.

 

1.  (R) Let X and Y be the scores in Probability (MAST20004) and Statistics (MAST20005), respectively, for a student who took both of these two subjects.  A sample of n = 15   students yielded the following data:

x     y

x     y

x     y

54   56

65   73

73   71

62   64

81   74

85   81

61   71

63   59

88   82

75   66

86   86

90   84

77   75

68   66

58   59

(a) Fit a simple linear regression model E(Y IX = x) = α + βx for these data. Find

point estimates of α and β. What are the standard errors of these estimates?

(b)  Give a 95% confidence interval for the score in Statistics with a score of 70 in

Probability.

(c)  Give a 95% prediction interval for the score in Statistics with a score of 70 in Probability.  Compare the prediction interval to the confidence interval obtained in (b).

(d) Use a t-test to test H0  : β = 0.8 against H1  : β  0.8 at the α = 0.05 significance level and state your conclusion.

(e)  Give the ANOVA table for the regression model.

(f) Use the ANOVA table (F-test) to test H0   : β  = 0 against H1   : β   0 at the

α = 0.05 significance level and state your conclusion.

(g) Let ρ be the correlation coefficient between X and Y , find an approximate 90%

confidence interval for ρ .

 

2. Assume that the distribution of X is N(µ, 25). To test the null hypothesis H0  : µ = 10 against the alternative hypothesis H1   : µ < 10, let the critical region be defined by C = { :  s 8}, where  is the sample mean of a random sample of size n = 25 from N(µ, 25).

(a) Find the power function K(µ) for this test . Hint: power is a function of the true

parameter value.

(b) What is the significance level of the test?

(c) What are the values of K(8) and K(6)?

(d)  (R) Sketch a graph of the power function. Hint: you may try µ from 4 to 12 . (e) What conclusion do you draw from the following 25 observations of X?

12.1    24.0    9.8    7.0    6.0    6.9    6.8    9.5

11.8    10.1    8.1    0.1   4.7    13.6    11.3    7.2    0.4

10.7    13.1    7.0    18.4   4.0    2.8    12.0    15.9

(f) What is the p-value of the test based on the observations in (e)?


3.  Students looked at the effect of a certain fertilizer on plant growth. The students tested this fertilizer on one group of plants (Group A) and did not give fertilizer to a second group (Group B). Let X and Y denote the respective growths of the plants (in mm) in Group A and Group B over six weeks. Suppose X and Y are independent random variables with distributions N (µX , σX(2)) and N (µY , σY(2)), respectively. A random sample from N (µX , σX(2)) of size n = 25 yielded  = 35.83 and sx(2)   = 23.81, while a random sample from N (µY , σY(2)) of size m = 29 yielded  = 31.51 and sy(2)  = 33.76.

(a) Assume σX(2)  = σY(2), test the null hypothesis at 1% significance level that the mean

growths are equal against the alternative that the fertilizer enhanced growth.

(b) If σX(2)   σY(2), test the null hypothesis at 1% significance level that the mean growths

are equal against the alternative that the fertilizer enhanced growth.

(c) Test H0  : σX(2)  = σY(2)  against H1  : σX(2)   σY(2)  at the α = 0.05 significance level.

 

4. In basketball, free throws or foul shots are unopposed attempts to score points by shooting from behind the free throw line  (informally known as the foul line or the charity stripe),  a line situated at the end of the restricted area.   Free throws are generally awarded after a foul on the shooter by the opposing team,  analogous to penalty shots in other team sports  (from  Wikipedia).   Let p1  be the probability of marking a successful free throw for a particular player  (Player A). Since p1   = 0.7, Player A decided to take a special training in order to increase p1 . After the training was completed, Player A made 117 free throws out of 150 attempts.

(a) Test whether the training improved Player A’s free throw probability p1  or not,

that is, test H0  : p1  = 0.7 against H1  : p1  > 0.7 at α = 0.05 significance level.

(b) We want to compared Player A (after training) and another player (Player B) in

terms of their free throw probabilities.  Let p2  be the population proportion of successful free throw shots for Player B. For Player B, he made 109 free throws out of 128 attempts. Test H0  : p1  = p2  against the alternative hypothesis H1  : p1  < p2 at α = 0.05 significance level.


5.  (R) When a stream is turbid, it is not completely clear due to suspended solids in the water. The higher the turbidity, the less clear is the water. A stream was studied on 26 days, half during dry weather (say, observations of X) and the other half immediately after a significant rainfall  (say,  observations of Y).   The following turbidities were

recorded in units of NTUs (nephelometric turbidity units):

x:    1.9    10.9   5.5    11.6     8.4     6.6   2.6

2.1     1.7   3.8     2.4     6.1     6.2

y:    8.8     5.2   2.2    13.9     8.2    11.4   6.5

5.4      5.1    9.4    10.5    23.4    10.7

(a) Using a significance level of 5%, perform an appropriate version of each of the

following tests. In each case, state the null and alternative hypothesis.

i. t-test

ii. Wilcoxon two-sample test

(b) How do the conclusions of these tests compare with each other?  Explain your

answer and what conclusion you would form overall.

 

6. The irrational number π  =  3.1415926535.... is a mathematical constant.   For i  e {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, let pi  be the proportion of decimal digits in π that equals i. One hypothesis on π is that the numbers 0, 1, . . . , 9 are equally (or discretely uniformly) distributed in the sense that pi   =  1/10 for i  =  0, 1, . . . , 9.   We want to test this hypothesis statistically.  It was counted that the frequencies of 0 - 9 in the first 1000 decimal digits of π are

93,  116,  103,  103, 93, 97, 94, 95,  101,  105,

respectively. Would the data support the hypothesis that pi  = 1/10 for i = 0, 1, . . . , 9? Let α = 0.05.


7.  (R) In order to test whether four brands of gasoline give equal performance in terms of mileage, each of three cars was driven with each of the four brands of gasoline. Then each of the 3 x 4 = 12 possible combinations was repeated four times. The number of miles per gallon for each of the four repetitions in each cell is recorded in the following

table:

Brand of Gasoline

Car            1                   2                   3                   4

1     31.0   24.9   26.3   30.0   25.8   29.4   27.8   27.3 26.2   28.8   25.2   31.6   24.5   24.8   28.2   30.4

2     30.6   29.5   25.5   26.8   26.6   23.7   28.1   27.1 30.8   28.9   27.4   29.4   28.2   26.1   31.5   29.1

3     24.2   23.1   27.4   28.1   25.2   26.7   26.3   26.4

26.8   27.4   26.4   26.9   27.7   28.1   27.9   28.8 

Perform a two-way analysis of variance to examine whether these data suggest that the output is affected by the car and the brands of gasoline.  State and test appropriate hypotheses at a 5% significance level. You should report the value of the appropriate statistic, the p-value, the assumptions you have made and your conclusions.   Is it possible to test for interaction? If yes, then perform the test and draw an interaction plot; otherwise, explain why it is not possible.

 

8. Let X have a Pareto distribution with pdf,

f (x) = θx− (θ+1),    x > 1,    θ > 0.

Suppose we have a random sample of n observations X1 , . . . , Xn  on X .

(a) Find the cdf of the sample minimum, X(1) .

(b) Find the p quantile, πp , of X .

(c) Find the asymptotic variance of the sample median, Mˆ .


9. Let X1 , . . . , X Uniform(0, θ), θ > 0.

(a)  Show that the prior with pdf

π(θ) = _ 

is a conjugate prior for θ (a > 0 and b > 0 are known constants).

(b) Using this prior, calculate the posterior mean.