Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STAT 231 Winter 2023 – Assignment 3

Due: April 6 2023, 11:59PM

Total number of questions:  4

Total points:  40

Instructions: submit your work as .pdf files through Crowdmark.  For the questions asking for a plot, make the plot in R and upload a pdf of the plot directly to the relevant question on Crowdmark.  Specific instructions will be provided on Crowdmark.

Round all answers to three decimal points unless otherwise specified.

1.  (10) Let Y1 , . . . ,Yn  G(µ,σ), where σ is known, and consider testing the hypothesis H0  : µ = µ0  against the alternative H1  : µ  µ0 .

(a) (1) Write down a suitable discrepancy measure for testing this hypothesis.

(b) (1) Give a formula for the p-value of the test in terms of the CDF of a G(0 , 1) random variable, which you should denote as Φ(z) = P(Z ≤ z),Z ∼ G(0, 1).

(c) (4) Suppose we reject H0  at the α level, 0 < α < 1. If H0  is true, what is the probability of rejecting H0 ?

(d) (4) Suppose we reject H0  at the α level, 0 < α < 1. If, in fact, µ = µ 1 , show that the probability of rejecting H0  is

P(reject;H1  true) = 1 [Φ (σ(µ0)1  + z1 α/2)Φ (σ(µ0)1  z1 α/2)] .

What happens to P(reject;H1  true) as n → ∞?

2.  (10) The hubble dataset in the gamair package contains 24 measurements of relative velocity, y, and distance from earth, x, of galaxies, measured using the Hubble telescope.  Astrophysicists are interested in modelling an association between the distance from earth and mean relative velocity of a galaxy, which can (apparently) be used to estimate the age of the universe.

(a) (2) Load the data (see Assignment 1, Question 3 for code for a similar example) and create a scatter plot of distance (x-axis) vs velocity (y-axis). Does a linear association appear plausible for these data?

(b) (2) Write down a Gaussian response model incorporating a linear association between the distance from earth and mean relative velocity of a galaxy. Make sure to define all terms clearly.

(c)  (2)  Compute point estimates of the slope  and intercept in  a linear regression for modelling the association described in part (b).

(d) (2) Check the fit of the model.  Include at least two graphical checks of model adequacy, and state your conclusion about whether the model appears to fit the data, with specific reference to your plots.

(e) (2) Compute a 95% confidence interval for the slope, and using this or otherwise, formally test the claim that there is no association between distance from earth and mean velocity, at the 5% level.  State your hypothesis and conclusions clearly.

3.  (10) The following data are observed:

y  <-  c(0 .29,0 .51,1 .21,-0 .53,0 .71,-1 .61,0 .11,1 .24,0 .89,1 .07)

(a)  (3) Using a  Gaussian model with σ  =  1 considered known,  test the hypothesis at the 5% level that these data come from a distribution with mean 0.  Show all your work, give a p-value and state your conclusion.

(b) (5) We actually also measured some covariate information:

x  <-  c(0 .06,0 .73,0 .77,0 .19,0 .20,0 .39,0 .00,0 .80,0 .40,0 .69)

We propose the following model: Y1 , . . . ,Y G(β北i , 1). Based on this model, test the same null hypothesis as in (a) at the 5% level, using a likelihood ratio test. Show all the details involved in constructing your test, give a p-value and make a conclusion.

(c) (2) Which test do you prefer for making inferences about the mean of Y? Explain your reasoning.

4.  (10) Toxicologists use a method called benchmark dosing to determine allowable exposure limits to toxic substances. A response of interest, Y , related to some adverse effect of exposure to a toxic substance, x, is modelled using a dose-reponse” model. Consider a linear dose-response model:

Y1 , . . . ,Y G(α + βxi ,σ).

For the remainder of the question we assume σ is known.  Benchmark dosing proceeds as follows.  Define a

reference level τ and a baseline proportion of affected individuals at zero exposure, 0 < p0  < 1, such that p0  = P(Y < τ;x = 0)

where Y follows the above dose-response model (with x = 0). Define a benchmark response” 0 < p+  < 1 p0

such that

p0 + p+  = P(Y < τ;x = xb ).

The object of inferential interest in this question is the benchmark dose, xb , as defined by the above equation. We seek a confidence interval for xb .

(a) (1) Show that p0  = Φ((τ − α)/σ), where Φ is the CDF of a G(0, 1) random variable. (b) (1) Show that p+  = Φ((τ − α − βxb )/σ) − p0 .

(c) (2) Hence, show that

xb  =  (zp0 +p+   zp0 )

where (as usual) za  = Φ 1 (a) is the a-quantile of a G(0, 1) random variable.

(d) (2) Suppose we fit the dose-response model by maximum likelihood and we get βˆ = .65, SD(βˆ) = .2.

Find the maximum likelihood estimate of xb , b , if σ = 1,p0  = .01,p+  = .01.

(e) (4) Give a 95% confidence interval for xb  in terms of βˆ, SD(βˆ),σ,p0 ,p+ . Compute this interval using the information in part (d).