Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STAT 231 Online Midterm Test Winter 2023

9-11 am, Saturday March 11

Special Instructions:

The Midterm Test is 2 hours in length. Use the Grading Scheme below to manage your time carefully.

Begin your answer to each of the 6 questions on a new page so questions can be loaded individually into Crowdmark.

Use blank paper only and write legibly with a pen or dark pencil.

Show all your work so partial credit may be given in the case of a wrong Önal answer.

Give Önal numerical answers to the number of decimal places indicated. For intermediate steps keep all decimal places to avoid round o§ errors.

Gaussian, Chi-squared and t tables are provided at the end of this test.

If you believe there is an issue with a question, make a note concerning the issue and answer the question to the best of your ability.

 

Marks

Q1

7

Q2

12

Q3

13

Q4

11

Q5

12

Q6

10

Total

65

1: [7 marks] Satellite dishes produced on an assembly line are checked for defects.  When two satellite dishes are found to have defects, the assembly line is shut down for maintenance. Each time the assembly line is shut down the total number of satellite dishes checked since the last shutdown is recorded.  Let Yi  = the total number of satellite dishes which have been checked when the assembly line is shut down for the iíth time.  Each satellite dish has a constant probability 9 of having defects. The probability function proposed for Yi  is

f (y; 9) = P (Yi  = y; 9) = (y _ 1) 92 (1 _ 9)y 2      for y = 2; 3; : : :   and  0 < 9 < 1                                (1)

Suppose y1 ; y2 ; : : : ; yn  are the observed data for n shutdowns.

(a) [4] Assume that the model (1) holds.  Determine the likelihood function L(9), the log likelihood function l (9), and the maximum likelihood estimate  based on the data y1 ; y2 ; : : : ; yn . Show all your steps for full marks.

(b) [2] During a two year period there were n = 35 shutdowns. Based on the observed data the maximum likelihood estimate of 9 was determined to be  = 0:02.  Based on these data and assuming the model (1) is valid, determine the maximum likelihood estimate of the probability that there is one defective statellite dish in the Örst 10 satellite dishes that are checked after a shutdown.

For full marks you must show all the steps you used to obtain this answer.  Give your answer to 4 decimal places.

(c)  [1] What theorem did you use to determine your answer in  (b)?   You  must  give  the  full  correct  name  of this theorem.

2. [12 marks] A random sample of 91 students aged less than 13 years was downloaded from the CensusAtSchool New Zealand

2017 website. In this question you are asked to analyse the variate height (What is your height, without shoes on? Answer

to the nearest centimetre.).  The heights for the 91 students were stored in the variable y in R. The following output and plots were obtained using R.

> mean(y)

[1]  149 .3736

>  summary(y)

Min .            1st  Qu .

125.0          140.0

>  var(y)

[1]  119 .8811

>  skewness(y)

[1]  0 .1806053

>  kurtosis(y)

[1]  2 .534591

Median

150.0

Mean

149.4

3rd  Qu .

157.0

Figure 1:

Max .

175.0

Figure 2:

 

Answer questions (a) and (b) using the information given above.

Use all the decimal places possible given the information provided.

(a) [2]

(i) sample standard deviation =                                                 

(ii) IQR =                                                  

(iii) range =                                                  

(iv) Height is a                                                    variate.

(b) [5] Using both the numerical and graphical summaries given above, assess whether it is reasonable to assume a Gaussian model for these data. You must use both graphical summaries and at least two numerical summaries. State your conclusion clearly and give reasons for your conclusion.  Be sure to clearly indicate what is expected for Gaussian data and what is observed for these data.

Your answer for this question must be written in complete sentences, not in point form.

To analyze the data on heights the model, Yi  V G (u; 7) ; i = 1; 2; : : : ; 91 independently is assumed, where

Yi  = the height in centimeters for student i, and u and 7 are unknown parameters. Use the information given at the beginning of this question to answer questions (c) and (d).

(c) [2] The maximum likelihood estimate of u is                                          

and the maximum likelihood estimate of 7 is                                            .

Answers should be given to 4 decimal places.  (You do not need to derive the maximum likelihood estimates.)

(d) [3] A 99% conÖdence interval for u is:

[                                 ;                                  ]

Show all your steps for full marks.  Use all decimal places for your calculations but give your Önal answer to 4 decimal places.  Use the closest value in the appropriate distribution table if necessary.

3: [13 marks] Suppose y1 ; y2 ; : : : ; yn  is an observed random sample from the distribution with probability density function

f (y; 9) = 9 (1 _ y)9 1      for 0 < y < 1  and  9 > 0                                                        (2)

(a) [4] Derive the maximum likelihood estimate of 9 assuming the model (2) and based on the data y1 ; y2 ; : : : ; yn . Show all your steps for full marks.

(b) [2] Supppose Y1 ; Y2 ; : : : ; Yn  is a random sample from the distribution with probability density function given by (2). You are given that _29 log (1 _ Yi ) ~ x2 (2), i = 1; 2; : : : ; n (you do not need to prove this). Use this result and theorem(s) from

the Course Notes to show that

U = _29 x log (1 _ Yi ) ~ x2 (2n)                                                                     (3)

i=1

Be sure to state clearly why the conditions of the theorem(s) you use are satisÖed.

(c)  [3] Explain clearly how the pivotal quantity  U given in  (3) can be used to obtain a two-sided, equal tailed,  100p% conÖdence interval for 9 .

(d) [2] Suppose W ~ x2 (30). Let a and b be such that P (W s a) = 0:05 = P (W > b). From the Chi-squared table:

a =                                                                     

b =                                                                      

Use all the decimal places in the Chi-squared table.

(e) [2] Suppose y1 ; y2 ; : : : ; y15  is an observed random sample from the distribution with probability density function given by (2) with

15

_2 x log (1 _ yi ) = 13:1

i=1

Using your results from (c) and (d), a two-sided, equal tailed, 90% conÖdence interval for 9 based on the pivotal quantity

15

U = _29 x log (1 _ Yi ) ~ x2 (30)

i=1

is:

 

[                                 ;                                  ]

Answers should be given to 3 decimal places.  Show all your steps for full marks .

4: [11 marks] In February 2020 the University of Waterloo participated in the National Survey of Student Engagement (NSSE). The purpose of the survey, which was administered to all Örst-year undergraduate students registered at the University of Waterloo, was to measure the degree to which students are engaged in their academics and other educationally purposeful activities. Email recruitment included an email invitation and four email reminders containing an individualized link which allowed the student to log into the survey with one click.

One of the questions on the survey was  ìDuring the current school year, how much has your coursework emphasized applying facts, theories, or methods to practical problems or new situations?î Of the 3; 534 students who completed the survey, 1134 answered ìVery muchîto this question.

The answers to parts (a), (b) and (c) must be written in complete sentences, not point form.

(a)  [1] The University of Waterloo used an empirical study to collect information about the degree to which Örst-year undergraduate students are engaged in their academics and other educationally purposeful activities.  What is the study population for this study?

(b) [2] The Plan step of the empirical study included an email invitation and four email reminders containing an individualized link which allowed the student to log into the survey with one click.  Using complete sentences give at least one advantage and at least one disadvantage of using the online survey in this context.

(c) [5] To analyse these data assume the model Y ~ Binomial (3534; 9) where Y = number of students who answered ìVery muchîto the question.

(i) State clearly the assumptions for a Binomial model.

(ii) Explain, with reasons, whether or not these assumptions hold in this context.

(iii) What does the parameter 9 represent in this study?

(d)  [3] For the assumed model Y  ~ Binomial (3534; 9) and the observed data y  =  1134, a 95% approximate conÖdence interval for 9 is:

[                                 ;                                  ]

Show all your steps for full marks.  Use all decimal places for your calculations but give your Önal answer to 4 decimal places.  Use the closest value in the appropriate distribution table if necessary.

5: [12 marks]  Telephone Intervention May Reduce Risky Alcohol Consumption

Psychiatric News, September 22, 2022

Participating in at least two sessions of a telephone-delivered intervention may help reduce total alcohol consumption, alcohol problem severity, and risky drinking patterns among patients with alcohol use problems, according to a study published yesterday in JAMA Psychiatry.

ìAlcohol use disorders are estimated to a§ect 5:1% of the adult population worldwide,îwrote Dan Lubman, Ph.D., of Monash Addiction Research Centre in Victoria, Australia, and colleagues.  ìYet, the magnitude of alcohol consumption and attributable harms remains in sharp contrast to the low rates of treatment use.î

Between May 25, 2018 and October 2, 2019, Lubman and colleagues recruited participants aged 18 and older with problem alcohol use from across Australia via clinician referrals. Problem alcohol use was deÖned as a score of more than 6 for females and more than 7 for males on the Alcohol Use Disorders IdentiÖcation Test (AUDIT). Possible scores on the AUDIT range from 0 to 40.  AUDIT also measures hazardous use, harmful use, and dependence symptoms.  ParticipantsíAUDIT scores were assessed at baseline and again three months later.

Half of the recruited participants were assigned at random to the intervention group while the other half were assigned to the active control group. Those in the intervention group received four to six 30_ to 50_ minute sessions of a telephone- delivered cognitive and behavioral intervention called Ready2Change. After receiving a clinical assessment in the Örst session, trained counselors introduced the participants in the intervention group to the following practices in session two:  keeping a daily alcohol diary; identifying participantsítriggers; assistance managing urges with SOBER breathing (a mindfulness- based practice that includes Öve steps:  stop, observe, breathe, expand, and respond); and establishing a helpful routine. The counselors tailored the remainder of the sessions (o§ered weekly) to individual participants, based on their reasons for engaging in treatment and challenges they faced.  The active control group received alcohol consumption guidelines, stress management pamphlets, and four telephone check-ins that were Öve minutes or less.

Among 344 participants, two-thirds had AUDIT scores corresponding to the highest category of probable dependence, and only one-third had previously sought treatment for their alcohol use.  Sixty-Öve percent of participants randomized to the intervention group completed the program (deÖned as participating in at least four sessions), and 80% of participants in the control group completed the program.

The AUDIT scores decreased signiÖcantly from baseline to three months in both groups, falling from 21 to 12:8 in the intervention group, and from 22:1 to 14:9 in the active control group. The intervention group showed a signiÖcantly greater reduction in hazardous use. When adjusting for exposure to two or more sessions, the researchers found that the intervention group had a greater reduction in their total AUDIT scores compared with the control group.

ìThe results of this clinical trial support the beneÖts of a telephone-delivered intervention in a general population sample of individuals who do not typically seek treatment for alcohol use problems, despite experiencing high problem severity,î the authors concluded.  The ìÖndings demonstrate the potential beneÖts of this highly scalable telehealth model of alcohol treatment, with potential to reduce the treatment gap for problem alcohol use.î

Answer the following questions based on this media article. Your answers must be written in complete sentences, not point form.

(a) [2] This study can be best described as which of the following: an observational study, a sample survey or an experimental study? Justify your answer.

(b) [1] Clearly deÖne the Problem for this study in one or two sentences.

(c) [1] What type (descriptive/causative/predictive) of Problem is this and why?

(d) [2] Give two important variates that were collected in this study and state the type of each.

(e) [1] For one of the variates you gave in part (d) give a corresponding attribute of the study population. (f) [1] Based on the given information, give a suitable target population/process for this study.

(g) [1] Based on the given information, give a suitable study population/process for this study.

(h) [3] Give the deÖnition of study error.  Give one possible source of study error for this study in relation to your answers to (e) ; (f) and (g).

6. [ 10 x 1 = 10 marks] Enter your answers for parts (a) to (j) here.

Only this page will be marked for Question 6.

(a) Suppose y- is the sample mean,  m^ is the sample median,  s2   is the sample variance, IQR is the interquartile range, (y(n) _ y(1) ) is the range, g1  is the sample skewness, and g2  is the sample kurtosis of the numerical data set {y1 ; y2 ; : : : ; yn }. Suppose a new data set {u1 ; u2 ; : : : ; un } is created using the transformation ui  = a + byi , i = 1; 2; : : : ; n where a and b are constants with b  0. Which ONE of the following statements is not always TRUE?

A:  The sample median of the data set {u1 ; u2 ; : : : ; un } is a + bm^.

B:  The sample mean of the data set {u1 ; u2 ; : : : ; un } is a + by-.

C:  The sample variance of the data set {u1 ; u2 ; : : : ; un } is b2 s2 .

D:  The IQR of the data set {u1 ; u2 ; : : : ; un } is bIQR.

E:  The sample kurtosis of the data set {u1 ; u2 ; : : : ; un } is g2 .

(b)  Answer this question based on the qqplot given in Figure 3. Which ONE of the following statements is FALSE?

A:  The IQR for these data is 1:62.

B:  The sample median for these data is 0:42.

C:  The relative frequency histogram for these data would be reasonably symmetric.

D:  The sample kurtosis for these data would be less than 3.

E:  A Uniform model would not be a suitable model for these data.

Figure 3:

 

(c) Which ONE of the following statements is FALSE?

A:  A scatterplot can always be used to graphically examine the relationship between two variates. B:  The range of a data set can be determined from the empirical cumulative distribution function. C:  The IQR is more robust to outliers than the sample standard deviation.

D:  A run chart is a good way to summarize numerical data collected over time.

E:  Pie charts and bar graphs can be used to graphically represent categorical data.

(d) Answer this question based on the curves in Figure 4. Which ONE of the following statements is FALSE? A:  The upper quartile for Dataset 1 is 6:1.

B:  The range for Dataset 2 is 9:8.

C:  The probability histogram for Dataset 1 would have a long right tail.

D:  The sample standard deviation for Dataset 2 would be smaller than the sample standard deviation of Dataset 1. E:  The number of observations in Dataset 1 is larger than the number of observations in Dataset 2.

Figure 4:

 

(e) In Figure 5 there are side-by-side boxplots for 3 di§erent data sets. Which ONE of the following statements is FALSE?

A:  The sample skewness of Dataset 1 is similar to the sample skewness of Dataset 3.

B:  The relative frequency histogram for Dataset 2 would be right-skewed.

C:  The relative frequency histogram of Dataset 3 would be more bell-shaped than the relative frequency histogram of

Dataset 1.

D:  The IQR for Dataset 2 is 1:3.

E:  The sample mean of Dataset 2 would be less than its sample median.

Figure 5:

 

(f) Suppose a random sample of size 15 from a G (u; 7) distribution gave  = 1:3 and 2  = 3.  The maximum likelihood estimate of the 0:17 quantile of the G (u; 7) distribution based on these observed data is

A:  1:0927

B:  0:8365

C:  _0:4951

D:  _1:8092

E:  None of the above

(g) A study was conducted by researchers in California in 2020 to decide if there was a di§erence in recovery between a 5-day dose and a 10-day dose of the antiviral drug Remdesivir among patients hospitialized with severe Covid-19 symptoms. Four hundred participants were randomized to receive either the 5-day dose or the 10-day dose.  At the end of the dose period whether or not the patient had been discharged from the hospital was recorded.

Which one of the following is a possible attribute of interest for this study?

A:  The sample proportion of study participants who were discharged from the hospital after a 10-day dose of Remdesivir B:  The method used to determine whether patients received a 5-day or 10-day dose of Remdesivir

C:   The proportion of American adults with Covid-19 who see a reduction in symptoms following a  10-day dose of

Remdesivir

D:  The symptoms of patients who received a 10-day dose of Remdesivir

E:  None of the above

(h)  For a Gaussian experiment the 90% conÖdence interval for u (7 unknown) was 2:2 ± 0:5. Which ONE of the following statements is TRUE?

A:  The interval [1:7; 2:7] is also a 10% likelihood interval.

B:  P (u e [1:7; 2:7]) = 0:90.

C:  We are 90% conÖdent that u = 2:2.

D:   If the Gaussian experiment was repeated 100 times independently and a 90% conÖdence interval was constructed each time then 90 of these intervals would contain the true value of u.

E:  None of the above statements are true.

(i) Consider an experiment in which data Y1 ; Y2 ; : : : ; Yn  are to be sampled from a population, and the sample mean

Y =

A: B:

C:

n

x Yi  is to be used to estimate the mean of the population. Which ONE of the following statements is FALSE?

i=1

The location of the sampling distribution of the sample mean Y is a§ected by the sample size n.   The variability of the sampling distribution of the sample mean Y is a§ected by the sample size n.

The variability of the sampling distribution of the sample mean  Y  is a§ected by the standard deviation of the

population.

D:  How often the sample mean Y is within one unit of the population mean is a§ected by the standard deviation of the

population.

E:  The shape of the sampling distribution of the sample mean Y is a§ected by the shape of the population.

(j)  Suppose Y V Binomial (n; 9). An experiment is to be conducted in which data y are to be collected to estimate 9 . To ensure that the width of the approximate 95% conÖdence interval for 9 is no wider that 2 (0:03) = 0:06, the sample size n should be at least:

A:  792

B:   1068

C:  1100

D:  1692

E:  2401