Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

FINAL EXAMINATION

Semester 2 – 2019

STAT1008  QUANTITATIVE RESEARCH METHODS

Question 1 [23 marks]

1(a)  [1 mark] If data are left skewed, which of the following are true (circle just one):

(A) mean < median

(B) mean > median

(C) mean ⇡ median

1(b)  [1 mark] The histogram below was produced for a set of data. Which of the 3 boxplots below the histogram do you think corresponds to this data (circle just one of A, B or C).

 

1(c)  [3 marks] Suppose that P(A) = 0.5, P(B) = 0.7 and events A and B are independent. Calculate each of the following, where Bc  is the complement of B:

(i)  P (A and Bc )

(ii)  P (A or Bc )

(iii)  P (A|B)

1(d)  [3 marks] Suppose that a random variable Y follows a normal distribution with expected value µ = 7 and standard deviation σ = 2. Calculate the following, with your answers correct to at least three decimal places:

(i)  P[4.8 < Y < 10.2]

(ii)  P[Y < 3.5]

(iii)  P[Y = 6.1]

1(e)  [6 marks] A particular make of car has a known possible mechanical defect.  Approxi- mately 4% of cars of this make have the defect. There is a warning light for the defect, but it doesn’t work perfectly. If the car has the defect, the probability that the warning light will turn on is 90%.  If the car doesn’t have the defect, the probability that the warning light will turn on is 20%.

Out of the cars that show the warning light, what proportion would you expect to have the defect?

1(f)  [9 marks] A university estimates that microphones are malfunctioning or without power about 25% of the time. To ensure that a working microphone is available, they install four microphones in a lecture theatre.

(i)  Calculate the probability that at least two microphones will be working at a given time, assuming that the number of working microphones follows a binomial dis- tribution.

(ii) Recalculate your answer from (i) using the normal approximation and the conti- nuity correction.  Is it reasonable to use the normal approximation in this case? Why or why not?

(iii) Briefly suggest one reason why the binomial distribution might not apply, making your answer as specific as possible to this example.

Question 2 [30 marks]

NAPLAN is a standardised set of exams given to Australian school students in years 3, 5, 7 and 9. The exams are di↵erent in each year. An analyst is focussed on high school entrants’ grammar skills in a particular region, so he looks at the dataset of year 7 students’grammar scores from the 1000 year 7 students in 20 schools in the region in 2019. The sample mean of the 1000 scores is 530.9 and the sample standard deviation is 74.6. A histogram of the 1000 grammar scores is below:

Histogram of Year 7 NAPLAN Grammar Scores from a Particular Region

 

2(a) [1 mark] Are the grammar scores left-skewed, right-skewed or approximately symmet- ric?

2(b) [1 mark] Based on the histogram, do you think the mean year 7 grammar score is greater than, less than, or about equal to, the median?

2(c)  [5 marks] Calculate a 99% confidence interval for the expected value of the year 7 grammar score, justifying any assumptions or choices that you make.

2(d)  [15 marks] The researcher is particularly focused on comparing two particular schools: school A, which is the leading selective state school in the region, and school B, which is a leading private school in the region. The following sample statistics for the year 7 grammar scores are obtained: the sample means for school A and B are 544.4 and 529.7, respectively, and the sample standard deviations are 60.8 and 78.9, respectively.  The sample sizes for the two schools A and B are 60 and 40, respectively.  The researcher wants to carry out a hypothesis test with significance level ↵ = 0.05, where the null hypothesis is that the schools have equal expected value of the year 7 grammar score, and the alternative hypothesis is that the schools have unequal expected values.

(i)  Conduct a hypothesis test assuming equal variances for the two schools, clearly defining all symbols that you use, showing all working, and justifying any assump- tions or choices that you make.

(ii)  Conduct a hypothesis test allowing for possibly unequal variances for the two schools, clearly defining all symbols that you use, showing all working, and justi- fying any assumptions or choices that you make.

(iii) Which of (i) or (ii) is appropriate for this data? Why?

(iv) Interpret the conclusion of your chosen hypothesis test in one or two sentences, making your answer as specific as possible to this particular example.

(v) The researcher also wants to compare the proportion of year 7 students in the two schools who achieve excellent grammar scores, defined as 600 or higher.  A total of 9 out of the 60 students in school A, and 7 out of the 40 students in school B, are in this category.  Test the null hypothesis that the probabilities of achieving excellent scores are equal in the two schools, against the alternative hypothesis that school B has a higher probability than school A. Use a significance level (i.e. type 1 error rate) of 0.01.  It is acceptable to use the normal approximation for this calculation without a continuity correction. Show all working.

2(e)  [5 marks] The researcher decides that he wants to evaluate whether a particular group of ve year 7 students, who were in an intensive coaching programme in 2018, improved their NAPLAN grammar scores as a result. The year 5 results from 2017 from the ve students were: 581, 596, 527, 579, 584. The 2019 year 7 scores for the same students in the same order were: 595, 604, 548, 578, 585. Test the null hypothesis that there was no change in the expected values of the grammar scores between 2017 and 2019, against the alternative hypothesis that the expected score was higher in 2019, at a significance level of 0.1. You may assume that the data are normally distributed. Clearly show all working.

2(f) [3 marks] What can be concluded from your answer to 2(e) about the e↵ectiveness of the intensive coaching programme?

Question 3 [10 marks]

A professional association of retailers wants to measure how many of their current mem- bers use adequate accounting procedures.  They select a sample of 100 retailers, by taking every 10th retailer in their membership database, which is ordered by the date when a re- tailer joined the association. They then attempt to audit the accounting procedures of each responding retailer.

3(a)  [3 marks] What is the frame for this survey?

3(b)  [3 marks] What sample design is being used?

3(c)  [4 marks] Possible type of error in surveys include sampling error, coverage error, non- response error and measurement error. Indicate which type each of the following errors belongs to:

(i)  Only 50 out of the 100 selected retailers respond to the survey.

(ii)  Some respondents provide erroneous accounts to the auditor.

(iii)  Only 100 retailers are selected from the full population of 1000 retailers.

(iv) Retailers who only joined the association in the last month have not yet been entered into the membership database.


Question 4 [16 marks]

The MOTOR tyre test is an independent media evaluation of car tyre performances for 25 types of tyres .  A former champion race car driver has to navigate a curved course in a Peugeot 308 car, each time with a di↵erent set of tyres .  Over the course of a single day between 10am and  4pm,  25 time trials  are  conducted  (one  for  each tyre type),  and the  following  data  is recorded for each time trial:

• TIME: time taken to complete the course in seconds

• ELAPSED: time when trial is commenced  (measured in elapsed hours since 10am)

The value of TIME achieved with a given type of tyre then gives an indication of the quality of the tyre type .

However, they are concerned that the achievable speed may change over the course of the day, for example due to temperature changes, which may distort the results .  For example, if the values of TIME tend to get smaller across the course of the day, then the tyres tested late in the day will achieve faster times, which may give a false impression that they are of higher quality.  To try to correct for this, they t a linear regression of TIME against ELAPSED . They will then use the residuals from this regression as the measure of the tyre quality, rather than the raw values of TIME .

The regression output is below .

Eect

Coecients

Standard Errors

Intercept    ELAPSED

13 .26 -0 .286

0 .245 0 .070

4(a)  [2  marks]  What  are  the  independent  and  the  dependent  variable  in  this  regression model?

4(b)  [2 marks] A time trial result  (i .e .  value of TIME) of  12 .78 was recorded  at  11:30am . Calculate the residual for this observation .

4(c)  [4 marks] An extra time trial is conducted at 9pm on the same day.  What value of TIME would you expect? Point out the problem in using the regression model in this way.

4(d) [5 marks] Conduct a two-sided hypothesis test with a type 1 error rate of 0.05, to see whether the time of day had a significant e↵ect on the time trial result. Clearly specify the null and alternative hypotheses in symbols and in words, show the test statistic and critical value, and state the test result in words.

4(e)  [3 marks] A residuals plot is shown below. From this plot, what can you conclude about the appropriateness of the linear regression model in this case?

Residuals Plot for Tyre Time Trial Analysis

 

Question 5 [21 marks]

Type 1 diabetes (T1D) is an auto-immune condition which results in the pancreas (an organ) not producing insulin, so that patients must regularly inject insulin or use an insulin pump.  One of the primary measures of control of the condition is the HBA1c blood test, which is expressed as a percentage value typically between 4 and 5.6 for people without diabetes.  Management of the condition is considered to be satisfactory for most diabetic non-pregnant adults if a value of below 7 is achieved.

The HBA1c values from a sample of thirty T1D outpatients from a large hospital is compiled. The results are as follows:

Value of HBA1c

Number of T1D Patients

6.0

1

6.2

1

6.4

2

6.5

3

6.6

3

6.7

4

6.8

1

6.9

2

7.0

1

7.1

6

7.2

3

7.3

1

7.5

1

7.7

1

5(a)  [1 mark] What is the sample mode of HBA1c?

5(b)  [3 marks] Calculate the sample quartiles of HBA1c.

5(c)  [4 marks] Calculate a 95% confidence interval for the mean HBA1c.  Clearly show all working. (The sample mean is 6.847 and the sample standard deviation is 0.386.)

5(d)  [4 marks] A hospital administrator interprets your result from 5(c) as meaning that 95% of T1D patients have HBA1c within this interval. Is this a correct interpretation? Why or why not?

5(e) [6 marks] The hospital wants to know if the population mean HBA1c can be proven to be less than the satisfactory cuto↵ of 7, or whether the data is consistent with the population mean being equal to this cuto↵ . Define a null and an alternative hypothesis accordingly, using words and symbols, and conduct a hypotheses test with type 1 error rate of 0.1.

5(f)  [3 marks] Calculate the p-value for the hypothesis test from 5(e). You may approximate the t-distribution using the standard normal distribution for this calculation.