Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Semester 1 Final Examination

STA001-21-01

UTP Statistics-21-01

Question 1 (6 marks)

An advertising company wants to conduct a market research on a new product and have chosen a random sample of 400 target customers to help decide the most effective TV advertisement. They were each shown an advertisement (Version 1, 2 or 3) of the advertisement and asked the question “Are you going to buy the product?”. The numbers are shown below:

Advertisement viewed

“Are you going to buy the product?”

Version 1

Version 2

Version 3

Totals

Yes

52

96

22

170

No

30

172

28

230

Totals

82

268

50

400

 

(i) What is the probability of a target customer that answered “Yes” to the question and viewed Version 1 of the advertisement? Write down the calculations needed to find the answers (You do NOT need to work it out). (1 mark)

(ii) What is the probability of a target customer that answered “Yes” to the question or viewed Version 1 of the advertisement? (1 mark)

(iii) If the selected target customer answered “Yes” to the question, what is the probability that the advertisement viewed was Version 1? Write down the calculations needed to find the answers      (You do NOT need to work them out.) (1 mark)

(iv) If the advertisement version is found to be Version 1, what is the probability that the target         customer answered “Yes” to the question? Write down the calculations needed to find the answers: (You do NOT need to work them out.) (1 mark)

(v) Are the events “Version 1 advertisement was viewed” and answering “Yes” to the question independent events? No/Yes? (1 mark) Explain your reasoning. (1 mark)  (Total 2 marks)


Question 2 (5 marks)

Answers for this question may be given in any correct form. It is NOT necessary to simplify fractions.

Colic occurs when a healthy infant cries intensely for at least 3 hours a day. A recent research investigates the relationship between mother smoking status and the infant colic.  In an Asian   country, about 4% of mums are smokers and of these 60% of their infants are likely to develop colic. In the non-smoking mother population, 5% of their infants are likely to develop colic.

(a) Complete the tree diagram below by writing the relevant probabilities on each branch and the joint probabilities at the end of branches (You do NOT need to work them out). (2 marks)

 

(b) Use the tree diagram to answer the following. Write down the calculations needed to find the answers: (You do NOT need to work them out).

(i)        What is the probability that the infant has no colic if the mother is a smoker? (1 mark)

(ii)       What is the probability that an infant develops colic? (1 mark)

(iii)       Find the probability that a mother whose infant develops colic is not smoking.

(1 mark)

 

Question 3 (11 marks)

a)  In a study, 150 men with acrophobia (fear of heights) were randomly divided into three groups and received a different treatment for that disorder in each group.

(i)        Is this an observational study or an experiment? (1 mark) Why (1 mark)?

(Total 2 marks)

(ii)       State the major difference between an observational study or an experiment

using one sentence. (1 mark)

(iii)       If the researcher uses the so-called reallocation method to collect data, then

which distribution should be used? Bootstrap distribution or randomisation distribution? (1 mark)

(iv)      State   one   more   difference   between   a   bootstrap   distribution   and   a randomisation distribution apart from your answer in section (ii). (1 mark)

b)  If we have sampling distributions for a mean with sample sizes n =10 and n =20, then which standard error (s.e.) is smaller? (1 mark) Why? (1 mark)                             (Total 2 marks)

c)  The Department of Transportation of a country reported that 80.2% of the country’s airline flights arrived on time. One researcher randomly selected 50 airline flights.   Let X = the number of flights arriving on time.

(i)        What is the probability distribution for X? (1 mark) Explain your choice in two

sentences. (1 mark) (Total 2 Marks)

 

(ii)        Calculate the Z-score (2 d.p.) for 32 flights arriving on time if the mean is 40

flights  and  the  standard  deviation  is  2.82.  (Hint: z = μ)  (1  mark)  Would  you  be

surprised to learn that (32 flights arriving on time)? Use one sentence to explain. (1 mark) (Total 2 Marks)


Question 4 (7 marks)

Educators in Australia conducted a study to determine if 3-year-old children show any preference  for Lego blocks over colouring. Fifty children at the ages of 3 years were exposed to both a           colouring page and a Lego set. Interest in Lego or colouring was measured by the amount of time the child spent in each activity. The mean difference was 5.14 more minutes when building Lego   blocks, with a standard deviation of 2.28 minutes.

The educators want to determine if this is sufficient evidence to conclude that 3-year-old children prefer colouring over Lego blocks.

(i)  Name the test to determine if this is sufficient evidence to conclude that 3-year-old children prefer colouring over Lego blocks. (1 mark)

(ii)  Check the condition to use this test (your answer in part (i). (1 mark) If you had the dataset,

what would you also check? (1 mark) (Total 2 Marks)

(iii) State the null and alternative hypothesis clearly. (1 mark)

(iv) Calculate the standard error. (1 mark)

(v) Calculate the test statistic (  =    ି ). (1 Mark)

(vi) The P-value is 0.0002.  State the decision at α = 0.05. (1 mark)

 

Question 5 (9 marks)

A study was conducted to determine the proportion of people who dream in black and white           instead of colour. Among 310 people over the age of 55, 41 dream in black and white, and among

298 people under the age of 25, 14 dream in black and white. We want to use a 0.01 significance   level (α) to test the claim that the proportion of people over 55 who dream in black and white is       different from the proportion for those under 25. The s.e for the randomisation distribution is 0.023.

(i)        State the null and alternative hypothesis clearly. (1 mark)

(ii)       Find the test statistic (3 d.p.) (  =                                   ).

(1 mark)

(iii)      What does this test statistic mean? (1 mark)

(iv)      The P-value for the test statistic from part (ii) is 0.0002. Comment on the strength of the

evidence using the P-value approach to hypothesis testing. (1 mark)

(v)        State the conclusion in context. (1 mark)

(vi)      What confidence level is the related confident interval in this case? (1 mark)

(vii)      Calculate the related confident interval (in 3 d.p.) using the normal distribution. (Note,

z* for a 90% confidence interval is 1.645, for a 95% CI is 1.96 and for a 99% CI is         2.576; The formula of constructing a CI using the normal distribution is statistic ±∗  . ) (1 mark)

(viii)     Interpret the related confident interval in part (vi). (1 mark)

(ix)       If the researchers had used a 90% confidence interval would it be wider or narrower

than your calculated one? (1 mark)

 

Question 6 (7 marks)

One research aims at examining the relationship between movie genres and whether or not the  patrons of those genres bought snacks at the theatre. A random sample of 760 movie watchers was tested at a movie theatre in a large city in Indonesia. Results are broken down in the table   below:

Table 1

Observed Frequencies

 

Bought any snacks?

 

 

Yes

No

Total

Action

23

217

240

Comedy

30

220

250

Drama

30

155

185

Other

5

80

85

Total

88

672

760

(i) Assuming the variables ‘movie genre’ and ‘buying snack’ are independent, write down in the corresponding cell of table 2 below, the calculations you need to perform to find the specified    expected value (the cell marked with loop). (1 mark)

Table 2

Expected Frequencies

 

Bought any snacks?

 

 

Yes

No

Total

Action

 

 

 

Comedy

 

 

 

Drama

 

 

185

Other

 

 

 

Total

 

672

760

 

Question 6 (continued)

(ii) What is the name of the test that should be used to examine whether or not ‘movie genre’ and ‘buying snack’ are related? (1 mark)

(iii) Write down the null and alternative hypotheses for the test from part (ii). (1 mark)

(iv) With regards to expected frequencies, what assumption is required for the test in (ii) to be appropriate? (1 mark)

(v) Calculate (showing the formula and working) the degrees of freedom for the test from part (ii). (1 mark)

(vi) The hypothesis test on this data returned a P-value of 0.056. Write down the decision for this test, using α= 0.01. (1 mark)

(vii) Describe a visual display that would be appropriate to show the data for this test and write a sentence to explain why. (1 mark)

 

Question 7 (6 marks)

You are interested in estimating the difference in the average number of social media posts per week between two students at a local university. A random sample of 31 weeks for student A had a sample mean of ⃞= 76.81 and a random sample of 35 weeks for student B had a sample mean of ⃞  =

51.17.

(i) Write the hypotheses for a test (using  = 0.05) to determine whether there is a difference in the average number of social media posts per week between those two students. (1 mark)

(ii) What assumptions (if any) are required for this test to be appropriate? (1 mark)

StatKey Bootstrap CI For a Difference in Means output below gives the summary statistics for the

study:

 

StatKey also reports the following:

Samples

1000

mean

27.319

std. error

10.482

(iii) Calculate the 95% bootstrap CI for the true difference in the average number of social media posts per week between those two students using the s.e. method when there are 1000 samples (1 mark)

(iv) State the decision if you use the bootstrap CI. (1 mark)

 

Question 7 (continued)

In addition, the StatKey output below displays the randomisation distribution for the hypothesis

test.

 

(v) Write the P-value of this test. (1 mark)

(vi) What would be your statistical conclusion based on the P-value? (1 mark)

 

Question 8 (7 marks)

3528 students graduated from a university in 2019.

(i)        If we were to take random samples of 100 students graduated from that university in

2019 and calculate their average ages, then  = 21.05 years and  = 1.4 years. What

would the standard error of  be (Hint: E =  ௦ ) (1 mark)

(ii)       Describe using one sentence the Central Limit Theorem (CLT) for  . (1 mark) does CLT

hold in this case? (1 mark)                                                                    (Total 2 marks)

(iii)       If one researcher argues that the mean ages of all graduates for that university in 2019

was more than 22.40 years, then state the hypotheses. (1 mark)

(iv)      What is the degrees of freedom in this case? (1 mark)

(v)       Give a 95% confidence interval (3 d.p.) (Hint: statistic ± t∗  ∙ SE ) for the average age in this case (using ∗  = 1.984, )(1 mark)

(vi)      State the hypothesis test decision (1 mark)

 

Question 9 (12 marks)

A government agency wants to investigate the relationship between the displacement measured in litres (L) and highway efficiency in miles per gallon (mpg) for a sample of 21 cars.

The following is the output of StatKey.

 

(i) What type of graph is shown above? (1 mark)

(ii) Which variable is the explanatory variable? (1 mark)

(iii) Give the equation of the simple linear regression model in the context of the analysis i.e. not just using x and y. (Use 2 d.p. for the coefficients.) (1 mark)

(iv) Explain in one or two sentences how you would predict the expected highway efficiency when the displacement is 5.7 L. You do not need to work this out. (1 mark)

(v) Do you have any concerns about the predicted value in (iv)? Explain in one or two sentences. (1 mark)

(vi) Write a sentence to interpret the slope coefficient in context. (1 mark)

(vii) What is the intercept of the simple linear regression model in part (ii) and is it meaningful? Explain in one or two sentences. (1 mark)

(viii) Use the StatKey output to write down the correlation coefficient. What does this show about the strength and direction of the linear relationship between displacement of a car and the car’s highway efficiency? (1 mark)

 

Question 9 (continued)

The regression output from StatKey(using  = 0.05) is repeated below.

 

(ix) Calculate the coefficient of determination (to 3 d.p.) from the StatKey output. Explain in a sentence what this means in the context of this analysis. (1 mark)

(x) Write down the  null and alternative  hypotheses of the test for a relationship  between&n