Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit


STAT0024 – Social Statistics (2021)

     Answer ALL questions.

     You have three hours to complete this paper.

     After the three hours has elapsed, you have one additional hour to upload your solutions.

     You may submit only one answer to each question.

     The relative weights attached to each question are Question 1 (8), Question 2 (6), Question 3

(8), Question 4 (10), Question 5 (20), Question 6 (31), Question 7 (17) .

     The numbers in square brackets indicate the relative weights attached to each part question.

      Marks are awarded not only for the final result but also for the clarity of your answer.

Administrative details

     This is an open-book exam. You may use your course materials to answer questions.

     You may not contact the course lecturer with any questions, even if you want to clarify something or report an error on the paper. If you have any doubts about a question, make a note in your answer explaining the assumptions that you are making in answering it. You should also fill out the exam paper query form online.

     Some part-questions require text-based answers; many of these indicate a word limit.  These word limits have been set generously, so you should treat them as limits rather than targets to aim for.  If you exceed the limits you will lose marks.

Formatting your solutions for submission

     Some part-questions require you to type your answers instead of handwriting them. These questions state [Type] at the start of the part-question. You must follow this instruction. Failure to do so may  result in  marks  being deducted.  For questions without the  [Type] instruction, you may choose to type or hand-write your answer.

     You should submit ONE pdf document that contains your solutions for all questions/ part- questions. Please followUCL's guidance on combining text and photographed/ scanned work.

      Make sure that your handwritten solutions are clear and are readable in the document you submit.

Plagiarism and collusion

     You must work alone.  In particular, any discussion of the paper with anyone else is not   acceptable. You are encouraged to read theDepartment of Statistical Science's advice on   collusion and plagiarism.

      Parts of your submission will be screened via Turnitin to check for plagiarism and collusion.

      If there is any doubt as to whether the solutions you submit are entirely your own work you may be required to participate in an investigatory viva to establish authorship.


Question 1

In each of (a) and (b) below, a sampling scheme is described.  In each case name the type of scheme described, justifying your answer.  For each scheme state one advantage and suggest one potential problem.  Word limit: 100 words per part.

(a) [Type] To learn about students' attitudes to on-line exams, a university takes a simple random sample of 100 students from each of its 5 faculties and asks them a number of questions.   [4]

(b)  [Type] To  investigate people's attitudes to social distancing during an epidemic, a  researcher approaches shoppers at the entrance to a supermarket and administers a questionnaire.  [4]

Question 2

The three questions below are part of the questionnaire used in the survey in question 1(a).  Criticise each question, and suggest how to improve it.  Word limit: 25 words per part.

(a)  Do you agree that, as suggested by a lot of research, on-line exams are less stressful than exams taken in an exam hall? YES/NO.   [2]

(b)  Have you ever had technical issues uploading your script, or has it always gone well? YES/NO   [2]

(c)   Are you in favour of the university's decision to use on-line exams this summer and to limit the time allowed for each exam to 3 hours?  YES/NO.   [2]

Question 3

The following items from a questionnaire will be used to construct a Likert scale to measure attitudes to on-line shopping.

Item 1.  I prefer to see things before I buy them.

Item 2. There is a much better choice on-line than in the high street.

Item 3.  It is not fair that on-line retailers pay less tax than shops.

Item 4. The prices on-line are so much lower.

Each of these is answered on a five point scale with labels

strongly disagree/disagree/neutral/agree/strongly agree

The answers will be coded to a numerical scale of 2,  1, 0, 1, 2 and summed over the 4 questions for each respondent in the survey to construct a Likert scale.

(a) [Type] Discuss the polarity of the questions and hence suggest a suitable coding for each of them. Given your coding, how should a positive score on the Likert scale be interpreted?  Word limit: 200 words.  [4]

(b)  After the survey is carried out, the pairwise correlations between the responses to the 4 suitably coded questions are calculated, resulting in the following correlation matrix

1.00   0.53   0.38   0.41

0.53   1.00   0.60   0.36

0.38   0.60   1.00   0.44

0.41   0.36   0.44   1.00

Use these data to calculate Cronbach's alpha and comment on the reliability of the Likert scale.  [4]


Question 4

All  of  the  110  students  taking  STAT0024  last  session  were  invited  to  complete  the  course questionnaire.  Only 30 did so.

(a)  [Type] Discuss the implications of the 80 missing responses for the interpretation of the results. Word limit: 200 words.  [4]

The final question, which asks for an overall rating of the module, is on a five point scale labelled 1-5 and with "very poor" at one end and "very good" at the other.

(b)  [Type] What type of variable is the response to this question?  Justify your answer.  [2]

(c)  [Type] Suggest both a numerical and a graphical method for presenting the results of this question, explaining how your answer to (b) informed these suggestions.  Word limit: 200 words.   [4]

Question 5

A hospital with 10 different out-patient clinics wishes to investigate the methods of transport used by patients to travel to the hospital to attend these clinics.  The method of data collection in a clinic will be  to  send  an  interviewer  to  the  clinic  to  interview  patients  while  they  are  waiting  for  their appointments.  Suppose it can be assumed that the patients in the waiting room for a clinic at any moment are effectively a random sample from the patients who attend that clinic .   The hospital administrator responsible for organising this exercise has been told to use either stratified random sampling or two-stage cluster sampling, but doesn't know what either of these is.

(a)   [Type] Focussing on this context, explain to the administrator what each of these approaches would involve, illustrating your explanation with schemes leading to total sample size of 200.  Still focussing on this particular context, discuss the advantages and disadvantages of each approach, and the circumstances in which one or other would be the better option.   Word limit: 400 words.  [10]

The hospital would like to be able to estimate the proportion of patients using their own car for the journey with a precision such that a 95% confidence interval for this proportion has a width of 0.1. They  haven't yet decided which sampling scheme to adopt,  but a calculation of the sample size necessary to achieve this level of precision under simple random sampling from all clinics combined would give a good idea of the sort of effort that will be necessary.

(b)  Carry out this calculation, assuming that the size of the population of patients using all the clinics combined is 2000 and  making the worst-case assumption about the  proportion  being estimated. Define carefully the notation in any formula you quote. [5]

(c)   [Type]   If the proportions vary  between clinics, explain how stratified  random sampling with Neyman allocation can, in theory, exploit this fact to reduce this sample size whilst maintaining the same level of precision.  What is the problem with this in practice?  Word limit: 200 words.  [5]

Question 6

A company that delivers weekly food boxes to people's homes is considering adding an extra delivery route that will visit 4 villages of varying sizes.  To gauge demand they propose to carry out a survey using stratified random sampling to select a number of addresses in each village and sending an interviewer to these addresses to gather data that will result in an estimate of the possible weekly spend on the company's food boxes by that household.  The table below shows for each village the numbers of addresses the village, the sampling costs per address visited (the two larger ones are more spread out) and a guess at the within-village standard deviation of weekly spend.


 

Village

1

2

3

4

Number of addresses

700

500

300

150

Sampling cost per address (£)

9

9

4

4

Within-village standard deviation of weekly spend (£)

5

5

5

5

 

(a)  For a fixed total sample size n determine the optimal allocation of the sample between villages, taking account of sizes, costs and standard deviations.  Define carefully the notation in any formula you quote.   [4]

(b)  After allowing for all the other costs of the exercise, the budget available to cover the visits is £800.  Use this budget to determine the total sample size n and the sample sizes for the 4 villages.  [5]

(c)  Calculate the sample sizes for each village using proportional allocation with the same budget of £800. [7]

(d)  Carefully defining any notation you use, and without assuming which of the allocations in (b) or

(c) will be used, write down expressions for the estimator of the mean weekly spend per household of the population of 1650 houses in these villages and for its standard error.  [5]

(e)   Use the formula you wrote down in (d) to compute the standard error of the estimator if the optimal allocation in (b) is used.  [5]

(f)   Without making any further calculations, say whether you would expect this standard error to increase or decrease if proportional allocation were to be used.  Explain how the better of the two allocations achieves its improvement.  Is this improvement likely to be a large one?   [5]

Question 7

A population is formed of 5 clusters.  The cluster sizes Mi and the cluster totals Ti of some variable of interest are given in the table below.

 

Cluster, i

1

2

3

4

5

Total, Ti

60

60

30

20

10

Size, Mi

20

15

8

5

2

 

The cluster sizes are known, but the totals are not.   A single cluster is sampled by simple random sampling and the total t and size m are observed for the sampled cluster.  Two possible estimators of the population mean of the quantity of interest are t/m and t/Mave, where Mave  is the average size of the 5 clusters.

(a)  Using the information in the table on the population, compute the expectation and variance of each of these estimators under simple random sampling of clusters.  [8]

(b)  [Type] Comment on the results in (a): compare and explain them in this particular example, and comment on the implications for the general case of estimating a  population  mean from cluster sampling with variable cluster sizes.  Word limit: 300 words. [9]

END OF PAPER