Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STAT0024

Social Statistics

2019

Section A

A1. (a) In each of the following cases, what type of non-sampling errors (i.e. biases) might

occur? Explain your answer.

(i) A medical study on the association between childhood infections and cancer in which a group of parents of children with cancer  (cases) and a group of random parents of children who do not have cancer(controls) are asked to list the infections their children had up to age 5.

(ii) A study on the effectiveness of an alcohol addiction treatment programme in which the results are collected from those who completed the whole programme (and not those who dropped out during the programme).

[4]

(b) Explain why each of the following questions in surveys might not be well-designed and/or lead to response bias. Suggest appropriate alternatives.

(i)  “Have you been to the cinema recently?”

(ii)  “Do you agree with the majority of people that the quality of the health care in the country is falling?”

(iii)  “Do you think that food prices are increasing at the same rate as a year ago, at a faster rate, or at a slower rate?”

[6]


A2. Identify the scale type of each of the following measurements of the time of day. Justify

your answer.

(i) Morning, Afternoon, Evening, Night

(ii) A 12-hour clock: 12midnight–1am–2am– . . . –12noon–1pm–2pm– . . . –12midnight

(iii)  AM, PM

[6]



A3. (a) Define the concept of reliability of measurement instruments. Express the quantified

version of reliability using the notion of correlation.


[3]

(b) Define  Cronbach’s α.   List all the assumptions needed such that the quantified reliability expressed in (a) yields the Cronbach’s α. (No need to prove anything.)

[4]

(c) A small questionnaire with four items is set up in which responses are coded using a Likert scale, and the following correlation matrix for the responses was obtained:


Item1

Item2

Item3

Item4

Item1

1.00

0.82

0.91

0.21

Item2

0.82

1.00

0.90

0.65

Item3

0.91

0.90

1.00

0.66

Item4

0.21

0.65

0.66

1.00


(i)  Calculate Cronbach’s α for this questionnaire.  What does this value suggest about the reliability of the measurement?

[3]

(ii) If you have to remove one item from the questionnaire, which one would you remove? Why?

[2]


A4. (a) Explain, by the use of an example, the difference between sampling elements and

sampling units when performing sampling in a social survey.

[2]

(b) Describe how cluster sampling distinguishes between the sampling elements and sampling units.

[2]

(c) By introducing the necessary notation, provide the estimator for the population mean under cluster sampling when the individual cluster sizes are unknown.

[3]

(d) Assume that the values within clusters and cluster sizes are independent.

(i)  Show that the estimator in (c) is unbiased if and only if E[ l mi ] =

where mi  is a sampled cluster size and Mi  is a population cluster size.

(ii)  Show that the obtained condition in (i) holds if and only if = M¯, i.e. the sam- ple mean and the population mean are equal.  (Hint:  Use Jensen’s inequality: if X is a random variable and φ is a convex function, then φ(E[X]) < E[φ(X)] with equality if and only if X is deterministic.)

[5]


Section B

B1. Consider a simple random sample of size n, drawn without replacement from a population

of size N (with N e {N | N > 2} and n e {N | 1 < n < N}). Let Ul , . . . , U denote the N units of the population and ul , . . . , un denote the n sampled units from the population.

(a)  Suppose that ur  and us  are two distinct sampled units (with r s). Show that

P(ur  = U/ , us  = Us ) =

for some (j, k) e {1, . . . , N} × {1, . . . , N} with j k .

[3]

Now suppose that yl , . . . , yn denote sample values where E(yi ) = µ and Var(yi ) = σ 2  and that Yl , . . . , Y are the outcomes for the N members of the population.

(b)  Show that the covariance of two distinct sample values yr  and ys  (with r s) is

σ 2


You may use, without proof, the formula for population variance, σ 2 .

[7]

(c) Using the obtained formula for Cov(yr , ys ), prove that the variance of the sample total tn  is

Var(tn ) = nS2 (1 _ f),

where S2  is a population variance and f = n/N is the sampling fraction.

[4]

(d) An investigator is interested in estimating the mean annual salary of full-time em- ployed graduates from a particular university within 12 months of graduation.  A sample of n = 600 graduates is used and the total number of graduating students is 2061. We denote

yi  =   Annual salary (in pounds) of the itY  graduate. The sample mean and sample standard deviation are given by:

y¯ = 31300; s = 6900.

Find the 95% confidence interval for the population total annual salary. (No need to prove how the form of the confidence interval is obtained. You may find the following quantiles of the standard normal distribution helpful: zd ′d25  = 1.96, zd ′d5  = 1.645.)

[4]

(e) Interpret the meaning of the confidence interval that you calculated in (d).

[2]



B2. A sampler proposes to take a stratified random sample with 2 strata.  She expects that her sampling cost c will be of the form     i cini , where ni  is the stratum i sample size and ci  is the sampling cost of a sample from stratum i.  Her advance estimates of relevant quantities for the two strata are as follows.


Stratum

stratum weights

stratum standard deviation

sampling costs

1

0.4

10

f4

2

0.6

20

f9


(a)  Show that the values nl /n and n2 /n that minimize the total sampling cost for a given value of the variance ν of the sample mean are 1/3 and 2/3 respectively.

[6]

(b) Assuming the sample size is very small compared to the population size, for each stratum, find the sample size required, under this optimal allocation, to make ν = 1. Show that the total cost will be f1936.

[5]

After the sample is taken, the sampler finds out that her sampling costs were actually f2 per unit in stratum 1 and f12 in stratum 2.

(c) How much greater is the sampling cost than anticipated?

[2]

(d) If the sampler had known the correct sampling costs in advance, could she have attained ν = 1 for the original estimated sampling cost?  Find the answer without finding the new allocation.  (Hint:  Try to find the minimum possible value of the cost with ν/  = 1, by minimizing the product v/ c/ , and using the Cauchy-Schwarz inequality (    i ai(2))(    i bi(2)) > (    i ai bi )2 .)

[7]


B3. (a) Explain four reasons for which non-response may occur in a social survey.

[2]

(b) Explain how introducing  “do not know” in a questionnaire affects the item non- response rates (in both cases where  “do not know”s are and are not included in the count of non-response). Is it a good idea to provide the “do not know” option? Discuss.

[4]

(c) Explain the assumptions behind the following missing data classifications:

(i) Missing completely at random (MCAR)

(ii) Missing at random (MAR)

(iii) Missing not at random (MNAR)

[5]


In an opinion poll for an upcoming election with two parties M and N, three regions (with equal population) A, B and C of the country have been surveyed. 1000 people from each region have been sampled and asked whether they will vote for party M or party N . However, due to a typing error, respectively, 20%, 30%, and 40% of the collected data from regions A, B, and C are lost.  The following table shows the percentage of each party preference in the three regions among the non-missing collected data.

% of vote

party/region

A

B

C

M

20

50

70

N

80

50

30


(d) Find an estimate for the percentage of votes each party will obtain in the election based on this survey when we use the complete pooling of the data and each of the following methods:

(i)  Complete case analysis

[2]

(ii) Inverse probability weighting with respect to stratum

[2]

(iii) Mean imputation within each stratum

[3] (e)  Comment on the similarities and differences of the three methods used in part (d).

[2]