Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Statistics – Biostatistics 5M

Sample Solutions

STATS 5015

2021

1.  [Notes to examiner:  Students have come across similar problems in lecture and tuto- rials, as well as in previous examination sheets which are available to them.]

(a)  Consider a clinical trial measuring a continuous response in two groups (drug and

placebo) called group A and group B .  The estimated mean response in group A is 3.9 and in group B it is 2.7. The standard deviation of the response within each treatment group is estimated to be σ = 0.9.

i.  Compute the number of patients needed in total to detect a difference in the mean responses across groups A and B assuming a significance level of 0.05 and a power of 0.9.                                                                       [3 MARKS]

N   =

=

=

(µA µB )2  [ϕ1 (1 α/2) + ϕ1 (1 β)]2

1 (0.975) + ϕ1 (0.9)]2

1(3).(.)8(9)22.7)2  [1.959 + 1.282]2

Thus we need 12 patients per group and that is 24 patients in total.  [1 mark]

ii. Without doing any calculations, how would you expect the number of patients per group N in the sample size formula to change in the following scenarios. Justify your answer.                                                                    [6 MARKS]

A. The variance σ 2  increases.

B. The significance level α increases (e.g α = 0.05 increases to α = 0.1).

C.  The power 1 β increases.

Solution:

[Notes to examiner:    Unseen example.]

A.  N increases.  [1 mark] A larger variance implies more uncertainty and therefore more information is needed to detect the desired difference in treatment effects. More information corresponds to more patients.

B.  N decreases.  [1 mark] A higher significance level means less information is deemed sufficient to show the result is a real effect and not only due to random chance. Less information corresponds to fewer patients.

C.  N increases.  [1 mark] A larger power means we want a higher probability to detect a difference in treatment effects if an effect is there. That can be achieved if more information is available, which corresponds to recruiting more patients.

iii. Assume we only managed to recruit 16 patients for the study and intend to assign 8 patients into each group.  If the significance level of 0.05 and power of 0.9 are to be retained, what minimum difference in treatment effects can we expect to detect?

Solution:

[Notes to examiner:    Unseen example.]

Define the treatment effect to be 6 = µA µB . Then

N   = 1 (1 α/2) + ϕ1 (1 β)]2

6   =   4 1 (1 α/2) + ϕ1 (1 β)]

6   =   4 1 (0.975) + ϕ1 (0.9)]

6   =   1.46

Thus, a minimum difference in treatment effects of 1.46 can be detected.

iv. Medical experts have advised you that the original minimum detectable differ- ence in treatment effects of 1.2 is the reasonable best case scenario. Compute what power the study has with the 16 patients you managed to recruit, given the original value of 6 = 1.2 and the significance level α = 0.05. Comment on your result.

Solution:

[Notes to examiner:    Unseen example.]

N = 1 (1 α/2) + ϕ1 (1 β)]2 4 =   ϕ1 (1 α/2) + ϕ1 (1 β)

4 ϕ1 (1 α/2)   =   ϕ1 (1 β)

1 β   =   ϕ [4 ϕ1 (1 α/2)]  1 β   =   ϕ [4 ϕ1 (0.975)]

power   =   0.76

Thus, assuming a significance level of 0.05, a difference in treatment effects of

1.2 can be detected with a sample size of 8 patients per group if one is willing to accept a lower power of 0.76.                                                    [1 mark]

v. Why would you likely have to recruit more patients than your calculation suggests?                                                                                         [1 MARK]

Solution:

Some patients are likely to drop out throughout the duration of the study, and in order to detect the desired difference in treatment effects it is necessary to retain N patients at the end of the study and therefore recruit more patients at the start.                                                                                            [1 mark]

(b) A meta-analysis was performed to combine the results from three independent

studies which evaluated the efficacy of a new treatment versus the standard treat- ment in the prevention and treatment of acute bronchitis.  The forest plot below summarises the results of the meta-analysis. The odds ratios (OR) from the three individual studies as well as the Mantel-Haenszel OR are plotted. The graph also shows the accompanying 95% confidence intervals (CI).



0.0      0.5      1.0      1.5      2.0      2.5      3.0      3.5      4.0

OR (95% CI)

i. Explain why the red, dotted line at = 1 is relevant in the above plot.

Solution:

In the context of ORs, a CI which does not include 1 is considered statistically significant.

ii. Based on the plot above, which of the three studies is likely to have had the largest sample size? Justify your answer.

Solution:

[Notes to examiner: Extension of standard technique.]

Study 1 is likely to have the largest sample size [1 mark], because it has the narrowest confidence interval.  [1 mark]

iii.  Give an intuitive explanation to why the Mantel-Haenszel OR has a smaller confidence interval than the odds ratios from the three individual studies.

Solution:

[Notes to examiner:   Extension of standard technique.]

The Mantel-Haenszel OR pools information from all three studies and there- fore gives a more precise estimate as it considers more data.          [1 mark]

iv. The confidence intervals for the odds ratios are computed on the log scale. What assumption does this strategy try to satisfy? Why is that assumption more likely to be met on the log scale?

Solution:

The confidence intervals are based on the normality assumption.  [1 mark] This assumption is more likely to be satisfied on the log scale because ORs are defined only for non-negative numbers, while the log odds ratios are defined on the entire real line and therefore match the support of the normal distribution.

v. Describe why it is more appropriate and ethical to carry out a meta-analysis than to conduct a new study in the following two situations:

A. First, assume the treatment under study is more beneficial than the cur- rent standard treatment.

B.  Second, assume the treatment under study is less beneficial than the cur- rent standard treatment.

Solution:

[Notes to examiner:    Unseen example.]

A. Individual studies may not provide sufficient evidence to approve a treat- ment due to small sample sizes.  Pooling the evidence from several such individual studies and computing a pooled effect size may give convincing evidence to approve the new treatment.  If this is the case it would be unethical to carry out another clinical trial and randomise patients into a control group.  [2 marks]

B. Individual studies may not provide sufficient evidence to show that a treat- ment is less beneficial than the current standard treatment.  Pooling the evidence from several such individual studies and computing a pooled ef- fect size may give convincing evidence to abandon the new treatment. If this is the case it would be unethical to carry out another clinical trial and randomise subjects into a treatment group.  [2 marks]

2.  [Notes to examiner:  Students have come across similar problems in lecture and tuto- rials, as well as in previous examination sheets which are available to them.]

(a)  Suppose a statistician is interested in modelling the survival time in decades (one

decade = 10 years) for a patient with kidney cancer. They represent the survival time by the random variable T, and assume its probability density function is given below.

f(t)  =

i.  Compute the survival function S(t) and the hazard function h(t) for this ran- dom variable T.

Solution:

[Notes to examiner:    Unseen example.]

In all that follows, the computations refer to t in the unit interval between 0 and 1.  To compute these functions we first need to compute the cumulative distribution function F(t). This is done by integration:

F(t)   =   \tf(x)dx

=   \0 t 3x2 dx

=    [3 × ]0(t)

=   t3

Thus we have that:

S(t)  =  1 F(t)  =  1 t3 ,

f(t) h(t)  =

=

3t2

1 t3 .

ii.  Compute the probability of surviving beyond 3 years, 6 years and 9 years.

Solution:

The probability of surviving beyond 3 years is:

S(t)  =  1 t3    =  1 ()3    =  0.97.

The probability of surviving beyond 6 years is:

S(t)  =  1 t3    =  1 ()3    =  0.78.

The probability of surviving beyond 9 years is:

S(t)  =  1 t3    =  1 ()3    =  0.27.

iii. How long is the median survival time?

Solution:

[Notes to examiner:    Unseen example.]

To estimate the median survival time we need to solve

S(t)  =  1 t3    =  0.5,

which implies that t = 0.51/3  = 0.79 decade, i.e. almost 8 years .

iv.  Sketch the survival function for 0 < t ≤ 1. Make sure to clearly label the axes.

Solution:

[Notes to examiner: Extension of standard technique.]

Breakdown of marks:

[1 mark]: Clear axes labels.

[2 marks]: Correctly plotted curve.

v.  Give one reason why this is unlikely to be a good model for real survival data, and name two distributions that might be appropriate parametric models to model such data.

Solution:

The most obvious reason is that after a decade every individual has died, so there is no possibility of surviving beyond 10 years.  [1 mark] The Weibull or exponential distribution might be more appropriate to model survival data.

(b) You are asked to fit a proportional hazards model to data from N patients who suffer from kidney cancer. The patients receive either the current standard treat- ment or a new treatment and the event of interest is the patient’s death. A single covariate z = (z1 , . . . ,zN ) indicates the type of treatment that patients received during the clinical trial.  If the ith patient receives the current treatment, then zi  = 1, otherwise for the new treatment zi  = 2, and i = 1, ...,N .  The random variable, T, denotes the time in years.

i. The hazards of the two groups of patients are proportional if: h(t, z = 1) = C × h(t, z = 2),

where C is a constant. The proportional hazards assumption for both treat- ment groups can be assessed using a plot.  Starting from the mathematical statement above, derive the y-axis quantities needed for the plot. Make sure to explain your reasoning behind every step. Next, explain how this plot should look like if the proportionality hazards assumption is satisfied. [5 MARKS]

Solution:

[Notes to examiner: Similar to examples covered in the lectures.]

The two hazards h(t, z = 1) and h(t, z = 2) are proportional if: h(t, z = 1) = C × h(t, z = 2).

One may express this proportionality assumption using cumulative hazards instead by writing:

H(t,z = 1) = C × H(t,z = 2).

The cumulative hazard function and survival function are linked by the rela-

tionship H(t) = log(S(t)). Hence:

log[S(t, z = 1)] = C × {−log[S(t, z = 2)]}.

Taking the log again gives:

log{−log[S(t, z = 1)]} = log(C) + log{−log[S(t, z = 2)]}.

Hence:

X1 (t) = log{−log[S(t, z = 1)]} log{H(t, z = 1)},

X2 (t) = log{−log[S(t, z = 2)]} log{H(t, z = 2)}.

To assess if the proportional hazards assumption is valid, one plots the quanti- ties log{H(t, z = 1)} and log{H(t, z = 2)} against survival time and checks if the two curves are parallel.

ii. You are given additional data revealing patient’s ages at diagnosis. Your up- dated covariate vector therefore consists of two covariates zi = (z1i,z2i), where i = 1, . . . ,N . The first covariate z1i is an indicator variable that specifies what treatment the ith patient receives, while the second covariate z2i  denotes the age of the ith patient.  In this context, what is the advantage of using the proportional hazards model over the Kaplan-Meier survival estimator?

Solution:

The proportional hazards model allows us to estimate the effect of the age covariate in the estimation of the survival and hazard functions.

iii. A proportional hazards model was fitted to the  data  and the  coefficients that correspond to the covariates z1   and z2  were respectively estimated as βˆ1  = 0.978 and βˆ2  = 0.0387.  Note that the baseline group for estimating β1 is the group of patients receiving the current standard treatment.  Interpret both parameters.

Solution:

The parameters can be naturally interpreted on the exponential scale, so first we take the exponential which gives:

HRNT vs ST  = exp(βˆ1 ) = exp(0.978) = 2.66,   HRAge  = exp(βˆ2 ) = exp(0.0387) = 1.039.

Interpretation of βˆ1 :  [1 mark]                                                                     After accounting for age, patients who received the new treatment (NT) have approximately 2.66 times higher hazard rates than patients who received the current standard treatment (ST).

Interpretation of βˆ2 :  [1 mark]                                                                     For patients in the same treatment group, the hazard rate increases by 0.039 (≈ 4%) for every year increase in age.


3.  [Notes to examiner:  Students have come across similar problems in lecture and tuto- rials, as well as in previous examination sheets which are available to them.]

(a) A spatial ecological study was conducted in England, which investigated the effect

of ozone concentrations (a type of air pollutant) on the number of hospitalisations due to severe asthma attacks. In addition to ozone concentrations, the % of people defined to be income deprived in each area was used to adjust for the impact of socio-economic deprivation. A summary of the covariates is provided below, where SD denotes the standard deviation.