Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Statistical Genetics (STATS4074)

2022

1. A blood group system has three alleles X, Y, and Z. X is dominant over both Y and

Z. Y is dominant over Z. A random sample of N individuals has their blood group measured.

(a) If the system is in Hardy–Weinberg equilibrium, the population allele proportions

of alleles X, Y and Z are 0.1, 0.4 and 0.5, respectively, and N = 1000, calculate the expected number of individuals in each of the three blood groups.   [3 MARKS]

(b)  Suppose now that the population allele proportions, p, q and r , of the alleles X,

Y and Z, respectively, are not known and you would like to perform inference of them, based on the sample consisting of Nx people with blood group X, NY people with blood group Y and NZ  people with blood group Z (Nx + NY + NZ  = N), still assuming that Hardy–Weinberg equilibrium holds.

i. Derive method-of-moments estimators (also known as Bernstein estimators) for p, q and r .                                                                               [3 MARKS]

ii. You decide to use the EM algorithm to try to nd maximum likelihood esti- mates of p, q and r . Write down the likelihood function that you are aiming to maximize.  Describe the algorithm fully, including formulae for both the E-step and the M-step, how you would initialize the allele frequencies and how you would terminate the algorithm.                                         [1,9 MARKS]

iii. By considering the number of parameters in the null and alternative hypothe- ses of a generalized likelihood ratio for Hardy–Weinberg equilibrium at this locus, or otherwise, discuss the utility of such a test.                 [2 MARKS]

2.  (a) For the purpose of estimating the recombination fraction between two loci, give one advantage and one disadvantage of a backcross experiment over a linkage analysis is family trees (pedigrees).                                                    [2 MARKS]

(b) A particular locus with two alleles is responsible for blindness in mice: the blind’

allele b is recessive with respect to the ‘seeing’ allele B. Another locus in mice with two alleles is responsible for deafness: the deaf’ allele d is recessive with respect to the hearing’ allele D.

i. If 1% of mice are blind and 4% of mice are deaf, estimate the population proportion of the BD/bd phased two-locus genotype, stating any assumptions you make.                                                                                     [3 MARKS]

ii. Describe a breeding strategy that, in the long run, is very likely to produce a population of mice that is homozygous both for B and for D.   [2 MARKS]

iii. A backcross experiment is performed in which BD/bd mice are mated with bd/bd mice. There are 500 offspring. Of these, 225 can both see and hear; 53 can see but are deaf; 42 are blind but can hear; 180 are both blind and deaf. Identify the meioses which are informative about recombination.  Of those, determine how many are recombinants and how many are non-recombinants. Hence, nd the maximum likelihood estimate of the recombination fraction θ between the loci.                                                                          [4 MARKS]

iv. Find an approximate 95% confidence interval for the θ estimated in the previ- ous part. Is there evidence that these two loci are on the same chromosome? Explain.                                                                                 [2,1,1 MARKS]

v. Assuming that recombination events occur along the chromosomes as a (ho- mogeneous) Poisson process, determine the maximum likelihood estimate of the genetic map distance between the two loci.   Interpret that distance in terms of the amount of recombination.                                    [2,1 MARKS]

 3. A locus has two alleles S and s. The allele S has population proportion 0.2. Consider the following pedigree:

F             M

The mother (M) has genotype SS.

(a) What is probability that the son (C1) has genotype SS too? Explain your working.

[4 MARKS]

(b) You are now told that C1 is SS. Given this additional information, what is the probability that the two daughters (C2 and C3) are both SS as well? Explain your working.                                                                                               [5 MARKS]

4.  (a) Let gt   be the probability that two allele copies drawn from the population in generation t (t = 0, 1, 2, . . . ) are the same allele (i.e., the homozygosity).

i.  Show, with careful explanation, that, under the Wright–Fisher model without mutation, homozygosity satisfies the recurrence relation:

gt1  =  + /1 gt ,

where the population consists of N diploid individuals.             [3 MARKS]

ii. By rewriting the equation in terms of heterozygosity ht  = 1 − gt  and solving

for ht , show that

ht  = h0  /1 t ,

where h0  is the heterozygosity in generation 0.                           [2 MARKS]

iii. If the population size was not constant, but instead had value Nt in generation t (t = 0, 1, 2, . . . ), what would be the new recurrence relation in part i. and the solution for ht  in part ii?                                                    [1,1 MARKS]

(b) An English breeder of guinea pigs (Cavia porcellus) decides to set up new busi-

nesses in Scotland (S), Wales (W), Northern Ireland (NI), the Isle of Man (IoM) and the Republic of Ireland (RI). He stocks all the new businesses (from his En- glish stock of rodents) with the same number of guinea pigs.  After enough time has passed for 10 generations of mating to have occurred, the allele frequency of one allele of a locus with two alleles is estimated in all the new businesses with

the following result:

S     W    NI    IoM    RI

Allele frequency  0.2   0.1   0.1    0.3    0.3

i. Estimate the allele frequency in the original English business and the hetero- gyzosity of the locus.

[1,1 MARKS]

ii.  Calculate the mean heterogyzosity in the new businesses after the 10 genera- tions have elapsed.

[2 MARKS]

iii. Use the result in part (a) to estimate the population size of guinea pigs in each business, assuming guinea pigs are diploid and that the population size for each business remained the same for each of the generations.    [3 MARKS]

iv. How might the analysis be improved?                                           [1 MARK]