Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

L1079 Mathematical Statistics:

Mock Exam Solutions

December 2022

Question 01: If A and B are disjoint subsets of the sample space, then the associated events A and B are independent.

Answer: False. Recall that if sets A and B are disjoint, then the events A and B cannot occur jointly. Thus, if we are told that one of the events (say A) has happened, then the conditional probability of the second event becomes zero. The two events are thus clearly not indepen- dent.

Question 02: It is known that 10% of the population of a country is infected with a virus. A randomly chosen person is tested for the viral infection. The test has 100% sensitivity and 50% specificity. What is the probability that the person actually has the virus, given that his test result is positive?

Answer: 0.18 (approximately). The question is asking for the positive predictive value of the test.  Suppose we start with 100 people.  Because the test is 100% sensitive, all 10 people who are actually infected will test positive. Because the specificity is 50%, only half of the re- maining 90 people will test negative, implying that 45 of them will test positive. So there are 55 people who test positive, out of which 10 are actually infected, i.e. the positive predictive value is  (approximately 0.18).

Question 03: A coin is tossed 5 times. The probability that the coin comes up Heads on any toss is 0.3 (you may assume that the tosses are independent).  I get a dollar each time the coin comes up Heads (and nothing otherwise). My expected earnings from 5 tosses are given by:

Answer: $1.5. My earnings will equal the number of Heads obtained. This is a binomially dis- tributed random variable with n = 5 and p = 0.3. The expected value of a binomial variable is np, which in this case is 1.5.

Question 04: In a men’s tennis match, the players play up to 5 sets, until one player wins at least three (at which point the match ends). Two players A and B are playing a match. Player A has a constant 30% chance of winning a set, and this probability is independent of how many sets have been played. What is the probability that player A wins the match in exactly four sets?

Answer: 0.06 (approximately). Each set that is played can be thought of as a Bernoulli trial, in which the probability of success (defined as player A winning) is 0.3. For player A to win in exactly four sets, he must win the fourth set (which occurs with probability 0.3), and win exactly two of the first three sets. The latter event can happen in three different ways, each with probability 0.3 × 0.3 × 0.7. Thus, the final probability is 0.06.

Question 05: A random variable Y has a probability density function given by: f(y) = y2 , 0 ≤ y ≤ 2, = 0 elsewhere. The median value of Y must be:

Answer: ^34. The median value, m, is that number such that: l0m y2  = 0.5 which works out to be m = ^34.

Question 06: A poll is conducted to determine the proportion of voters, p, who approve of a presidential candidate. Suppose that 2 randomly chosen voters are polled. We want to test the hypothesis that p = 0.5. Suppose our decision rule is to reject the null hypothesis if nei- ther of the voters approves of the candidate. What is the probability of type I error associated with our rejection rule?

Answer: 0.25. The probability of type I error in this case is the probability is that both voters disapprove (given that the true value of p is 0.5). If the true value of p is 0.5, then each voter has a 0.5 probability of disapproving (or approving) the candidate, given that the proportion of voters who approve of a presidential candidate is 0.5. Thus, the probability of type I error will be 0.5 × 0.5 = 0.25.

Question 07: Two random variables X and Y have the same probability distribution. What is the probability that X = Y?

Answer: Not enough information to comment. The probability distribution is just a descrip- tion of which values a random variable can take and with what probabilities. Two completely different random variables (corresponding to two completely different experiments, for ex- ample), could have the same probability distribution.  Without knowing how the random variables are related, we cannot say anything about the probability that X = Y .

Question 08: The joint distribution of random variables W and Z (each of which takes one of two possible values) is represented in the table below, where the cell values denote joint probabilities:

 

 

W

 

 

1

2

Z

1

0.1

x

2

0.3

y

It is known that W and Z are independent. The values x and y must therefore be:

Answer: 0.15 and 0.45, respectively. If independent, then P(Z∩W) = P(Z)P(W). Therefore, P(Z = 1 ∩ W = 2) = P(Z = 1)P(W = 2) ⇒ x = (0.1 + x)(x + y). Also, P(Z = 2 ∩ W = 2) = P(Z = 2)P(W = 2) ⇒ y = (0.3 + y)(x + y).  Solve the two equations simultaneously to get x =  and y = , which is 0.15 and 0.45, respectively. Alternatively, For the random variables to be independent, the probability distribution of W given Z = 1 must be the same

as the probability distribution given Z = 2. This implies y(北)  =  . Further, x + y = 0.6 (so that

all probabilities sum to 1). Putting these together, we have that x and y must equal 0.15 and 0.45, respectively.

Question 09: A and B are two postmen. They start work on day 1 and work independently. The probability that a postman suffers a dog bite on any given day is 0.5. What is the proba- bility that the two postmen will suffer their first dog bite on the same day (you may assume that dog bites are independent across days as well as postmen)?

Answer: 0.33. Let p denote the probability of a dog bite on a given day. The event in ques- tion could happen on the first day, the second day, the third day, and so on.   The prob- ability it happens on the first day is p2 .  The probability it happens on the second day is

[(1 − p)p] × [(1 − p)p]  = p2 (1 − p)2 , and so on.  Therefore the full probability is given  by

p2 + p2 (1 p)2 + p2 (1 p)4 + p2 (1 p)6 + ... = 1−(1(p)p)2 . When p = 0.5, this works out to 3(1)  or

Question 10: I take a slice from a cake. Let the random variable X denote the proportion of the cake that the slice represents. Assume that X is uniformly distributed over the interval (0, 1).  I then take a slice from the first slice –– let the random variable Y denote the pro- portion of the total cake that the second slice represents. The conditional distribution of X, given Y = y, is:

Answer: Not uniform. Clearly, X must take values between y and 1. But it is also intuitive that smaller values have a greater probability than larger values, so the conditional distribution of X cannot be uniform.

Question 11:  In this question, you must indicate ALL the correct answers.  Let Y1 , ...,Y1 0 represent a random sample of size ten from a population with unknown mean θ .  Consider two statistics W and Z such that W is the mean of the first 5 sample observations, and Z is the mean of the next 5 observations. The statistics W and Z :

Answer: Are both unbiased estimators of θ, have the same standard error, and are both in- efficient estimators of θ .   Since the sample mean is always an unbiased estimator of the population mean regardless of the sample size, we know that both W and Z must be unbi- ased estimators of θ . We also know that the standard error of the sample mean is given by the population standard deviation divided by the square root of the sample size, so this must be the same for both estimators.  However, it is clear that an estimator such as the sample mean that uses all the observations would have a lower standard error and therefore be more efficient than either W or Z.

Question 12: The length of time required by students to complete a one-hour exam is a ran-

dom variable with a density function given by: f(y) = cy2 + y, 0 ≤ y ≤ 1, and = 0 elsewhere. Find a value of c such that the function above is a valid probability density function.

Answer:   . The density function f must satisfyl01 (cy2  + y)dy = 1. The integral is l01 (cy2  + y)dy =  +  I0(1)  =  +  . So we obtain the equation  +  = 1. Solving this we obtain c =  .

Question 13: It is known that in a population of 80 first-year students, 10% are left-handed. A sample of 10 is taken (without replacement).  What is the probability that 3 of them are left-handed?

Answer:  0.05 (approximately).  This is a typical hyper-geometric problem where   = 0.05.

Question 14:  Let Y1 , ...,Yn  represent a random sample from the probability mass function f(y) = (θ + 1)yθ , 0 < y < 1 , θ > − 1, and = 0 elsewhere.  Find the Maximum Likelihood Estimator (MLE) for θ .

Answer: – lnY(n) − 1. First write down the likelihood function: L(y1 , ...,yn |θ) = (θ+1)n ( yi )θ .

ℓ(θ)\  =  + ln( yi ). Set this equal to 0 and solve for θˆ (for sake of brevity I am writing

 yi  as  y hereon):  −  = ln( y) ⇒ θˆ + 1 = −ln 对(n)y   ⇒ θˆ = −ln 对(n)y  − 1 which is the

same as  lnY(n)  1.

Question 15: It is known that 10% of the population of a country is infected with a virus. A randomly chosen person is tested twice for the viral infection, and tests positive both times. The test has 100% sensitivity and 50% specificity.  What is the probability that the person actually has the virus?

Answer:  0.31.   Let’s work this out in two steps of Bayesian updating.   Using the usual notation, we have, after the first test result:  P(H+ |T+ )  =    =   0.18. Now we consider the result of the second test, but now the prior belief is that P(H+ ) = 0.18. Using Bayes’ Rule as before, we have: P(H+ |T+ ) =  ≈ 0.31.

Question 16:  Suppose X is uniformly distributed on the interval ( 1, 1).  What is the dis-

to specify the probability density function of Y correctly).  (The modulus, or absolute value,

function, | |, replaces negative values with positive values of the same magnitude, and leaves

positive values unchanged).

Answer: Uniform over (0,1), and the PDF is 1 over this interval. Applying the modulus over the range, we get that X is uniformly distributed on the interval (0, 1), therefore the PDF must be 1 over this interval.

Question 17: We have a coin that comes up heads with unknown probability p. We throw the coin repeatedly until the coin comes up heads for the first time. We repeat this experiment three times with the same coin, and obtain the following data:

First experiment: First heads comes up on the 3r d throw.

Second experiment: First heads comes up on the 5t h throw.

Third experiment: First heads comes up on the 4t h throw.

Determine the maximum likelihood estimate of p, based on these observations.

Answer:    .   The number of tosses till the first success follows a geometric distribution.

Since we are repeating the experiment three times with a total of 9 failures and 3 suc-

cesses, the likelihood function for the data is given by L  = p3 (1 − p)9 .  The log-likelihood

is lnL = 3ln(p) + 9ln(1 p). Maximizing with respect to p, we obtain pˆ = 4(1) .

Question 18: The probability density function of any random variable must always take a value between 0 and 1.

Answer: False. Probability density can be greater than 1.                                                           Premise for Questions 19, 20. The following two questions refer to this setting: Two buyers are participating in an auction for a painting. The auction proceeds as follows: Each buyer submits a sealed envelope containing her bid (in writing), and the winner is the person who bids the highest amount. Buyer 1’s valuation of the object is given by v1 and buyer 2’s valua- tion is v2 (you can think of these as the value (in money terms) that each buyer derives from the painting). The seller (or auctioneer) does not know either valuation, but believes that the valuations are both independently drawn from a uniform distribution on the interval (0,1).

Question 19:  Suppose first that the winner only needs to pay the amount that was bid by the loser.  (This kind of auction is called a second-price sealed bid auction”).  Suppose it is known to everyone that each buyer will bid an amount equal to her valuation of the painting. How much will the seller expect to get for the painting?

Answer:  . The seller will get the minimum of the two valuations. Denote this by the random

variable Y . Then Y = min(v1,v2). Clearly, Y takes values over the range (0, 1). We need to

find the expected value of Y . First derive the CDF of Y :

FY (y) = P(Y < y) = P(min(V1 ,V2 ) < y)

= 1 − P(min(V1 ,V2 ) > y) = 1 − P(V1  > y,V2  > y) = 1 − P(V1  > y)P(V2  > y)

= 1 [1 FV (y)]2  = 1 [1 y]2

= 2y y2 .

Since, FY (y) = 2y y2 , the PDF of Y is given by f(y) = 2 2y .

The expected value of Y is therefore E(Y) =l01 y(2y − y2 )dy .

Question 20:  Suppose instead that the winner will need to pay whatever she bids.  (This kind of auction is called a first price sealed bid auction”). Suppose that in this auction, it is known that each buyer will bid an amount equal to half of her valuation. How much will the seller expect to get for the painting?

Answer:   .  In this case, the seller will receive the maximum of v1 /2 and v2 /2.  Denote this random variable by Y, and need to find the expected value of Y . Notice that Y takes values between 0 and  . As before, start by deriving the CDF of Y :

FY (y) = P(Y < y) = P(max( , ) < y)

= P(V1  < 2y,V2  < 2y)

= P(V1  < 2y)P(V2  < 2y)

= FV (2y)2

= 4y2

Since, FY (y) = 4y2 , the PDF of Y is given by f(y) = 8y .

The expected value of Y is therefore E(Y) =l01/2 8y2 dy .

Working this out, we again obtain E(Y) =  .