Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit


Homework 1

Stat 120B/281B Winter 2022


Instruction:

Please submit your solution as a single PDF via GradeScope (through GradeScope tab on the left panel of Canvas). Please start a new page for each question (for ease of grading; of course you can use multiple pages for a question if needed). You can either handwrite and take photo/scan, write on a tablet, or type using LaTeX. (Tying you solution in Word is not recommended because it’s quite cumbersome to type all the math equations.)

Requirement on derivation/math proof:

For each question, please provide not only the final answer, but also the intermediate steps in the derivation. The grading of each question will take into account both whether the final answer is correct and, more importantly, if appropriate intermediate steps are included.

Recommendation on derivation/math proof:

The following serves as a recommendation instead of a requirement, because of the dif- ficulty in implementing it fairly in grading:  it is difficult to give a precise characterization of which equations should be justified. However, I would highly encourage you to adhere to the following, as it help you to find out what you really know and what you might think you know but you don’t.

In your derivations,  please make an effort to annotate the rationale/justification for important intermediate steps (just like the derivations you see in class). For example, if an equation follows from a Definition (e.g., Definition of MGF), from a Theorem we learned in class (e.g., Law of Total Expectation), or from some established result (e.g., Taylor expansion of ex), I encourage you to explicitly state it next to the equation.  (If you write in LaTeX, you can number the equations and explain the rationale for them using plain text after the math environment.)

You don’t have to be excessive about justifying every single equation, as most of them would be self-explanatory (e.g., if by some simple algebra such as (a + b)2  = a2 + 2ab + b2 , or if you are substituting!0x t dt by x2/2).

Which equation is self-explanatory and which equation should be justified is, honestly, subjective. With different level of math maturity and familiarity of the content (e.g., if this is your first prob/stat class, if you have taken other prob/stat classes before, or if you are already an expert in this area), you will have different answers to this question.  A general guideline is (i) to mimic the annotation in the derivations you saw in class, and (ii) think what might be useful annotation if you are explaining your derivation to a classmate.

 

Question 1

(a)  (5 points) Consider two random variables X , Y (not necessarily independent), and two

real numbers a and b. Prove that Var(aX+bY) = a2 Var(X)+b2 Var(Y)+2ab Cov(X, Y). (Hint: Use the properties of Cov() reviewed in class.)

(b)  (5 points) Prove that E[{X − E(X)}2] = E(X2) − {E(X)}2 , i.e., the two expressions

for Var(X) are indeed equivalent.

(c)  (5 points) Prove that E[{X − E(X | Y)}2  | Y] = E(X2  | Y) − {E(X | Y)}2 , i.e., the two expressions for Var(X | Y) are indeed equivalent.

 

Question 2

(a)  (5 points) Suppose X ∼ Poisson(λ1), Y ∼ Poisson(λ2), and X and Y are independent.

Using the fact that the moment generating function of Poisson(λ) is eλ(et − 1) , derive the distribution of X + Y .

(b)  (10 points) Prove that the moment generating function of Poisson(λ) is indeed eλ(et − 1) .

(Hint: You will likely use Taylor series for exponential function in the proof.)

 

Question 3

Consider a sequence of random variables X1 , X2 , . . ..  Suppose Xn  follows a discrete distri- bution taking two possible values {0, n2}, with P(Xn  = 0) = 1 −  and P(Xn  = n2) =  .

(a)  (5 points) Calculate E(Xn). What happens to E(Xn) as n → ∞?

(b)  (10 points) Does Xn converge in probability to some real number? If so, find that number

and prove. If not, explain.

 

Question 4

Consider flipping a (biased) coin for which the probability of head is p. The fraction of heads after n independent tosses is n . Law of large numbers imply that n   p as n → ∞ . This does not mean that n  will exactly equal to p, but rather the distribution of n  is tightly concentrated around p for large n.

(a)  (10 points) Suppose 0.1 < p < 0.9. Use Chebyshev’s inequality to obtain a lower bound

on

P(p − 0.1 < n  < p + 0.1).

(b)  (10 points) Suppose p = 0.6.  Using the above lower bound derived using Chebyshev’s

inequality, how large should n be so that P(0.5 < n  < 0.7) ≥ 0.95?

Note:  The purpose of this question is to enhance your understanding of Chebyshev’s inequality. In practice, the bound provided by Chebyshev’s inequality is usually very “loose” , in the sense that n actually only needs to be much smaller for P(0.5 < n  < 0.7) ≥ 0.95 to hold. A tighter bound for the setting we considered can be obtained by Hoeffding’s inequality (Example 6.15 in Wasserman) or Central Limit Theorem (we will study this in class). Note that the bounds from Chebyshev’s inequality or Hoeffding’s inequality are finite sample in that they hold for any finite n.  On the contrary, the bound from Central Limit Theorem is asymptotic, in that it is a statement about n → ∞ , and it only holds approximately for finite n.

 

Question 5

Let X1 , X some distribution with mean 1 and finite variance.  Let Y1 , Y some other distribution with mean 2 and finite variance. Suppose the Xi’s and the Yj’s are independent with each other.

(a)  (10 points) Prove that

X1 + X2 + · · · + Xn   P   1

Y1 + Y2 + · · · + Yn           2

(b)  (5 points) Does the above still hold if the Xi’s and the Yj’s are not independent with each

other? Explain.  (We assume the Xi’s themselves are still i.i.d. and the Yj’s themselves are still i.i.d.)

 

Question 6

One way to estimate π is to do the following. Suppose you draw a square and its inscribed circle on a piece of paper.  Then you randomly throw small grains one by one (or needles

that can piece through the paper — the idea is that you throw very small items of which the shape can be ignored). After many throws, you count the proportion of grains/needles that end up inside the circle, multiply it by 4, and that’s your estimate of π .

An illustration is as follows:

 

(a)  (5 points) How would you use i.i.d.   random variables to model the location of the

grain/needle throws?

(b)  (5 points) Write your estimate of π in terms of these i.i.d. random variables.

(c)  (10 points) Prove that under the i.i.d. model, your estimate of π converges in probability to π .

 

Question 7 (Optional)

Dr.   Watson and Mr.   Sherlock Homes are playing a game.   Dr.   Watson has a normal distribution with mean µ and variance σ2  for some µ ∈ R and σ2  > 1.  Dr. Watson knows the parameter values but Sherlock does not. Sherlock’s task is to guess µ .

Sherlock asks Dr.  Watson to generate i.i.d.  random variables Yi  from this N(µ , σ2). Dr.  Watson has taken Stats 120B and knows Sharlock would use the sample average to guess µ , thanks to Law of Large Numbers. So to make the game more interesting, for each i = 1, . . . , n, Dr. Watson does the following to generate Yi , independently across different i:

(Step 1) Dr. Watson generates Xi  ∼ N(0, 1).

(Step 2) Given Xi  = xi , Dr. Watson generates Yi  ∼ N(µ + xi , σ2 − 1).

(Step 3) Given Xi  = xi , Dr. Watson also generates a Bernoulli random variable, Ri  ∼ Bernoulli(g(xi)),

where g(xi) = 0.8 if xi  ≥ 0, and g(xi) = 0.2 if xi  < 0.  In other words, the function g(x) is defined as g(x) = 0.8 × 1(x ≥ 0) + 0.2 × 1(x < 0).

After Dr. Watson generates i.i.d.  (Xi , Ri , Yi) for i = 1, . . . , n, he discloses the following information to Sherlock:  The value of (Xi , Ri) for all i = 1, . . . , n; The value of Yi  only if Ri  = 1; The above three steps (of course, without telling Sherlock what µ and σ2  he used; in other words, Sherlock knows the mechanism under which certain Yi  values are disclosed and others are not).

Sherlock proposes to use the following to as his guess of µ:

 =   

Notice that even though Sherlock does not know the value of Yi  when Ri  = 0, he is allowed to use RiYi  in his guess, because RiYi  = 0 when Ri  = 0 regardless of the value of Yi .

Below are the questions:

(a)  (5 points) Show that Dr. Watson’s way to generate Yi  results in i.i.d.  Yi  with mean µ

and variance σ2 .  (One can further show that the resulting Yi  is indeed N(µ , σ2), but that requires some computation so I’m not asking you to do it.)

(b)  (5 points) Show that

E # $ = E(Yi)

(c)  (5 points) Show that   µ as n → ∞

(d)  (5 points) Suppose Sherlock’s older brother, Mycroft, proposes another guess for µ: by simply taking the sample average of those Yi’s that are disclosed to Sherlock.  That is, take the sample average of those Yi  where Ri  = 1.  Do you think this is a good guess? Briefly explain.

Hint:  The following may be useful.  (i) The fact that Ri  ⊥ Yi   | Xi .  (ii) Law of Total Expectation. (iii) Law of Total Variance.

Note:   is called the Horvitz-Thompson estimator for µ , which is a special case of a general method called Inverse Probability  Weighting  (IPW). When Ri  ⊥ Yi   | Xi , we say that Yi is missing at random given Xi  (from Sherlock’s perspective). This types of approach is commonly used in survey sampling to correct for missing data, where some individuals do not provide responses to a question (such as their annual income) but we are able to

model why they do not provide the response (usually based on their demographics and other available information).

Two additional points for you to think about (you don’t have to write down the answers): (i) Is the fact that Yi  follows normal distribution important in your derivation for (b) and (c)?  In other words, if Yi  follows some other distribution with mean µ , does (b) and (c) still hold? (This matters because in survey sampling somtimes we may not want to assume that the response follows a normal distribution.)  (ii) Can you come up with some intuitive explanation why this “weighting Yi  by Ri/g(Xi)” approach works?