Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Econ 117

Intro to Data Analysis and Econometrics

Midterm Exam Spring 2019

1.  Rules

● You can use any notes you have written or printed on both sides of a single sheet of paper.

● You can use a calculator, but it cannot have communication or internet capa- bilities.

● You must have your mobile phone put away for the entire exam.

● If you leave to use the restroom, do not take your phone with you.

●  The exam will last 75 minutes. Do not open the exam until asked to do so.

●  There are 5 questions totaling 75 points on the exam (1 point per minute).

●  Somewhat challenging questions are labeled with  “*” and challenging questions are labeled with “***”. We recommend doing harder questions last.

2.  Before the exam

● Write your name on all of your blue books (you need 4).

● Label book 1 “Q1”, book 2 “Q2 and Q3”, book 3 “Q4”, and book 4 “Q5” .

●  Answer the questions in their corresponding blue books.

3.  During the exam

●  Inside each book, letter each sub-question clearly.

●  Please write neatly and show your work.  If you show your work completely, but do not calculate the final numeric answer, you will still receive full points.

● You do NOT need to show work on the TRUE or FALSE questions.  Only answer TRUE or FALSE (please write out the whole word).

●  Make sure your final answer is clearly marked.

●  If you need to make assumptions, please clearly state them in your answer.

4.  When the exam ends

●  Stop writing immediately when the exam ends.

●  Hand in both this exam and your blue books.

● If you borrowed a calculator, hand that in, too.

Question 1. Do older siblings influence younger siblings’ choices to use drugs? (24 points, answer in blue book 1 of 4)

Altonji, Cattan and Ware (2017) “Identifying Sibling Influence on Teenage Sub- stance Use” argues that drug-use by the older sibling has a large impact on the decision of the younger sibling to use drugs, but that older siblings are largely uninfluenced by the choices of their younger siblings.

Consider the ten i.i.d.  randomly sampled households below (drawn from the population of households with two children living in the house). Each row rep- resents one randomly selected household. The old sib variable is an indicator for if the older sibling has ever done drugs (taking on 1 if they have ever done drugs and 0 othersise). The young  sib is an indicator for if the younger sibling has ever done drugs (taking on 1 if they had ever done drugs and 0 otherwise). The both male variable is an indicator for if both siblings are male (taking on the value of 1 if both siblings are male and 0 otherwise).

old_sib

young_sib

both_male

1

1

1

1

0

0

0

1

0

1

1

0

0

0

0

0

0

1

1

1

1

1

0

0

0

1

0

0

0

0

(a) Make a probability table reporting the joint and marginal probabilities for the old sib and young sib variables (fractions are fine) .

(b) What is the marginal probability of a younger sibling doing drugs  (for these 10 observations)?

(c) What is the probability of a younger sibling doing drugs, conditional on an older sibling doing drugs (for these 10 observations)?

(d) What is the joint probability of both siblings doing drugs (for these 10 observations)?

(e) Are young sib and old sib independent? Provide some evidence . (continued on next page)

(f)  Suppose I had the data above saved in a data. frame called sib dt and I ran the following code:

subset(sib_dt, both_male  ==  1)

What would this return (write this out – it does not need to look like R code or output)?

(g)  *** Calculate the sample covariance of old sib and young sib using the 10 data points above.

(h)  *** Suppose I define a new random varible Z = old sib +young sib . What is the sample variance of Z?

Question 2.  True or False (6 points, answer in blue book 2 of 4) For the questions below, please answer if they are TRUE or FALSE. You do not need to show work or justify your answer.  Please write out the whole word “True” or “False” and not “T” or “F” .

(a) For a continuous random variable X, the probability density function (pdf) evaluated at any value x is zero.

(b) The central limit theorem says that the z-standardized sample mean con- verges in distribution to a normal distribution with mean 0 and standard deviation 1.

(c) An estimator can be unbiased, but not consistent.

(d) If X and Y are both random variables taking on the values 0 or 1, then Pr(X = 1|Y = 0) + Pr(X = 1|Y = 1) = 1.

Question 3.  Short Answer (16 points, answer in blue book 2 of 4)

(a)  Suppose X ~ N (3, 5) and Y ~ N (2, 1) and that X and Y are independent. Define W = X Y.

i. What is the distribution of W (include the mean and variance in your answer, not only the name of the family of the distribution)? ii. What is Var(2 .W)?

(b) Let X be a discrete random variable that is equal to 0 with probability 0.25, equal to 1 with probability 0.4, equal to 2 with probability 0.25, and equal to 3 with probability 0.10.

i. Plot the CDF of X.

ii. Let fx (x) represent the probability function (also called the probabil- ity mass function) for discrete random variable X .

● What is fx (2)?

● What is fx (2.5)?

iii. What is E[X]?

(c)  *** Suppose we learn from a news article that in the U.S. Senate 70% of female senators are democrats and that 47% of senators are democrats. Using only these two numbers, how many times more likely is a democrat senator to be female than a republican senator?   (Assume  Senators  are either democrats or republicans)

Question 4. Intellectual Property Rights and Innovation (15 points, answer in blue book 3 of 4)

In the paper “Intellectual Property Rights and Innovation: Evidence from the Human Genome,” Professor Williams studies the impact of intellectual property rights on innovation by studying the sequencing of human genes by a public effort and a private enterprise.

Intellectual property rights exist to incentivize firms to invest in research. One  way to evaluate the effectiveness of intellectual property rights focuses on whether the prospect of obtaining these rights induces firms to develop new technologies.  This paper focuses on a different question:  do intellectual property rights on  existing technologies hinder subsequent innovations?

The Human Genome Project (HGP) was launched in 1990 as a publicly funded initiative to sequence the entire human genome.  Importantly, it required that all sequenced genes be placed in the public domain. This public effort finished sequencing the human genome in 2003. In 1999, the private firm Celera began sequencing the human genome and held intellectual property rights over all the genes sequenced by Celera but not yet sequenced by the Human Genome Project. This enabled Celera to sell its data, although it was known at the time that all of Celera’s genes would be sequenced by Human Genome Project by 2003.

The code below studies the data used in Professor William’s paper, which is saved in an R data.frame called gene data where every row corresponds to a sequenced gene.   That  data.frame contains two variables:  test is a dummy variable that takes on 1 if a medical test was developed for that gene and is otherwise 0.  all celera is a dummy variable that takes on value  1 if Celera discovered the gene and is otherwise 0.

#  Mean of indicator for if test for gene was ever developed .

> mean ( gene _data $ test )

[1] 0.06039739

#  Mean of indicator for if gene was discovered by Celera

> mean ( gene _data $ all _ celera )

[1] 0.06032566

#  Subsetting data to only genes discovered by Celera

>  gene _data _ celera < - subset ( gene _data , all _ celera == 1) #  Mean of indicator / dummy variable for if a test for gene

was  ever developed   in  the data restricted to only genes found by Celera

> mean ( gene _data _ celera $ test )

[1] 0.03032105

# Subsetting data  to   only genes discovered  by the   Human Genome Project

>  gene _data _not _ celera < - subset ( gene _data , all _ celera ==

0)

#  Mean of indicator / dummy variable for if a test for gene

was  ever developed   in  the data restricted to only genes found by the Human Genome Project .

> mean ( gene _data _not _ celera $ test )

[1] 0.06232824

[You can round to 3 decimal places when performing your calculations]

(a) Using the R output above, What it E[test|all celara = 1]?

(b)  Using the R output above, how many times more likely is the development of a test when a gene is discovered by Human Genome Project than when discovered by Celera?

(c)  * Using the R output above, estimate the probability a gene was discovered by Celera given that a test was developed.

(d)  * Use the R output above to calculate Pr(all celera = 1 ∩ test = 1) .

(e)  * Using the R output above, what is the standard deviation of the test variable?

Question 5. Testing Hypothesis: Eviction Records (14 points, answer in blue book 4 of 4)

Housing advocates often stress the importance of appropriate legal assistance throughout the eviction process, saying that “most” defendants without lawyers lose. We will use 100 observations of defendants without lawyers to test this.   Consider the binary random variable E that takes value 1 if the tenant is evicted and is otherwise 0.  Let µ = E[E] = Pr(E = 1) be the parameter of interest. Consider the following R output.1

> describe ( data $ E ) data $ E

n missing

100 0

distinct

2

Info

0.707

Sum

62

Mean

0.62

Gmd

0.476

> unique (