Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Econ 184b, Fall 2021, Midterm Exam 2

Question 1

Does smoking affect body weight? Fang et al. (2009) investigate this relationship using data from the China Health and Nutrition Survey (CHNS) 2006. This dataset surveys people from nine provinces in China. Only male respondents who are at least 18 years as of 2006 are included in their sample. They construct the Body

Mass Index (BMI) for each respondent using actual height and weight.

They first estimate a simple linear regression model using OLS:

BMIi  = β0 + β1 smokingi + OtherControls + ei

●  BMIi : is the body mass index of individual i (a continuous measure of body weight)

●  smokingi : is the number of cigarettes smoked per day by individual i

Other controls include local community-level variables and province where he lives, age, education, marital status, health, occupation, and drinking behavior.

They also use a 2SLS estimation strategy to overcome problems related to endogeneity. The two instruments used are:  (1) the average number of cigarettes smoked per day in the local community where the respondent lives (avg_cig_com), (2) the local price per pack of the most commonly smoked brand of cigarettes (price_cig).

The results are summarized in Table 1.

 

(a)  The authors explain the following in their study:  An important issue to consider in estimating the relationship between smoking and body weight is that smoking may be endogenous.  Suggest a reason why smoking might be endogenous in regression (1).

(b)  The paper proposed two instrumental variables to correct for the endogeneity. For each instrument, explain whether it is likely, or unlikely, to be (i) relevant (ii) exogenous.

(c)  Explain the findings in column (2). Why do we regress smoking on avg_cig_comprice_cig, and all other control variables? What does that give us?

(d)  Do you agree with the following statement:  “The results in Table 1 indicate that smoking will significantly reduce BMI.? Explain.

Question 2

Scott Resnick collected data for the 1994-1995 men’s college basketball (NCAA) seasons. The dataset include the following variables:

●  spread: Las Vegas prediction of the point spread on the day before the game was played. For example, spread = 5 means that the booker predict that the team will win by 5 points; spread = -10 means that the booker predict that the team will lose by 10 points.l

●  home:  =1 if the team played at home

●  neutral:  =1 if neutral site

●  away:  =1 if the team played away

●  own25:  =1 if the team was in top 25

●  opp25:  =1 if the opponent was in top 25

●  ownregion:  the team’s region of country

●  oppregion:  the opponent’s region of country

●  scrdiff:  score difference between the team and its opponent

●  win: =1 if the team won the game

(a):  Out of the 553 games, team favored by the Las Vagas bookers won 422 games, and lost 131 games. Derive the (unconditioned) maximum likelihood estimator (MLE) for the probability p : the booker-favored team wins the game.

(b)  Consider a linear probability model to estimate the probability that a team wins :

P (win = 1lspread) = β0 + β1 spread

Explain why, if the spread incorporates all relevant information, we expect β0  = 0.5.

(c)  The estimated model is given as the following. What is the estimated probability that the team wins when spread = 20 ?

lm1  =  lm(win  ~  spread,data=data_long)

coeftest (lm1,vcov=vcovHC)

##

##  t  test  of  coefficients:

##

##                               Estimate  Std.  Error  t  value    Pr(>|t|)

##  (Intercept)  0.50000000  0.01215354    41.140  <  2.2e-16  ***

##  spread             0.02444047  0.00068561    35.648  <  2.2e-16  ***

##  ---

##  Signif.  codes:    0  !*** !  0.001  !** !  0.01  !* !  0.05  ! . !  0.1  !  !  1

(d)  Now estimate a probit model for P(win=1|spread), shown below. What is the estimated probability

that the team wins when spread = 20 ? Leave your result as a function of Φ .

glm1  =  glm(win  ~  spread,data=data_long,family=binomial(link="probit"))

coeftest(glm1,vcov=vcovHC)

##

##  z  test  of  coefficients:

##

##                               Estimate  Std.  Error  z  value  Pr(>|z|)

##  (Intercept)  6.5145e-17  4.4485e-02      0.000                 1

##  spread             9.1474e-02  5.0473e-03    18.123      <2e-16  ***

##  ---

##  Signif.  codes:    0  !*** !  0.001  !** !  0.01  !* !  0.05  ! . !  0.1  !  !  1

(e)  Consider the model that estimates home court advantage with a logit model.

P (win = 1lX) = F (β0 + β1 home + β2 neutral + β3 own25 + β4 opp25)

What is the estimated home court advantage (predicted difference between home=1 vs. away=1) between two top25 teams (own25=1 & opp25=1)?

(Note: A game can be played either at home, away, or at a neutral site. Away is the omitted category here.)

glm1  =  glm(win  ~  home  +  neutral  +  own25  +  opp25,

data=data_long,family=binomial(link="probit"))

coeftest(glm1,vcov=vcovHC)

##

##  z  test  of  coefficients:

##

##                           Estimate  Std.  Error  z  value    Pr(>|z|)

##  (Intercept)  -0.483444      0.062908  -7.6850  1.530e-14  ***

##  home                  0.966888      0.084510  11.4411  <  2.2e-16  ***

##  neutral            0.483444      0.162297    2.9788    0.002894  **

##  own25                0.826387      0.119789    6.8987  5.248e-12  ***

##  opp25               -0.826387      0.119789  -6.8987  5.248e-12  ***

##  ---

##  Signif.  codes:    0  !*** !  0.001  !** !  0.01  !* !  0.05  ! . !  0.1  !  !  1

Question 3

Air pollution has become one of the greatest public health threats, with the most damaging air pollutant being fine particulate matter (PM2 .5 ).  Currently, 5.5 billion people around the world live in places that exceed the World Health Organization’s (WHO’s) safety guidelines for fine particulate matters. Research indicates that exposure to air pollution reduces the global average life expectancy by 1.8 years.

(a)  Threats to internal validity includes omitted variable bias, selection bias, measurement error, and

simultaneity. Consider the following regression model at the city level:

Yi  = β0 + β1 PM2.5i + Xi τ + u

●  Yi : average life expectancy in city i

●  PM2.5i :  level of the pollutant PM2 .5  in city i, measured at the nearest air quality monitoring station

●  Xi : a vector of control variables for city i, including income per capita, number of hospital beds, amount of foreign direct investment, and industrial GDP per capita.

If we estimate this model using OLS, is the coefficient on PM2 .5  likely to be consistent? Why?

Ebenstein et al. (2017) argues that a plausibly exogenous variation in pollution levels result from China’s winter heating policy:  in most  (but not all)2  of the cities north of the Huai River, centralized winter heating, powered by burning coal, are provided to residents. Burning coal increases the level of PM2 .5 , and

as a result, cities north of the Huai river have significantly higher level of PM2.5.

Ebenstein et al. proposed the following regression discontinuity design:

Yi  = β0 + β1 Ni + β2 Li + β3 Ni * Li + Xi τ + ui

●  Yi : average life expectancy in city i

●  Li :  distance north of Huai River (negative value indicates distance south of Huai River)

●  Ni :  =1 if city i is north of the Huai River

●  Xi : a vector of control variables for city i, including income per capita, number of hospital beds, amount of foreign direct investment, and industrial GDP per capita.

And they find that the estimated life expectancy just north of the Huai River is -3.1 years lower than that just south of the Huai river.

(b) Is this a Sharp or Fuzzy RD design? Why?

(c)  Lay out an equivalent setup to the described research design using the instrumental variable approach.

(d)  Explain why the above IV is (1) relevant; (2) exogenous

 

Question 4

One important pathway that agriculture can adapt to climate change is through switching land uses. Generally speaking, crops that are more heat-resilient (wheat and sorghum) can defend climate change better, though they generate less profit than heat-sensitive crops (corn and potato).

Ji and Cobourn (2020) collected data on 1056 farms in the state of Idaho, spanning 2007-2016. They acquired the following information:

●  Yit : expected profitability from agriculture for farm i, year t

●  Tempit :  average temperature for farm i, year t

●  Precipit :  average precipitation for farm i, year t

●  Irrigationit :  average irrigation water availability for farm i, year t

●  Soili :  average soil productivity index for farm i (same across all years)

●  ElNinot : El Nino index in year t (same across all farms)

(a)  Consider the following model using data for year 2007 only, estimated using OLS. Can β4  and β5  be

estimated? Why?

Yi  = β0 + β1 Tempi + β2 Precipi + β3 Irrigationi + β4 Soili + β5 ElNino + ui

b.  Does the model in part (a) present a consistent estimate on climate adaptation? In other words, are the coefficient β 1  and β2  consistent? Why? Use specific examples if necessary.

(c)  Consider the following individual fixed-effect model using data of 2007-2016:

Yit  = β0 + β1 Tempit + β2 Precipit + β3 Irrigationit + β4 Soili + β5 ElNinot + λi + uit Can β4  and β5  be estimated? Why?

(d)  Does the model in part (c) present a consistent estimate on climate adaptation? In other words, are the coefficient β 1  and β2  consistent? Why? Use specific examples if necessary.

(e)  Consider the following two-way fixed-effect model using data of 2007-2016:

Yit  = β0 + β1 Tempit + β2 Precipit + β3 Irrigationit + β4 Soili + β5 ElNinot + λi + vt + uit

Does this model present a consistent estimate on climate adaptation? In other words, are the coefficient β 1 and β2  consistent? Why? Use specific examples if necessary.

The Z-table for standard normal distribution: