Week 10 Tutorial - Endogeneity and IV Estimation

Stata 1 (Wooldridge Chp 15 Computer Exercise C1)

Use the data in WAGE2.dta for this exercise.

a)   In Example 15.2, if sibs is used as an instrument for educ, the IV estimate of the return to education is 0.122. Reproduce the results in Example 15.2, i.e regress educ on the IV sibs and conduct the IV regression of log wages on education using sibs as the IV.

b)  To convince yourself that using sibs as an IV for educ is not the same as just plugging sibs in for educ and running an OLS regression, run the regression of log(wage) on sibs.           Compare your findings for a) and this part and explain your findings.

c)   The variable brthord is birth order (brthord is one for a first-born child, two for a second- born child, and so on). Explain, with economic reasoning, why educ and brthord might be negatively correlated. Regress educ on brthord to determine whether there is a                 statistically significant negative correlation.

d)   Use brthord as an IV for educ in the equation ln(wage) = F0 + F1 educ + u. Report and interpret the results.

e)   Now, suppose that we include number of siblings as an explanatory variable in the wage equation; this controls for family background, to some extent:

ln(wage) = F0 + F1 educ + F2sibs + u

Suppose that we want to use brthord as an IV for educ, assuming that sibs is exogenous. The reduced form for educ is

educ = 几0 + 几1sibs + 几2bTthoTd + v

State and test the identification assumption.

f)    Estimate the equation from part (e) using brthord as an IV for educ (and sibs as its own

g)   Estimate the reduced form from part e) and construct the fitted values, educ. Using    these, compute the correlation between e—duc and sibs. Use this result to explain your findings from part (f).

Q1. Wooldridge Chp 15 Q2

Suppose that you wish to estimate the effect of class attendance on student performance. A basic model is

stndfnl = F0 + F1 atndTte + F2pTiGPA + F3ACT + u

where stndfnl is the standardized outcome on a final exam, atndrte is the percentage of    classes attended, priGPA is the prior college grade point average, and ACT is the ACT score (like the SATs or kind of like an ATAR).

a)          Let dist be the distance from the students’ living quarters to the lecture hall. Do you think dist is uncorrelated with u?

b)         Assuming dist and u are uncorrelated, what other assumptions must dist satisfy to be a valid IV for atndrte?

c)          Suppose we add the interaction term pTiGPA . atndTte:

Stndfnl = F0 + F1 atndTte + F2pTiGPA + F3ACT + F4pTiGPA . atndTte + u

If atndrte is correlated with u, then in general, so is pTiGPA . atndTte. What might be a good IV for pTiGPA . atndTte?

[HINT: If E(u|pTiGPA, ACT, diSt) = 0 as happens when priGPA, ACT and dist are all exogenous, then any function of priGPA and dist is uncorrelated with u.]

Q2. Wooldridge Chp15 Q10

Evans and Schwab (1995) studied the effects of attending a Catholic high school on the              probability of attending college. For concreteness, let college be a binary variable equal to        unity if a student attends college, and zero otherwise. Let CathHS be a binary variable equal to one if the student attends a Catholic high school.

A linear probability model is

college = F0 + F1 CathHS + otheTfactoTS + u

where the other factors include gender, race, family income, and parental education.

a)         Why might CathHS be correlated with u?

b)         Evans and Schwab have data on a standardized test score taken when each student    was a sophomore. What can be done with this variable to improve the ceteris paribus estimate of attending a Catholic high school?

c)          Let CathRel be a binary variable equal to one if the student is Catholic. Discuss the two requirements needed for this to be a valid IV for CathHS in the preceding equation.      Which of these can be tested?

d)         Not surprisingly, being Catholic has a significant positive effect on attending a Catholic high school. Do you think CathRel is a convincing instrument for CathHS?

Q3. Wooldridge Chp 15 Q3

Consider the simple regression model

y = F0 + F1x + u

and let z be a binary IV for x.

Use (15.10) to show that the IV estimator  can be written as

 = (y  1 − y  0)/(x1 − x  0)

where y  0 anx  0 are the sample averages of yi and xi over the part of the sample with zi  = 0,

and where y1 and  x1 are the sample averages of yi and xi over the part of the sample with

zi  = 1. This estimator, known as a grouping estimator, was first suggested by Wald (1940).