Econ 3E03 PS3 Winter 2023


Winter 2023

Submit one PDFfile containing your answers together with one Stata do-file and the resulting log-file that show the computations usedfor the empirical exercises.


Consider a linear regression model with multiple regressors

Yi  = "  + 1X1i  + 2X2i  + ui

Ceteris paribus, what is the expected change in Y resulting from:

a)   An increase of 2 units in X1i?

b)   A decrease of 3 units in X2i?

c)   An increase of 1 unit in both X1i  and X2i?


A researcher plans to study the causal effect of policing on a measure of crime, using data from a random sample ofjurisdictions. She plans to regress district’s crime rate on the (per capita) size of district’s police force.

a) Explain why this regression is likely to suffer from omitted variable bias. Give an example of an omitted variable and explain how it is related to the crime rate and the size of the police force (discuss the signs of these relationships).

b) Use your answer to part a) to explain whether the regression will likely over- or underestimate the effect of police on the crime rate.


Use the data set CollegeDistance to perform the following investigation.

a. Run a regression of years of completed education (ED) on distance to the nearest college (Dist). What is the estimated slope?

b. Run a regression of ED on Dist, but include some additional regressors to control  for characteristics of the student, the student’s family, and the local labor market. In particular, include as additional regressors Bytest, Female, Black, Hispanic,     IncomehiOwnhome, DadColl, Cue80, and Stwmfg80. What is the estimated effect of Dist on ED?

c. Is the estimated effect of Dist on ED in the regression in b) substantively different from the regression in a)? Based on this, does the regression in a) seem to suffer from important omitted variable bias?

d. Compare the fit of the regression in a) and b) using the regression standard errors,   R2 and the adjusted R2 . Why are R2 and the adjusted R2 so similar in regression b)?

e. The value of the coefficient on DadColl is positive. What does this coefficient measure?

f. Explain why Cue80 and Swmfg80 appear in the regression. Are the signs of their estimated coefficients (+ or -) what you would have believed? Interpret the magnitudes of these coefficients.

g. Bob is a black male. His high school was 20 miles from the nearest college. His     base- year composite test score (Bytest) was 58. His family income in 1980 was   $26,000, and his family owned a home. His mother attended college, but his        father did not. The unemployment rate in his county was 7.5%, and the state        average manufacturing hourly wage was $9.75. Predict Bob’s years of completed schooling using the regression in b).

h. Jim has the same characteristics as Bob except that his high school was 40 miles from the nearest college. Predict Jim’s years of completed schooling using the  regression in b).

[Use the CollegeDistance dataset provided and see the associated data description file]


Stock & Watson 4e Empirical Exercise 7.1.

[Use the birthweight_smoking dataset provided in Excel format and see the associated data description file]