Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit



Econ 184b

Final examination

Instructions:

(1)  Write your name on your blue book and on this exam.

(2)  This exam has 120 points.  Points per question are indicated at the start of each section.

(3)  You have three hours to take this exam.

(4)  Please write clearly; illegible answers will receive no credit.

(5)  Write the answers to the multiple choice questions in your blue book.

(6)  SHOW ALL WORK. No credit will be given for answers in which the work is not shown.

(7)  State clearly the significance level you are using in your hypothesis testing, if one is not

given in the problem.

(8)  Ifyou are unclear about the interpretation of a question, make an assumption and clearly describe the assumption you made as you do the problem.

(9)  Turn in the exam along with your blue book.

(10)  Only calculators provided by the Economics Department are allowed in this exam. Good luck!


Part I: Multiple Choice (8 questions; 3 points each)

1.  The following tools from multiple regression analysis carry over in a meaningful manner to the logit model, with the exception ofthe

a.  F-statistic.

b.  significance test using the t-statistic.

c.  95% confidence interval.

d.  p-value.

e.  regression R2 .

2.  We estimate an OLS regression ofthe equation Yi = â0 + â1Xi + ui and obtain values for the    coefficients and .  Suppose we now multiply each original value ofthe dependent variable,

Yi, by 5 and re-estimate the equation.  We know that:


3.  Finding a small value of thep-value (e.g., less than .05)

a.  indicates evidence in favor of the null hypothesis.

b.  implies that the t-statistic is less than 1.96.

c.  indicates evidence against the null hypothesis.

d.  will only happen in approximately one of20 samples.

e.  (a) and (b).

4.  One of the following is a regression example for which entity and time fixed effects could be used:  a study ofthe effect of

a.  minimum wages on teenage employment using annual data from 50 states in 2006.

b.  corporate taxes on profits in 500 U.S. firms in 2005 and 2006.

c.  inflation and inflationary expectations on unemployment rates in the United States, using quarterly data from 1960-2006.

d.  drinking alcohol on the GPA of 150 current students at Brandeis, controlling for SAT scores.

e. beer taxes on traffic fatalities across U.S. states in 2009.

5.  The mean square prediction error is defined as follows:




6.  In a panel data regression of state traffic fatality rates on beer tax: Yit = ái + ët + â1Xit + uit you may want to use standard errors clustered by state because

a.  not doing so results in the inconsistency of .

b.  we can control for other time-varying factors with clustered standard errors.

c.  clustering the standard errors by state allows for uit to be heteroskedastic.

e.  none ofthe above.

7.  OLS is appropriate for estimating a model with large k when:

a.  the estimation method is Ridge regression

b. k > n

c.  the estimation method is Principal Components Analysis

d.  the estimation method is LASSO regression

e.  it is never appropriate to use OLS when k is large

8. In the regression Yi = â0 + â1Xi + ui, ifthe 3 OLS assumptions hold and the sample size is large:

a.  the OLS estimators and are unbiased and consistent.

b.  the errors are normally distributed.

c.  the OLS estimators and are efficient.

d.  the errors are heteroskedastic.

e.  all ofthe above.


Part II:  True/False/Uncertain  (3 questions; 6 points each) Indicate whether the statement is True, False, or Uncertain, and explain your answer clearly and concisely. Points depend entirely on the quality of your explanation.

1.  In an OLS regression, if we change the dependent variable from GDP to log(GDP), the R- squared does not change.

2.  LASSO is the best estimator to use when a model is sparse (define sparse as part ofyour answer).

3.  Suppose that the conditional mean independence assumption holds for a given equation Yi = â0 + â1Xi + â2 W1i + â3 W2i + â4 W3i + ui. True/False/Uncertain:  This assumption rules out omitted variable bias in the estimate of â1 .  (State what the conditional mean independence         assumption means as part ofyour answer.)


Part III. Short answer problems (3 questions; 6 points for each part of each question)

1.  In 1979 the town ofNorth Andover, Mass. announced it would build a waste treatment plant. Here we investigate the effect of the waste treatment plant on housing values in North Andover,  using data on prices of houses sold in 1978 and another sample of houses sold in 1981, after the  plant was completed.  Let rprice denote the house price in real terms, i.e. adjusted for inflation.

We first estimate the simple model using only data for 1981 (n = 142) (nearplanti is a binary variable = 1 if the house is near the waste treatment plant, = 0 otherwise):

rpricei = 120,700 - 30,100 nearplanti

(3,090) (5,830)

a.  What is the price of homes not near the treatment plant? What is the price of homes near the treatment plant?

b.  Since we have data for two years, before and after the waste treatment plant is built, we can      calculate a difference-in-differences estimate of the effect of the waste treatment plant on housing values.  What is the equation for this estimate?  (Use a simple D-in-D equation, not a regression    equation; do not put any numbers in your equation).

c.  We re-estimate the above model using data only for 1978 (n = 179):

rpricei = 82,500 - 18,000 nearplanti

(2,650) (4,745)

Calculate the difference-in-difference estimate using the equation you wrote in part (b).  What do  you conclude about how the waste treatment plant affected housing values in areas near the plant?

d.  To calculate the effect of the waste treatment plant on housing prices we estimate the       difference-in-difference effect in a regression framework with the following results; we also change the dependent variable to log(rprice): (n = 321)

log(rpriceit) = 11.3 + .457 year81it - .340 nearplantit - 0.063 year81it × nearplantit


where year81 = 1 ifthe year is 1981, = 0 ifthe year is 1978.

What do the variablesyear81 and nearplant control for in this regression?  Explain clearly and be specific in your answer.

e.  According to the regression in part (d), what is the effect of the waste treatment plant on house prices?  Can this be interpreted as a causal effect? Explain.


2.  The increase in childhood obesity is a health problem of significant concern.  One possible cause is greater consumption ofmeals from fast-food restaurants.  This question considers       whether exposure to fast-food advertising on TV plays a role in increased childhood obesity.

The data set is a cross-sectional data set on children ages 6-11 in the U.S. in 1997.  The measure  of childhood obesity is BMI (body mass index), which is weight in kilograms divided by the        square of height (in meters), so the units ofBMI are kg/m2 .  Higher BMI means increased weight for height, i.e. more overweight.



Variables in the childhood BMI data set:

Child characteristics:


BMI

TV exposure

Age

Other individual variables

County characteristics:

Price of TV advertising


Temperature

Other county variables




Child’s BMI (kilograms/meter2)

Number of hours per week of fast-food TV ads seen by the child

Child’s age (years)

Child’s race and sex, family income, mother’s BMI

Average price of TV advertising in the child’s county in 1997 ($/second)

Average annual temperature in the child’s county

Number of fast-food restaurants per capita, price indexes for fast- food restaurant meals


Table 1. Children’s BMI and Fast-Food Advertising

Dependent variable

(1) BMI

(2)

TV exposure

(3)

BMI

Estimation method

OLS

OLS

TSLSa

Regressors:

TV exposure

.315**

(.111)

.336*

(.150)

Age

.429**

(.028)

.021*

(.010)

.388**

(.048)

Price of TV advertising

-.148*

(.013)

Temperature

4.71

(5.50)

Other individual variables?

yes

yes

yes

Other county variables?

yes

yes

yes

F-statistic testing: coefficients on price ofTV advertising and temperature=0

41.92

J-statistic

.308

Number ofobs.

6,818

6,818

6,818

Notes:  heteroskedasticity-robust standard errors in parentheses.  All regressions include other        individual variables (child’s race, male/female, family income, mother’s BMI) and county               variables (number of fast-food restaurants per capita, price indexes for fast-food restaurant meals).

Significant at the:  **1% level; *5% level.                                                                         aInstruments for the TSLS regression are the price of TVadvertising and temperature.


a.  Suggest a reason why TV exposure might be endogenous in regression (1).

b.  Regression (3) uses two variables as instrumental variables for TV exposure.  For each instrument, explain whether, in your judgment, the instrument is likely to be exogenous.

c.  Suppose the instruments in regression (3) are weak.  If so, what would the consequences be for interpreting the results in regression (3), specifically the coefficient on TV exposure and its            standard error?  Are the instruments in fact weak?  Explain.

d..  Consider the J-statistic in column (3).  What hypothesis is the J-statistic testing?  Given the J- statistic reported in column (3), do you reject the null hypothesis at the 5% significance level?      (The 5% critical value of the J-statistic for this problem is 3.84.)  Explain.

e.  Do you agree or disagree with the following statement?  Explain.

The results in Table 1 indicate that a ban on TVfast-food advertisements will reduce childhood BMI.


3.  This question uses data on adoptees to take a new look at the “nature vs. nurture” debate:  does genetics (“nature”) or home environment (“nurture”) have greater influence on child outcomes?     Here, we focus on whether parental characteristics affect child educational outcomes.

The data set consists of observations on Korean-American adoptees, their parents, and their            siblings (the parents’ natural offspring), for children adopted through an adoption agency in Seoul, Korea.  The children were all born in Korea and adopted at infancy by an American family.  Once  the potential parents were certified as acceptable adoptive families, they were placed in a queue,     and the adoptees were given to the parents on a first-come first-serve basis.  This assignment          mechanism means that the adoptees were as-if randomly assigned to the parents.

The data set contains data on the parents and their children (both adopted and non-adopted) at the time of adoption and also at the end ofthe study when the children are adults.


Variable                      Definition

Child’s characteristics at adoption:


adopt

weight

height

child is a boy


= 1 if child is an adoptee, = 0 if not adopted (natural offspring) weight of child at adoption (pounds)

height of child at adoption (inches)

=1 if a boy, = 0 if a girl


Child’s characteristics at end of study (as an adult):

child_college                = 1 if child graduated from a 4-year college (or higher); = 0 otherwise

Parent characteristics:


mother’s education father’s education   mother’s BMI         father’s BMI           number of kids


years of education ofmother

years of education of father

BMI of mother (weight in kg/height in m2) (a measure of weight for height) BMI of father (kg/m2)

total number of children in the family (adopted + non-adopted)



a.  Consider the regressions in Table 2.  (i)  Explain why these regressions can be used to examine whether the assignment process of adoptees to families was in effect random. (Note:  infant           weight and height are indicators of an infant’s overall health.)  (ii)  Can you reject the hypothesis   of random assignment?  Explain.

b.  Table 3 refers to predicted probabilities for Case 1 and Case 2.  These are predicted    probabilities of a child having a college education or higher in two hypothetical families:

Case 1: child is a boy =1, number of kids = 3, mother’s education = 12, father’s education = 12 Case 2:  same as Case 1, except that mother’s education = 16

Fill in the missing values in column 1 (write your answer in your blue book, not on the exam). Explain the meaning ofthe ‘difference’ you calculated in words.

c.  Comparing the regressions in Table 3, what can you conclude about the relative effects of    “nature” versus “nurture” on the likelihood that a child gets a college education?  Explain your reasoning.