Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

ECON 482 A SU 2022: Midterm

Problem 1.  Simple Linear Model with/without an intercept.  (18 points).

Assume the true population model is

yi  = α + βxi + ui ,   E[ui |xi] = 0

and assume it satises SLR 1-5 with σ 2  = Var(ui |xi ). Denote the OLS estimator of this model as  and .

yi  = βxi + ei .

With a random sample {(yi , xi )}, we can use OLS to estimate this model i.e.  we can solve the minimization problem

n

min      (yi  - bxi )2

b

i=1

and we denote the solution  .

(a)  (5 points).  Show that

n

xiyi

 =  .

i=1

(b)  (5 points). Find E[] in terms of the xi , α, and β . Give a condition that would guarantee  is an

(c)  (4 points). Find the variance of  conditional on the xi .

(d)  (2 points). Show that Var(|xi ) < Var(|xi ). Hint: For any sample,     xi(2)  >     (xi - x)2 .

(e)  (2 points). Given part (b) and part (d), which estimator for β do you prefer and why?

Problem 2. Job Training Program Evaluation.  (25 points).

In this problem, we’ll use multiple linear regression to evaluate a job training program. Using data on male workers, we are initially interested in estimating the model

earnings = β0 + β1train + u.

where earnings are measured in thousands and train is a binary variable that is equal to 1 if the worker took job training and 0 otherwise.

(a)  (4 points).  Before estimating, do you expect this model to uncover the ceteris parabus effect of

undergoing job training on a worker’s earnings? Why or why not? Provide examples.

(b)  (2 points). If it were to uncover the ceteris parabus effect, provide an interpretation of β1 .

The model estimated by OLS is

ea一rnings = 10.61 - 2.05 train

(0.279)        (0.484)

n = 1, 130,   R2  = 0.016

(c)  (2 points). What is the predicted difference in earnings between those who completed job training and those who didn’t? Does this make sense given your answer to part (a)?

(d)  (4 points).  Is train statistically significant at the 5% level against a two-sided alternative?  Why should you be cautious with this result?

Suppose that we also estimate a multiple linear regression model

ea一rnings = 4.667 + 2.41 train + 0.373 prevEarns

(1.145)        (0.435)                      (0.019)

+ 0.363 educ - 0.181 age + 2.482 married

(0.064)                   (0.019)                 (0.426)

n = 1, 130,   R2  = 0.405

where prevEarnings is earnings of the worker from two years ago, educ is the total years of schooling, age is the worker’s age, and married is equal to 1 if the worker is married.

(e)  (4 points). Comment on the change of the coefficient estimate on train. What caused the change?

Is it more believable that this is the ceteris parabus effect?

(f)  (3 points). Test the significance of train at the 1% level. Has the evidence strengthened or weak-

ened?

(g)  (4 points). Test the joint significance of the variables we included in the MLR model at the 5% level.

(h)  (2 points).  Would you say the job training program was a success?  Use your responses to the

previous parts to justify your evaluation.

Problem 3.  True or False, and why (21 points).

For each of the following, state true or false. If you respond with false, give a brief explanation e.g. formulas or definitions.

(a)  (3 points). A random sample X1 , . . . , Xn  must be independent and identically distributed.

(b)  (3 points).  An explanatory variable with a large sample variance makes the variance of the OLS

estimator larger.

(c)  (3 points). If there is heteroskedasticity, the OLS estimator is biased.

(d)  (3 points). If there is heteroskedasticity, then       i   0 where i  are the OLS residuals.        (e)  (3 points). A large R2  does not indicate that the regression uncovers the causal effect of interest.

(f)  (3 points).  Suppose you are interested in using three regressors x, w, and z to explain y .  You regress z on x and w and nd the Rz(2)  of this regression to be 0.95.  Therefore multicollinearity is a problem for statistical inference of the effect of w in this application.

(g)  (3 points).  When choosing between models, the model with the largest adjusted R-squared also

has the minimum residual standard error.

Problem 4.  College versus University.  (22 points).

Suppose we are interested in studying the returns of attending a two-year college versus attending a four-year university. We consider the model

log(wage) = β0 + β1jc + β2univ + β3 stotal + β4 exper + u

where

❼ jc is the number of years attended in a two-year college;

❼ univ is the number of years attended in a four-year university;

stotal is the total standardized entrance test score; and

❼ exper is the number of months in the work force.

(a)  (4 points). Interpret the coefficient on jc and univ . What are the probable signs of β1  and β2 ?

(b)  (4 points). Suppose we are also interested in the effect of the total amount of schooling i.e. we can

define another variable totcoll = jc + univ and include it in this model.  Is this appropriate?  How can we modify the model to incorporate this idea?

This model is estimated by OLS as

log一(wage) = 1.495 + 0.063 jc + 0.069 univ + 0.049 stotal + 0.005 exper

(0.021)        (0.007)              (0.003)                     (0.007)                        (0.0002)

n = 6, 763,   R2  = 0.228

(c)  (5 points).  Write the hypothesis that attending a two-year college has no effect on earnings and construct the 95% confidence interval to test this.

(d)  (4 points).  Suppose we are interested in testing whether or not there is a difference between the effects of attending a two-year college versus a four-year university. In other words, we wish to test H0  : β1  = β2 .  Construct a test statistic that would be useful in testing this hypothesis, but do not attempt to test it.

(e)  (3 points).  Referencing part (d), why can’t we test this hypothesis with the information we are

given? Under what condition would we not only be able to test this hypothesis, but make a conclusion with the information given?

(f)  (2 points). Perform a test of overall significance at the 5% level, stating clearly your conclusion.

Problem 5.  Returns of Law School Graduates.  (14 points).

Suppose we are interested in the effect of school rankings on law school graduates earnings.  Further suppose that we are unsure of the true model so we estimate two models using random sample:

ls一alary = 9.90 - 0.0041 rank + 0.294 GPA

(0.24)        (0.0003)                      (0.069)

n = 142,   R2  = 0.8238

ls一alary = 9.86 - 0.0038 rank + 0.295 GPA + 0.00017 age

(0.26)        (0.0004)                      (0.083)                        (0.00036)

n = 99,   R2  = 0.8036

where lsalary is the log salary of the graduate, rank is the ranking of the school they graduated from, GPA was the cumulative GPA, and age is their age.

(a)  (2 points). Interpret the estimate of the coefficient of rank in model (1).

(b)  (2 points).  Interpret the R2  of model (1).  Would you say most of the variation in log(salary) is

explain by the independent variables?

(c)  (4 points). Does including age greatly affect the other parameters estimates? Would you say that the zero conditional mean assumption on the error will hold in the rst model? Explain.

(d)  (4 points).  Does including age greatly affect the standard errors?  Why do you think?  What else could have caused the change?

(e)  (2 points).  Which model is more likely to have OLS estimators that satisfy the Gauss-Markov

assumptions?