Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

ECON 2311Q

Homework 3

Problem I (Omitted Variable Bias)

Consider the following model:

WeeklySalary = β0 + β1 MoreKids + β2 Age + u                             (1)

Let’s assume (1) satisfies all the least square assumptions.  Suppose that we are interested in the effect of MoreKids on  WeeklySalary but not for Age.  To estimate β1 , we use the following regression equation below which does not include Age

WeeklySalary = β0 + β1 MoreKids + ϵ,                                    (2)

where MoreKids is a binary regressor, which equals one if the employee has more than one child, and zero otherwise; while Age is a numerical regressor. We assume that Cov(MoreKids, Age) > 0. Note that the unit for  WeeklySalary is hundred dollars.

(a) Is the OLS estimator of equation (2) having omitted variable bias? Explain your answer.

(b) Whether β1  in regression  (2) is unbiased and consistent?  Why?   Prove your results. Also, if it’s biased, then point out whether it is under-estimated or over-estimated, and why.

Let the estimated regression of (1) be

Wee—klySalary = 18.79 − 2.37  × MoreKids + 0.45  × Age

(0.056)        (0.087)                                           (0.038)

(c) What is the estimated WeeklySalary that the corresponding employee has more than one child and age 45?

(d) What is the estimated  WeeklySalary of the same employee from part (b) at age 22? Hint: Since he/she is only 22, we assume that he/she didn’t have any child yet.

(e) What is the difference between  (c) and  (d)?   Is the difference substantial?   Why or why not? Please explain your answer.

(f) When we should use the F-statistic to testify the null and alternative hypothesis? When should we use the t-statistic?

Problem II (Multiple Regression Model)

Consider,  for example, the demand for sports events.   One of your peers estimated the following demand function after collecting data over two years for every one of the 162 home games of the 2000 and 2001 seasons for the Los Angeles Dodgers.

a—ttend = 15005 + 201 × Temperat + 465 × DodgNetWin + 82 × OppNetWin + 9647 × DFSaSu

(8770)         (121)                                         (169)                                                    (26)                                                (1505)

+ 1328 × Drain + 1609 × D150m +  271  × DDiv − 978  × D2001,    R2  = 0.416,SER = 6983,

(3355)                                (1819)                                  (1184)                              (1143)

where Attend is the announced stadium attendance, Temperat is the average temperature on game day, DodgNetWin is the net wins of the Dodgers before the game (wins-losses), OppNetWin is the opposing team’s net wins at the end of the previous season, and DFSaSu, Drain, D150m, Ddiv, and D2001 are binary variables, taking a value of 1 if the game was played on a weekend, it rained during that day, the opposing team was within a 150-mile radius, plays in the same division as the Dodgers, and during 2001, respectively.  Numbers in parenthesis are heteroskedasticity- robust standard errors.

(a) For all the 8 variables included in the above regression equation, which of them are statistically significant at 99% level?   Why?   Please show the necessary math process to illustrate your opinions.

(b) Calculating the corresponding p-value and confidence interval of these 8 variables.

(c) If you want to test that βDodgNetWin  = 0 and βOppNetWin  = 0 simultaneously.  The cor- responding test-statistic (either t-statistic or F-statistic) is 1.23. Whether the test-statistic is t-statistic or F-statistic?  Why?  Can you reject the null hypothesis at 95% significance level? Why? Please explain your answer.

(d) What will happen if we use t-statistics for DodgNetWin  and  OppNetWin  instead to test whether we should reject the above null hypothesis or not?   What is the rejection probability?  Is it 1%?  Please show the whole process to receive full credit.  Hint:  treat DodgNetWin and OppNetWin as two independent variables.

Problem III (Empirical STATA Problem)

Use the Birthweight Smoking contains data for a random sample of babies born in Penn- sylvania in 1989. The data include the baby’s birth weight together with various character- istics of the mother, including whether she smoked during the pregnancy.  In this exercise you will investigate the relationship between birth weight and smoking during pregnancy.

To begin, run the following three regressions.

1. Birthweight on Smoker.

2. Birthweight on Smoker, Alcohol, and Nprevist.

3. Birthweight on Smoker, Alcohol, Nprevist, and Unmarried.

(a) What is the t-statistic of the estimated effect of smoking on Birthweight in each of the above regressions? Analyze your results.

(b) Construct a 95% confidence interval for the effect of smoking on Birthweight, using each regression. Please show the whole math process of calculation instead of copying the results from the STATA output.

(c) Does the coefficient on Smoker in regression 1 suffer from the omitted variable bias? Why or why not? Please explain your results.

(d) Does the coefficient on Smoker in regression 2 suffer from the omitted variable bias? Why or why not? Please explain your results.

(e) Consider the coefficient on Unmarried in regression 3.

i.  Construct a 90% confidence interval for the coefficient.

ii. Is the coefficient statistically significant? Why or why not? Please explain your results.

(f) Conduct the F-test to testify the null hypothesis that βalcohol   =  0 and βnprevist   =  0 simultaneously. Whether we should reject this null hypothesis? Why? What does rejection or failure to rejection mean? Please write down the code as well to receive full credit.

Problem IV (The Nonlinear Regression Models)

To study the relationship between earnings and age, you randomly collected 1000 U.S. work- ers from job market in U.S. with the age range from 20 to 50 years old.  You estimate the following polynomial regression model, controlling for the effect of gender by using a binary variable that takes on the value of one for females and is zero otherwise:

Ea—rnings = − 795.9 + 82.93 × Age − 1.69 × Age2 + 0.015 × Age3

(283.11)        (29.29)                          (1.06)                            (0.016)

− 0.015 × Age4 − 163.23 × Female,    R2  = 0.225,    SER = 259.78

(0.0009)                             (12.45)

(a) Test for the significance of the Age4  coefficient.  Describe the general strategy to de- termine the appropriate degree of the polynomial.

(b) Run two further regressions.   Present an argument as to which one you will use for further analysis.

Ea—rnings = −683.21 + 65.83 × Age − 1.05 × Age2 + 0.005 × Age3

(120.13)         (9.27)                           (0.22)                            (0.004)

− 163.19 × Female,    R2  = 0.225,    SER = 259.73

(12.45)

Ea—rnings = −344.88 + 41.48 × Age − 0.45 × Age2

(51.58)          (2.64)                           (0.13)

− 163.81 × Female,    R2  = 0.222,    SER = 260.22

(12.47)

(c) Use the model you choose from part (b). What is the predicted change in earnings for a female worker associated with the change in age from 20 to 21?  How about the change in age from 40 to 41? What is your conclusion by comparing the predicted change in earnings above?

(d) Can you predict a change in earnings for a female worker associated with the change in age from 60 to 61? Why?

Problem V (Empirical STATA Problem)

The data file CPS12, which contains data for full-time, full-year workers, ages 25-34, with a high school diploma or B.A./B.S. as their highest degree. in this exercise, you will investigate the relationship between a worker’s age and earnings.  Generally, older workers have more job experience, leading to higher productivity and higher earnings.

(a) Run a regression of average hourly earnings  (AHE) on age  (Age), gender  (Female), and education (Bachelor).  If age increases from 25 to 26, how are earnings expected to change? If age increases from 33 to 34, how are earnings expected to change?

(b) Run a regression of the logarithm of average hourly earnings, ln(AHE), on Age, Fe- male, and Bachelor.  If age increases from 25 to 26, how are earnings expected to change? If age increases from 33 to 34, how are earnings expected to change?  (Hint:  you can first use the code, gen ln ahe = ln(ahe), to generate the logarithm of average hourly earnings in STATA, and then run regression of ln ahe on Age, Female, and Bachelor)

(c) Run a regression of the logarithm of average hourly earnings, ln(AHE), on ln (Age), Female, Bachelor, and Female × Bachelor .  If age increases from 25 to 26, how are earn- ings expected to change? If age increases from 33 to 34, how are earnings expected to change?

(d) Run a regression of the logarithm of average hourly earnings, ln(AHE), on Age, Age2 , Female, Bachelor, and Female × Bachelor .  If age increases from 25 to 26, how are earn- ings expected to change? If age increases from 33 to 34, how are earnings expected to change?

(e)

1. Do you prefer the regression in (c) to the regression in (b)? Explain.

2. Do you prefer the regression in (d) to the regression in (b)? Explain.

3. Do you prefer the regression in (d) to the regression in (c)? Explain.