Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Econ7810:  Applied Econometrics, Fall 2023

Homework #2

Due date:  2 November.  2023; 1pm.

Part I Multiple Choice (24 points in total, 3 each) Please choose the answer that you think is appropriate.

1.1 The reason why estimators have a sampling distribution is that a. economics is not a precise science.

b. individuals respond di  erently to incentives.

c. in real life you typically get to sample many times.

d.  the values of the explanatory variable and the error term di  er across samples.

1.2 The slope estimator, β1 , has a smaller standard error, other things equal, if

a. there is more variation in the explanatory variable, X.

b. there is a large variance of the error term, u.

c. the sample size is smaller.

d. the intercept, 0, is small.

1.3 To decide whether or not the slope coe   cient is large or small,

a. you should analyze the economic importance of a given increase in X. b. the slope coe   cient must be larger than one.

c. the slope coe   cient must be statistically signi  cant.

d. you should change the scale of the X variable if the coe   cient appears to be too small.

1.4 The p-value for a one-sided left-tail test is given by

a. Pr(Z > tact ) = φ(tact )

b. Pr(Z < tact ) = φ(tact )

c. Pr(Z > tact ) < 1.645

d. cannot be calculated, since probabilities must always be positive.

1.5 If the absolute value of your calculated t-statistic exceeds the critical value from the standard normal distribution, you can

a. reject the null hypothesis.

b. safely assume that your regression results are signi  cant.

c. reject the assumption that the error terms are homoskedastic.

d.  conclude that most of the actual values are very close to the regression line.

1.6 Using the textbook example of 420 California school districts and the regression of testscores on the student-teacher ratio, you   nd that the standard error on the slope coe   cient is 0.51 when using the heteroskedasticity robust formula, while it is 0.48 when employing the homoskedasticity only formula. When calculating the t-statistic, the recommended procedure is to

a.  use the homoskedasticity only formula because the t-statistic becomes larger

b.   rst test for homoskedasticity of the errors and then make a decision c. use the heteroskedasticity robust formula

d.  make a decision depending on how much di  erent the  estimate of the slope is under the two procedures

1.7 When there are omitted variables in the regression, which are determi- nants of the dependent variable, then

a. you cannot measure the e  ect of the omitted variable, but the estimator of your included variable(s) is (are) una  ected.

b. this has no e  ect on the estimator of your included variable because the other variable is not included.

c. this will always bias the OLS estimator of the included variable.

d. the OLS estimator is biased if the omitted variable is correlated with the included variable.

1.8 Imagine you regressed earnings of individuals on a constant, a binary variable ( Male ) which takes on the value 1 for males and is 0 otherwise, and another binary variable ( Female ) which takes on the value 1 for females and is 0 otherwise. Because females typically earn less than males, you would expect

a. the coe   cient for Male to have a positive sign, and for Female a negative sign.

b.  both coe   cients to be the same distance from the constant, one above and the other below.

c. none of the OLS estimators to exist because there is perfect multicollinear- ity.

d. this to yield a di  erence in means statistic.

Part II Short Questions (31 points in total)

(11 points) 2.1 Sir Francis Galton, a cousin of James Darwin, examined the relationship between the height of children and their parents towards the end of the 19th century. It is from this study that the name  regression   originated. You decide to update his   ndings by collecting data from 110 college students, and estimate the following relationship:

Studenth = 19.6 + 0.73    Midparh,  R2  = 0.45,  SER = 2.0

where Studenth is the height of students in inches, and Midparh is the av- erage of the parental heights.  (Following Galton's methodology, both variables were adjusted so that the average female height was equal to the average male height.)

(2 points) (a) Interpret the estimated coe   cients.

(2 points) (b) What is the meaning of the regression R2 ?

(2 points) (c) What is the prediction for the height of a child whose parents have an average height of 70 inches?

(3 points) (d) Given the positive intercept and the fact that the slope lies between zero and one, what can you say about the height of students who have quite tall parents? Who have quite short parents?

(2 points) (e) Galton was concerned about the height of the English aristoc- racy and referred to the above result as  regression towards mediocrity.   Can you   gure out what his concern was?

(20 points) 2.2 You have collected data for  104  countries to  address the di   cult questions of the determinants for di  erences in the standard of living among the countries of the world. You recall from your macroeconomics lectures that the neoclassical growth model suggests that output per worker (per capita income) levels are determined by, among others, the saving rate and population growth rate. To test the predictions of this growth model, you run the following regression:

RelPe(ˆ)rsInc = 0.339 - 12.894     n + 1.397    sk,  R2  = 0.621

where RelPersInc is GDP per worker relative to the United States, n is the average population growth rate, 1980-1990, and sk is the average investment share of GDP from 1960 to1990 (remember investment equals saving).

(6 points) (a) Interpret the results.  Do the signs correspond to what you expected them to be?  Explain.  (Hints:The Solow growth model predicts higher productivity with higher saving rates and lower population growth.)

(8 points)  (b) You remember that human capital in addition to physical capital also plays a role in determining the standard of living of a country. You therefore collect additional data on the average educational attainment in years for 1985, and add this variable (Educ) to the above regression.  This results in the modi  ed regression output:

RelP er(-)sInc = 0.046 - 5.869  n + 0.738  sk + 0.055  Educ,  R2  = 0.775

When missing variable Educ, what happen to the coe   cient estimates of n

and sk? Explain the reason and mechanism in detail.

(How has the inclusion of Educ a  ected your previous results?)

( 2 points) (c) Upon checking the regression output, you realize that there

are only 86 observations, since data for Educ is not available for all 104 countries

in your sample. Do you have to modify some of your statements in (b)?

(4 points) (d) Brazil has the following values in your sample:  RelPersInc =

0.30, n = 0.021, sk  = 0.169, Educ = 3.5 Does your equation overpredict or

underpredict the relative GDP per worker?  What would happen to this result

if Brazil managed to double the average educational attainment?

Part 3 Empirical Exercise (45 points in total)

For all regressions, please report the heteroskedasticity-robust standard errors.

(20 points) 3.1 Please download the World Bank Development Report Data

wbdr.dta from Moodle and answer the questions. The data contain the variables

for 1997 situation.

code : country code (alphabetical)

country : country name

illit_f : % illiterate, female aged 15+

illit_m: % illiterate, male aged 15+

illit_t : % illiterate, total aged 15+

mort_inf : infant mortality rate, per 1000

mort__5: < age 5 mortality rate, per 100

gnppc: GNP per capita (US$1995)

gnppcppp: GNP per capita (PPP)

mort77: 1977 infant mort rate, per 1000

gnppc77:  1977 GNP per capita (US$1995)

Please report all the regression outcomes in one single table.

(3 points) (i) Regress per capita GNP in 1997 (gnppc) on the illiteracy rate

(illit_t).  Is the sign of the coe   cient what you expected?  Explain the result

brie  y.

(4 points) (ii) Regress the infant mortality rate in 1997 on the illiteracy rate.

Graph a scatter plot of the data as well as the regression line. Please interpret

the coe   cient of the illiteracy rate. (Use the  ggplot(....)+geom_point()+geom_smooth(method= lm ,...) R command to produce the graph.)

(3 points) (iii) Regress the infant mortality rate in 1997 on GNP per capita

in 1997.  Is the coe   cient on per capita GNP signi  cantly di  erent from zero?

How do you know? Interpret the coe   cient in terms of a $10,000 di  erence in per capita GNP.

(4 points) (iv) Regress the infant mortality rate in 1997 on GNP per capita and the illiteracy rate in 1997. Please interpret the results. Is the coe   cient of GNP per capita changed a lot from result (iii) ? Why or why not?

(6 points) (v) Using the results from part i-iv, what can we say about the causal relationship between illiteracy, infant mortality, and income (GNP)?

(25 points)  3.2  This question deals with the estimation of betas of the Capital Asset Pricing Model  (CAPM), and it is a relatively straightforward application of a simple linear regression.

Rt(e) = α + βRmt + ut

Rt(e) is the expected return (return), Rmt  is the market return  (market).  You

are given data on monthly stock returns for 15 companies in 7 industries for the period from January 1978 to December 1987. They are:

Industries

Companies

Oil

Mobil (11)

Texaco (14)

Computers

IBM (10)

DEC (Digital Equipment Corporation) (6) DataGen (Data General) (5)

Electric Utilities

ConEd (Consolidated Edison) (3)

PSNH (Public Service of New Hampshire) (13)

Forest Products

Weyer (Weyerhauser) (15)

Boise (1)

Airlines

PanAm (Pan American Airways) (12)

Delta (7)

Banks

Contil (Continental Illinois) (4)

Citcrp (Citicorp) (2)

Foods

Gerber (9)

GenMil (General Mills) (8)

Table 1: Companies in the dataset capm3.dta

These data are contained in the   le  capm3.dta.  The   le also contains in- formation on the market monthly return (market, a value-weighted average of returns on stocks listed on the New York Stock Exchange) and information on the risk-free rate of return (return, the return on 30-day U.S. Treasury Bills). The stock and market returns in the   le  are excess returns over the risk-free rate of return.

From the list of industries, choose Mobil from industry of Oil  (compara- tively highly  risky ) and ConEd from the industry of Electric Utilities (rela- tively  safe ) (Hint:  The variable  ncomp  runs from  1 to 15 and identi  es the company in each observation, while the corresponding number for each com- pany is listed in the table in the paranthesis).   You  can  use  the  subset  on R  commands  to  choose  sample  and  run  the  regression  with.    For  example, Mobil  <  -subset(capm, capm$ncomp  ==  11)  uses  the  data  from  company Mobil only. )

(8 points) (i) Estimate α and β in the CAPM by OLS for each of the two

rms. How do the estimates of α and β di  er between the two   rms?  Does this accord with your expectation?

(6 points) (ii) The monthly stock and market returns (return and market) are in decimal.  Convert them into percentage and re-estimate α and β .  Are the new estimates di  erent from the estimates you got in part (i)? Explain.

(6 points) (iii) For each company, compute the proportion of total risk that is market risk. Are the results consistent with your expectations?

(5 points) (iv) Do large estimates of β correspond to higher R2  values?  Do you expect this to be the case? Why or why not?