Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit


ECO5185 B

Assignment 1

Winter 2022

 

1.  Monte Carlo analysis provides us with a useful tool for exploring the properties of estimators and test statistics.  First, read the material and view the videos on the Monte Carlo page of the course website. Then look at the two do files I have provided with this assignment: ols5 W2022.do and ols6 W2022.do.  Both do files create a data set that consists of 50 observations of five random variables.  The first random variable is drawn from a uniform

distribution, while variables x2 and x3 are drawn from independent normal distributions. Finally, the drawnorm command is used to create two additional normal random variables that are highly correlated, with a correlation coefficient of 0.9. (Note that even though the first three random variables were drawn from independent distributions, there may still be nonzero sample correlations between them.)

Once the data have been generated, values are assigned to the coefficients of an equation with three explanatory variables and a constant, and 10,000 repetitions of a Monte Carlo simulation that does OLS estimation of the equation is carried out. The difference between the two do files is that in ols5 W2022.do the “true” regression model includes the variables x1, x2, and x3 on the right-hand side; in ols6 W2022.do the “true” regression model includes x1, x4, and x5. We can use these two do files as the starting point to examine the effect on the OLS estimates of omitting an explanatory variable from the regression model.

(a)  Omitting an explanatory variable from the regression model is a violation of assumption A1.   From an econometric theory point of view, how will this violation affect the properties of the OLS estimator? Explain your answer.  (10 marks)

(b)  Modify ols5 W2022.do by removing x3 from the estimated model.  Make any other additional changes that might be required as well.  Then run the new simulation as well as the original one. (10 marks)

(c)  Modify ols6 W2022.do by removing x5 from the estimated model.  Make any other additional changes that might be required as well.  Then run the new simulation as well as the original one. (10 marks)

(d)  Carefully examine the simulation results or parts (b) and (c), comparing them to the original simulation results and to each other. Pay special attention to the bias of the coefficient estimates, their standard errors and the associated t statistics, as well as the probability of a Type I error when testing hypotheses about the coefficients.  Discuss the similarities and differences Are the results consistent with theoretical predictions? Explain your answer.   (Note:  The example and accompanying video posted on the Monte Carlo page should give you a good idea of what to look for in the results.)  (20 marks)

2.  Mankiw, Romer, and Weil’s (1992) study was extremely influential, leading to many follow- up studies. One of these was by Bernanke and G¨urkaynak (2002), who update and extend the empirical work of Mankiw, Romer, and Weil.1    Their data, which cover the period 1960-1995, can be found in the Stata data file mrw6095.dta.  The sample includes 90 “non-oil” countries, of which 21 are OECD countries and 72 are “intermediate” countries. (The sample is smaller than that of MRW because I have excluded countries for which data were missing for the longer time period.)  All the variables are constructed in the same manner as the variables used by MRW.

(a)  With the help of the use command, open the data file. Then use the describe command to display various properties of the data (including the variable definitions), and the summarize command to generate descriptive statistics. What are the sample averages of GDP per worker in 1960 and 1995? (5 marks)

(b)  Use generate commands to create the variables needed to estimate the equations of Tables I and II of MRW (1992), as you did for Assignment 1. Note that for this data set, it is not necessary to divide any of the variables by 100.  (5 marks)

(c)  The equations estimated in Tables I and II can be written as

ln   = β1 + β2 lns + β3 ln(n + g + δ) + ε ,                           (1)

ln   = β1 + β2 lns + β3 ln(n + g + δ) + β5 ln sHK + ε ,                 (2)

where sHK  represents the rate of investment in human capital.  Do OLS estimation of both equations for the non-oil countries  (i.e, the complete sample).   After each regress command, print the temporary matrix e(V) using the matrix list command. This matrix contains the estimated variance-covariance matrix of the coefficients.  (4 marks)

(d)  Comment on the goodness of fit of both equations. Which specification best explains the variation in the dependent variable? Explain your answer.  (4 marks)

(e)  For each equation, carry out a test of overall significance Be sure to include in your answer the null and alternative hypotheses in terms of the coefficients of equations (1) and (2), a general formula for the test statistic, the distribution of the test statistic under the null hypothesis, the degrees of freedom, and the decision rule for the test, as well as your conclusions. (Note: You do not need to repeat information that is the same for more than one test.) (16 marks)

(f)  Carry out tests of individual significance for all the estimated coefficients, at the 5% significance level. Be sure to include in your answer the null and alternative hypotheses in terms of the coefficients of equations (1) and (2), a general formula for the test statistic, the distribution of the test statistic under the null hypothesis, the degrees of freedom, and the decision rule for the test, as well as your conclusions. Then discuss any similarities and differences between your estimates and those of MRW. (18 marks)


(g)  In deriving their estimating equations, MRW assume constant returns to scale in pro- duction. What restriction(s) does this assumption impose on the coefficients of the two equations you have already estimated? Carry out an appropriate test of this restriction for each equation estimated in part (c). Your answer should include a formal statement of the null and alternative hypotheses in terms of the coefficients of equations (1) and (2), a general formula for each test statistic (all elements of the formula should be clearly defined), and the significance level at which you will carry out the test, as well as your conclusions. Are your conclusions the same as those of MRW? (20 marks)

(h)  Using the information in the printed variance-covariance matrix, show how to compute the test statistic for the test carried out in part (e) for equation (2).  Do you get the same value for the test statistic as Stata?  (6 marks)

 

3.  The Stata data file slid2010HKont.dta contains data from Statistics Canada’s 2010 Survey of Labour and Income Dynamics. A special feature of the SLID is that it contains a direct measure of full-time, full-year work experience that is not available in most other data sets. Only Ontario residents are included in this particular subsample. You will use these data to examine the male-female wage differential in Ontario. The variable definitions are provided in the file in the form of variable and value labels which you can view with the help of the describe command.

(a)  Open the data file and create a new variable called lnwage that is equal to the natural log of the hourly wage. Also generate a new variable called expsq that is the square of years of experience (exp). (2 marks)

(b)  Compute descriptive statistics for all the variables, separately for males and females. How big is the difference between the average wages of males and females? What is the difference between the averages of the log of the wage? (Use the summarize command with an “if” condition to compute the descriptive statistics for each subsample, or add the prefix “by fem, sort:” prefix to the “summarize” command.)  (4 marks)

(c)  Use ordinary least squares to estimate a human capital earnings equation with lwage as the dependent variable, first for males and then for females. Include a constant term, exp, expsq , educ, marr , hsgrad, somepse, othpse, and uni as explanatory variables; i.e., estimate the following equation for both sexes:

lnwagei    =   β1 + β2expi + β3expsqi + β4educi + β5marri

+   β6hsgradi + β7somepsei + β8othpse + β9unii + εi  .

What do R2 and the test of overall significance tell you about the explanatory power of each equation? What do the results tell you about the effect of being married, another year of education, and the effect of having a university degree on the wages of men and women? (17 marks)

(d)  For men only, carry out a test of the null hypothesis that years of experience have no effect on earnings. What is the lowest level of significance at which you could reject the null hypothesis? In your answer, include the null and alternative hypotheses in terms of the coefficients, a formula for the test statistic, the distribution of the test statistic


under the null hypothesis, the degrees of freedom of the test statistic, a statement of the decision rule for the test, and the 5% and 1% critical values for the test.  (Stata will compute the test statistic for you.) (16 marks)

(e)  Wage differentials between various groups have frequently been investigated by apply- ing what is known as the Blinder-Oaxaca decomposition. This decomposition relies on the properties of the OLS estimator to decompose the relationship between the aver- age value of the log of wages for the two groups into “explained” and “unexplained” components. Applied to male-female wage differences, it can be expressed as follows: 

lnwM  − lnwF  = (M  − F)′bM + (bM  − bF) ,                        (3)

where w is the wage,  is a vector containing the means of the explanatory variables, b is a vector of OLS estimates, and M and F indicate males and females respectively. The first term on the right-hand side of the equation is known as the  “explained” portion of the difference in average wages, as it measures the difference in the average characteristics of the two groups.  The second term is known as the  “unexplained” portion of the wage differential, because there is no good economic reason why the returns to various characteristics, which are measured by the estimated coefficients, should be different. An alternative decomposition, which is equally valid but will yield slightly different results, uses the female coefficients as weights in the first term and the male characteristics in the second term.

Fortunately for Stata users, Jann (2008) has written a downloadable Stata command called  oaxaca that will do th1s calculation for you quickly and easily.2     The basic format of the command is the same as that of the regress command, except that the word  “regress” is replaced with the word  “oaxaca.” To compute the decomposition given by equation (3), use the options “weight(1) by(fem) detail.” (2 marks)

(f)  Look at the top panel of the output table produced by the oaxaca command.  Does the  “difference” correspond to the difference in means you computed in (b)?  What proportion of this difference is explained? What proportion is unexplained? Which (if any) of these components are statistically significant?  (5 marks)

(g)  The remainder of the table shows the contribution of each individual factor to the explained and unexplained totals.  Looking at the bottom of the panel, which factors make the most important contributions to the unexplained part of the differential? Discuss the nature of their contributions and what they tell us about male-female wage differentials. (6 marks)