Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

First semester 2022

Mock final examination

ECONOMETRIC METHODS AND MODELLING

EMET8005

Question 1    [33 points]   The following questions concern the relationship between a worker’s age and earnings. Generally we expect older workers to have more job experience, leading to higher productivity and higher earnings. The data are from the March 2012 wave of the Cur- rent Population Survey (CPS). The CPS is representative of the US population, but the analysis below focuses on a subsample of full-time, full-year workers, aged 25–34, with a high school diploma or a B.A./B.S. as their highest degree. The variables are:

Variable

Definition

ahe

Average hourly earnings

age

Age in years

bachelor

1 if worker has bachelor’s degree; 0 if worker has high school diploma

female

1 if female, 0 otherwise

Many of the questions below refer to Stata output that can be found near the end of the exam paper.

(a) Consider the bivariate regression of average hourly earnings (ahe) on age (age):

E(ahelage) = B1age +B0 9                                                                                (*)

Find the estimation results in the Stata output below. What is the estimated slope? What is the estimated intercept?  Use the estimated regression to answer this question: How much do earnings increase as workers age by 1 year?  Can we interpret the intercept meaningfully?

(b) Predict average earnings using the estimates for model (*) for 26-year-old workers. Pre-

dict average earnings using the estimated regression for 30-year-old workers. Write the mathematical expression you want to evaluate, and compute approximate answers using rounded numbers.

(c) Does age account for a large fraction of the variance in earnings across individuals? Ex- plain.

(d) What is the value of the standard error of the regression?  What are the units for the standard error of the regression (unit-less, percent, meters per dollar, grams per meter, years per gram, dollars per year, cents per dollar, or something else)?

(e) Is the estimated regression slope coefficient statistically significant?  That is, can you reject the null hypothesis H0 : B1 = 0 versus a two-sided alternative at the 10%, 5%, or

1% significance level? What is the p-value associated with coefficient’s t-statistic?         (Note the 50%, 90%, 95%, 97.5%, 99.5% percentiles of the normal distribution are 0.00, 1.28, 1.64, 1.96, 2.58.)

(f) Construct a 95% confidence interval for the effect of age on ahe. It suffices to write the numerical expression you would evaluate to answer this question and do an approximate calculation (using rounded numbers).

(g) To investigate whether the relationship between age and earnings is different for workers with high school diplomas and workers with bachelor degrees, separate regressions were carried out.  Refer to the Stata output below, without carrying out a statistical test does it appear that the effect of age on earnings different for high school graduates than for college graduates?

(h) It is possible to test the hypothesis that the slope coefficients are the same for workers

with high school diplomas and workers with bachelor degrees using the Stata output below.  Write the formula for the t statistic you would compute to test this hypothesis.

You do not have to calculate the value.

(Hint: It is reasonable to treat the two samples of workers as independent, so the covari- ance between mean earnings in the two groups is 0.)

(i) Next, consider a regression of average hourly earnings (ahe) on age (age), gender (female), and education (bachelor). Specifically,

E(ahelage.femalebachelor) = a1age +a2female +a3bachelor +a0 9            (**)

Are the results from the regression in (**) substantively different from the results in (*) regarding the effects of age and ahe?  Does the regression in (*) seem to suffer from omitted variable bias?

(j) Referring to the Stata output below, are gender and education important determinants of

earnings?  Test the null hypothesis that average hourly earnings are the same men and women, once age and education are controlled for. Test the null hypothesis that average hourly earnings are the same for both education levels, once age and gender are controlled for.  Test the null hypothesis that average hourly earnings do not vary with gender and education once age is controlled for.

(k) Suppose you want to extend model (**) to allow a quadratic relationship between average

hourly earnings and age. What Stata code would you use to estimate this model? How would you test whether there is statistically significant nonlinearity present?

Question 2    [12 points]   The dataset happiness contains independent repeated cross sec- tions for the even years from 1994 through 2006, obtained from the General Social Survey in the United States. One of the variables is a measure of life satisfaction, or “happiness”, vhappy, which is a binary variable equal to 1 if the person reports being “very happy” as opposed to just “pretty happy” or “not so happy”, and 0 otherwise. Other variables, which we will stack into the vector X , include:

raratt Equals 1 if the person rarely or never attends a religious service, 0 otherwise. occatt Equals 1 if the person occasionally attends a religious service, 0 otherwise.  regatt Equals 1 if the person regularly attends a religious service, 0 otherwise.

owngun Equals 1 if the person owns a gun, 0 otherwise.

teens Number of teenaged children in the family.

The three variables rarattoccatt, and regatt make up the full set of categorical dummies for the frequency of attending religious services. There are N = 11. 096 observations. The overall mean of vhappy is about 0.30.

(a) Consider the logit regression (with robust standard errors in parentheses):

(vhappylX) = A 0924 occatt + 0968 regatt + 0987 owngun - 0909 teens - 1942.

(0905)                  (0905)                  (0904)                      (0904)                (0904)

where A(z) = 1/(1 +e-z) is the logistic function.

We are interested in the partial effect that compares average happiness for people who regularly attend religious services and those who rarely attend.  Compute this partial effect for the group who have no guns and no children. Then compute the partial effect for the group who own a gun and have no children.

(b) Consider the linear regression (with robust standard errors in parentheses)

(vhappylX) = 0905 occatt + 09 14 regatt + 09 19 owngun - 0902 teens+ 09 19 9

(0901)                  (0901)                  (0901)                      (0901)                (0901)

Compute the same two partial effects as in (a).

(c) Compare the results in (a) and (b), and explain why they are or are not different.

(d) Discuss whether the estimated partial effects have a causal interpretation or not.

Question 3    [6 points]   Suppose Y is a person’s annual income as recorded in their tax papers, X is their best guess of how many hours they worked during the financial year, and H is their actual work hours.  Suppose we have information about Y and X from a survey, but H is not available. Suppose there are y1 , y0 and V with Cov(H . V) = 0 such that

Y = y1H +y0 +V9                                                                                                  (3.1)

Since H is unobserved, we regress Y on X. Suppose there are θ1 , θ0 and U with Cov(X . U) = 0 such that

Y = θ1X +θ0 +U 9                                                                                                 (3.2)

The survey respondents are good at guessing, so suppose there is W with Cov(W.H) = 0 and Cov(WV) = 0 such that

X = H +W9                                                                                                           (3.3)

We want to know y1 , but we are estimating θ1 . Derive an expression for the bias θ1 - y1 and show that the absolute bias lθ1 - y1 l is smaller if Var(W) is smaller. Hint: We know that θ1 = Cov(X . Y)/Var(X)from (3.2). Plug X from (3.3) and Y from (3.1) into thisformulafor θ1.

Question 4    [6 points]   Suppose a null hypothesis involves two parameters and two restric- tions. Explain why it is not appropriate to test the restrictions separately.

Question 5    [33 points]   An important issue in planning for the future is the connection be- tween the urban characteristics (such as neighbourhood population density and distance to city centres) and transportation behaviours (such as whether people travel by car or by bus, how long and how often they travel, how many vehicle they own). For example, transportation behaviours matter for reducing household carbon emissions and for designing good road networks.

A particular study investigated the average relationship between vehicle ownership and pop- ulation density across households in the US. The typical thinking is that households who live in more densely populated areas don’t need to own as many cars, because more amenities are nearby and access to public transport is better. The main problem for econometric analysis of

how many vehicles people own as a function of the population density in the area where they live is that household location is not randomly assigned.

The study addressed the self-selection problem by using an instrumental variable approach. The proposed instrument is an indicator of whether a household has two children of the same gender. In the US it is considered more acceptable for same-gender children to share rooms than for children of different gender. Therefore, it is a bit easier for households with same-gender children to live in densely populated areas where homes are typically smaller. On the other hand,

there is no cultural gender preference in the US, so the study argues that the gender of children can be considered as good as randomised and unrelated to the parents’ travel preferences.

Table 5.1 below gives the variable names for the regressions and their means.  The data come from the American Community Survey (ACS) which is representative of the entire US. The analysis sample consists of white, married-couple households with exactly two children and no others living in the home, where the head of household’s age is between 25 and 55. ACS data from years 2012–2017 (repeated cross-sections) are combined.

Note: The areas used in this study are ‘Public-Use Microdata Areas’ (PUMAs). The US is divided into 2378 PUMAs, and the population and the density varies significantly within many PUMAs. The US land area is huge and the average density for the 50 states combined is about 90 persons per square mile. However, most people live in cities so from a household perspective the average density is much higher, about 1,910 persons per square mile.  For comparison, Manhattan, one of densest populated areas in the world, has 71,340 persons per square mile.

The sub-questions are broad and can be answered in different ways. Better answers show a higher level of understanding of how to read, interpret and assess/critique published research.

(a) Discuss instrument relevance and exogeneity (independence and exclusion restriction) in the context of this study.

(b) Table 5.2 shows the results of four regressions. For each regression, discuss its purpose

and the ndings regarding the main regressors logDENSITY and SAMEGENDER.

(c) Focusing on Model (5.1), briefly discuss the signs of the estimated coefficients for the regressors logHHINCOME, COLLEGE, and WORKERS. Briefly discuss the reason(s) why the author might have included these variables in the regressions.