Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Introductory Econometrics I – Spring 2022

Problem Set 3

1.  Consider the following regression:

y = β0 + β1 d + β2 z + β3 d . z + u,

where

● y is the personal income;

● d is a dummy (binary) variable for female (d = 1 when the person is female, and d = 0 if the person is male);

● z is a dummy variable for rural (z = 1 if the person lives in a rural area, and z = 0 if the person lives in an urban area).

We have a random sample {(yi , di , zi ) : 1 < i < n}.  The OLS regression estimators are denoted by βˆ0 , βˆ1 , βˆ2 and βˆ3  (assuming the no perfect collinearity condition holds).

(a) Write the rst-order conditions for the least squares regression problem.

(b)  Define sample averages

n                                                                      n

 

i=1                                                                 i=1

n                                                                      n

 

i=1                                                                 i=1

where nkl  denotes the number of persons with both di  = k and zi  = l, for k, l e {0, 1}.  How do you interpret the sample averages defined above?

(c)  Show that

n

di zi (yi _ b0 _ b1 di _ b2 zi _ b3 . di . zi ) = 0

i=1

where

b0  = 00 ,    b1  = 10 _ y¯00 ,    b2  = 01 _ y¯00 ,    b3  = (11 _ y¯10 ) _ (y¯01 _ y¯00 ).

[Hint: use the fact that di(2)  = di , zi(2)  = zi  and n11  =      di zi .]

(d)  Now, ←ee』飞← the zero conditional mean condition: 俭[u|d, z] = 0. In part (c), you actually show b0 , b1 , b2 , and b3  satisfy one of the first-order conditions for OLS. In fact, it can be shown that the other first-order conditions are also satisfied. That means βˆj  = bj  for j = 0, 1, 2, 3. Use this fact to show

β0  = 俭[y|d = 0, z = 0],

β 1  = [y|d = 1, z = 0] _ [y|d = 0, z = 0],

β2  = 俭[y|d = 0, z = 1] _ 俭[y|d = 0, z = 0],

β3  = (俭[y|d = 1, z = 1] _ 俭[y|d = 1, z = 0]) _ (俭[y|d = 0, z = 1] _ 俭[y|d = 0, z = 0]).


[Hint: Under the imposed conditions, we know βˆj  is unbiased for βj  for j = 0, 1, 2, 3. Take expectation of bj  conditional on {(di , zi ) : 1 < i < n}.]

(e)  Use your answer to part (d) to explain the statistical meaning of the OLS estimator βˆ3   (what does it

really estimate?).

(f)  Describe how to test the null hypothesis that the (population) average income of rural females does not

differ from that of rural males at the 5% significance level.

(g)  Describe how to test the null hypothesis that the (population) average income of females does not differ

from that of males in both rural and urban areas at the 5% significance level.

2.  (Including  Control  Variables)  Suppose we want to estimate the causal effects of alcohol consumption (alcohol) on college grade point  average  (colGPA).   In  addition to collecting information on grade point averages and alcohol usage, we also obtain attendance information (say, percentage of lectures attended, called attend). A standardized test score (say, gaokaoScore) and high school GPA (hsGPA) are also available.

(a)  Should we include attend along with alcohol as explanatory variables in a multiple regression model?

(Think about how you would interpret βalcohol .)

(b)  Should gaokaoScore and hsGPA be included as explanatory variables? Explain.

3.  (Data  exercise) Policy makers are interested in examining factors affecting the smoking behavior.   They collect a data set about individuals smoking behavior, including the following variables:

●  id: individual index

● age: age of an individual

● agesq: age square

●  cigs: number of cigarettes smoked per day

● restaurn: whether the individual lived in a city which requires no smoking in restaurants (0=no, 1=yes)

● educ: years of education

Please answer the following questions using the dataset smoking.dta:

 

(a)  Create a new variable indicating age group named agegrp, which takes the following value:

,0,   if age  < 30

agegrp = 

3,   if age  > 70.

Calculate the average of cigs for each age group. Do you think age and cigs has a monotonic relationship? [Hint:  use the Stata command tabstat  cigs,  by(agegrp)  stat(mean).]    For the following questions,

estimate the following regression model using OLS:

cigs = β0 + β1 age + β2 age2 + β3 restaurn + u,

(b)  According to to regression results, at what point does the marginal effect of age on cigs change from

positive to negative?  (Round your answer to the nearest integer.)


(c)  Explain the meaning of β3 .

(d)  Policy makers are interested in examining whether the partial effect of education on smoking is different for individuals living in cities with no-smoking mandate.  Estimate the following regression model using OLS:

cigs = γ0 + γ1 educ + γ2 restaurn + γ3 restaurn . educ + e.

Write out the expression for    when restaurn = 0 and restaurn =  1.  How to understand the meaning of γ3 ?

(e) Is γ3  significant at 5% level?