Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

ECMT1020 Introduction to Econometrics

2021S1

Final exam questions

1    Multiple-answer questions

The following 10 questions are 2 points each.

1.  Consider the following linear transformation of a random variable:  Y =   where X is a random variable, µX  and σX  are the mean and standard deviation of X, respectively. Then the expected value and the standard deviation of the transformed random variable Y are given as

(a)  0 and 1.

(b)  1 and 1.

(c)  µX /σX  and σX .

(d)  cannot be determined with the given information Answer:  (a)

2.  (One-sided t test) Suppose we are interested in whether price inflation is equal to wage inflation in a country, and consider the regression model

P = β 1 + β2 W + u

where P is the price inflation, and W is the wage inflation.   Suppose that we have enough evidence to rule out the possibility that β2  > 1 and form the null and alternative hypotheses of the test as

H0  : β2  = 1   v.s.   H1  : β2  < 1.

We fit the regression using data of 20 countries, and get the fitted regression as  = −1.21 + 0.82W,

and the standard errors for the intercept and slope coefficient are, respectively, 0.05 and 0.10. Please select the correct statement(s) about the test result.

(a) We reject the null hypothesis at 5 percent significance level.

(b) We cannot reject the null hypothesis at 1 percent significance level.

(c) We cannot reject the null hypothesis at either 1 percent or 5 percent significance level.

(d) We reject the null hypothesis at both 1 percent and 5 percent significance levels. Answer:  (a) and (b)

3.  (Single regression) We use data on hourly earnings (EARNINGS) in dollars and years of school- ing (S) from 540 individuals in the US in 2005 to estimate a simple regression of earnings on schooling.

The estimation results are shown in the below table:

 

Based on the above results, select the correct statement(s).

(a)  There is a positive, statistically significant (at 5% level) relationship between years of school-

ing and hourly earnings.

(b)  There is a positive, statistically insignificant  (at 5% level) relationship between years of

schooling and hourly earnings.

(c)  The estimated intercept is positive, and statistically significant (at 5% level).   (d)  The estimated intercept is negative, and statistically significant (at 5% level).  (e)  The estimated intercept is positive, and statistically insignificant (at 5% level).

(f)  The estimated intercept is negative, and statistically insignificant (at 5% level). Answer:  (a) and (d)

4.  (Semi-log model) Let  AGE  be a person’s age in years,  and  CONS  be the person’s weekly consumption expenditure. We have the following fitted regression

log(CONS) = 3.57 + 0.05AGE.

Please select the corrected statement(s).

(a)  An additional year of age will increase weekly consumption expenditure by 0.05 percent. (b)  An additional year of age will increase weekly consumption expenditure by 3.57 percent. (c)  An additional year of age will increase weekly consumption expenditure by 1.05 percent. (d)  An additional year of age will decrease weekly consumption expenditure by 95 percent.   (e)  An additional year of age will decrease weekly consumption expenditure by 0.95 percent.

(f)  An additional year of age will increase weekly consumption expenditure by 5 percent. Answer:  (f)

5.  (Dummy) Consider the regression model

WAGE = β 1 + β2 S + β3 S · F + u,

where WAGE is an individual’s daily wage, S is years of schooling, and F is 1 if the individual is female, 0 if the individual is male.

Suppose the estimated coefficients are all different from zero. If we plot (1) the predicted relation between wage and school for females, (2) the predicted relation between wage and school for males, then plot (1) and (2) have

(a)  different slopes and different intercepts.

(b) the same slope and the same intercept.

(c)  different slopes and the same intercept.

(d) the same slope and different intercepts. Answer:  (c)

6.  (GQ test) A researcher fitted the below two regressions using the Shanghai school cost data with 34 schools in the sample:

First regression:    C\OST = 24000 + 339N

Second regression:    C\OST = 51000 − 4000OCC + 152N + 284NOCC

where COST is the annual cost of running a school, OCC is a dummy variable defined to be 1 for occupational schools, N is the number of students, and NOCC is a slope dummy variable defined as the product of N and OCC.

With the data sorted by variable N, the regressions are fitted again for the 12 smallest and 12 largest schools.

The residual sum of squares (RSS) are shown in the below table: Select the correct statement(s) about a Goldfeld-Quandt test for heteroskedasticity in these models.

 

12

smallest schools

12 largest schools

First regression  Second regression

 

7.8 × 1010

5.5 × 1010

25 × 1010

18 × 1010

(a) We cannot reject the null hypothesis of homoskedasticity for the second regression at either

1% or 5% significance level.

(b) We can reject the null hypothesis of homoskedasticity for the first regression at 5 significance

level, but cannot at 1% significance level.

(c) We cannot reject the null hypothesis of homoskedasticity for the first regression at either 1% or 5% significance level.

(d) We can reject the null hypothesis of homoskedasticity for the second regression  at  5% significance level, but cannot at 1% significance level.

(e) We can reject the null hypothesis of homoskedasticity for the second regression at both 1%

and 5 significance levels.

Answer:  (a) and (b)

7.  (IV/proxy) Select the correct statement(s) about instrument variable and proxy variable.

(a)  An instrument variable is used when there is no data on an explanatory variable in the

regression model.

(b)  Using a perfect” proxy variable can help identify and make inference on all the coefficients

in the regression model.

(c)  The proxy variable is used as a substitute for the original variable when we do not have data for the latter.

(d)  An instrument variable is used when OLS estimator is inconsistent because the explanatory variable is correlated with the disturbance term.

Answer:  (c) and (d)

8.  (Measurement error) Suppose that the true model is  Q = β2 X + u

where u has zero mean and constant variance σu(2) . But Q is measured with measurement error v, so that the observed independent variable is

Y = Q + v .

Assume that v has zero mean and constant variance σv(2), and it is distributed independently of u, Q and X . The consequences of the measurement error for the estimation of β2  are

(a)  The OLS estimator is biased, and its variance is increased by a factor σu(2)σv(2)  .  (b)  The OLS estimator is unbiased but its variance is increased by a factor σu(2)σv(2)  .

(c)  The OLS estimator is biased, and its variance is increased by a factor σu(2)σv(2)  .

(d)  The OLS estimator is unbiased but its variance is increased by a factor σu(2)σv(2)  . Answer:  (b)

9.  (DW test) Suppose we care whether the disturbance term u in a time-series regression model has significant first-order autocorrelation. Assume that the disturbance term u is generated by the process ut  = ρut 1 + εt . We consider a Durbin-Watson test for the autocorrelation, and set the null hypothesis as H0  : ρ = 0. Select the correct statement(s) about the test.

(a)  The critical value of Durbin-Watson test depends on the particular values taken by the

explanatory variables.

(b) It is possible that we cannot make testing decision given the calculated Durbin-Watson

statistic and the significance level of the test.

(c)  The Durbin-Watson statistic is greater than 2 in large samples, if there is positive autocor- relation.

(d)  The critical value of Durbin-Watson test at certain significance level can be found in the statistical tables.

(e)  The Durbin-Watson statistic is greater than 2 in large samples, if there is a negative auto-

correlation.

(f)  The Durbin-Watson statistic is zero in large samples, if there is no autocorrelation. Answer:  (a), (b) and (e)

10.  (Time series) Which of the following statements is/are correct?

(a)  Both partial adjustment model and adaptive expectations model can be written in the form

of an autoregressive distributed lag model.

(b)  A time series following the MA(1) model does not exhibit serial correlation in general.

(c)  The OLS estimator for the autoregressive (AR) coefficient in the AR(1) regression cannot be consistent because there is autocorrelation in the dependent variable and explanatory variable.

(d)  An autoregressive model of order one can be expressed as a moving average model of infinite order.

(e)  The formula for the standard error of the regression coefficient still applies when there is

autocorrelation in the disturbance term, as long as the disturbance term is not heteroskedas- tic.

Answer:  (a) and (d)

2    Numerical-answer questions

The following 5 questions are 2 points each.

1.  Let X be a random variable. We know the expected values of X , X2 ,X3  and X4 : E(X) = 2.5,    E(X2 ) = 7.5,    E(X3 ) = 25,    E(X4 ) = 88.5.

Now define another random variable Y = X2 . What is the correlation between X and Y? Answer: 0.984

2. We consider the simple regression

CARE = β 1 + β2 CHILDREN + u

where the dependent variable is the number of minutes a person spends each day caring for household members, and the independent variable is the number of children the person has.    The estimation results are given in the below table (some entries are intentionally removed):

 

What is the predicted amount of minutes a person with three children would spend on caring for household members each day?

Answer:  106.34

3. You fit a multiple regression with intercept and 4 explanatory variables using a sample of 100 observations (n = 100). The reported R2  is 0.6 and RSS is 130.

What is the value of sample variance of the dependent variable Y ,   (Yi − Y)2 , in your sample?

Answer: 3.283

4.  Consider the regression model for analyzing the school cost function:

COST = β 1 + β2 N + u

where COST is the annual cost for running the school, and N is the number of students in the school. Suppose we have another two variables, ST and RE, in our data set such that

 1,   if the school is a general school 

ST =

 4,   if the school is a vocational school

and

RE =

We believe that both the school type (ST) and residential/non-residential feature (RE) affect the linear relation (in both the slope and the intercept) between school cost and number of students, and we wish to account for this in our model.

How many additional regressors does the regression model require?

Answer: 8

5.  (Test for linear restriction) The Nerlove cost function for electricity generation is C = β 1 Yβ2 P1(γ)1 P2(γ)2 P3(γ)3 ν

where

• C is total product cost,

• Y is output measured in kilowatt hours,

• P1  is the price of labor input,

• P2  is the price of capital input,

• P3  is the price of fuel,

ν is the disturbance term.

Theoretically, the sum of the price elasticities is one: γ1 + γ2 + γ3  = 1.

To test this restriction, two versions of the cost function are fitted to the 29 medium-sized firms in the sample, with the following results (standard errors in parentheses):

 

RSS was 0.336 for the first regression and 0.364 for the second regression. What is the value of the F test statistic for testing the restriction γ1 + γ2 + γ3  = 1?

Answer:  Note that the log-linearization of the Nerlove cost function for electricity generation gives the unrestricted regression model

log C = log β1 + β2 log Y + γ1 log P1 + γ2 log P2 + γ3 log P3 + u, where β 1(∗)  = log β1  and u = log ν . To test

H0  : γ1 + γ2 + γ3  = 1,

we may consider the following restricted model with this null hypothesis imposed:

log C = log β1 + β2 log Y + γ1 log P1 + γ2 log P2 + (1 − γ1 − γ2 )log P3 + u

⇔  log C − log P3  = log β1 + β2 log Y + γ1 (log P1 − log P3 ) + γ2 (log P2 − log P3 ) + u

⇔  log  = log β1 + β2 log Y + γ1 log  + γ2 log  + u.

Therefore, the first equation in the question is the fitted regression for the unrestricted model, and the second equation in the question is the fitted regression for the restricted model (under the null). And we know that RSSU  = 0.336 and RSSR  = 0.364.

Using the formula of F test statistic for testing the above H0 , we have

improvement of fit/extra DF  F(extra DF, remaining DF) =

where

improvement of fit = RSSR − RSSU  = 0.364 − 0.336 = 0.028,

extra DF = extra parameter in the unrestricted model = number of restrictions = 1 , remaining RSS = RSSU  = 0.336,

remaining DF = remaining DF of the unrestricted model = n k = 29 5 = 24.

Consequently, the F test statistic is

0.028/1 

0.336/24

3    Short-answer questions

The following 4 questions are based on a study of the annual expenditure on pizza in which we use a sample of observations on the following variables:

• pizza: annual pizza expenditure in dollars

• age: a person’s age in years

• female: equals 1 if female, and 0 otherwise

• hs: equals 1 if highest degree received is high school, equals 0 otherwise.

• college: equals 1 if highest degree received is college, and equals 0 otherwise.

• grad: equals 1 if highest degree received is post-graduate, and equals 0 otherwise.

Please note that you don’t need to enter Greek letters for the parameters in the regressions when writing in the provided text box. Instead, you can write, for example,“beta1” for β 1 .

1. When we study how average annual pizza expenditure depends on the age of a person, we want to decide whether we should run a pooled regression with the observations of both female and male respondents, or run separate regressions for females and males.

(a) What test should we use for making such a decision?   (1pt) Explain in details how to

conduct such a test:  write down the hypotheses of the test, explain how to compute the test statistic and make decision of your test.  (2pt)

(b)  Suppose your test suggests that separate regressions for female and male are more preferable

than a pooled regression. Will you choose to run separate regressions, or you have a better choice? Explain why or why not.  (1pt)

2. We fit a model for pizza expenditure with two explanatory variables female and age:

pizza = β 1 + β2 female + β3 age + u.

Using N = 36 observations, we have the following regression output:

 

Now, we create a new dummy variable male such that male = 1 - female, and fit a new regression

pizza = γ1 + γ2 male + γ3 age + u.

Write down the fitted regression for this new regression (2pt), and interpret the intercept and slope coefficients (2pt).

3.  Next, we fit a new model for pizza expenditure:

pizza = β 1 + β2 female + β3 age + β4 female · age + u.

Below is the Stata output:

 

(a)  Based on the Stata output, write down the fitted regression equations for females and for

males, respectively.  (3pt)

(b)  Suppose you want to test whether relationship between pizza expenditure and age is the

same for males and females. Write down your null hypothesis and alternative hypothesis in terms of restriction(s) on the model parameters, and explain the test results based on the Stata output.  (3pt)

 

4.  Now, we fit another model with all the above variables:

pizza = β 1 + β2 female + β3 age + β4 female · age + u

and obtain the below Stata output:

(a)  Suppose you want to test the claim that the education achievement has no effect on annual

pizza expenditure.  Write down the null hypothesis and alternative hypothesis in terms of restriction(s) on the model parameters, and explain how you would conduct the test.  (3pt)

(b)  Suppose you are interested to know whether a person with post-graduate degree will spend

less on pizza, on average, than a person with college degree. Write down the null hypothesis and alternative hypothesis in terms of restriction(s) on the model parameters, and explain how you would conduct the test.  (3pt)