Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Applied Econometrics (Semester 2, 2022/2023) –– Assignment 2

For Sessions 1002, 1004, 1005 and 1006: Submitted to the TA or lecturer in hard copy before 5:00pm, Friday, 14 April 2023

Important Instructions:

1. This assignment paper has a total of 100 marks, and contributes 25% to the course’s overall assessment, where for Q2d and Q3a, do and only do the REQUIRED parts based on your Student Number’s being odd or even

2. CLEARLY write down your answers to each question with your name and Student Number on some clean paper, and DO include necessary steps, formulas, calculations and explanations in your answers as a good practice .

3 . For each regression model, j, 6j, 0j, 0j, … are the true population regression coefficients with the estimated sample regression coefficients being j ,  6̂j,  j,  j,  … , and e, r, u, v, … are the true population errors with the estimated sample residuals being   , , , , …, respectively .

4 . For each estimated sample regression model, SST, SSE and SSR are its total, explained and residual sums of squares, respectively; and the number in parentheses below each estimated coefficient  (if any) is its standard error, unless otherwise indicated.

5 . Round your calculations/results to FOUR (4) decimals for higher and consistent accuracy, unless clearly unnecessary. And it is  understandable that certain rounding errors are  unavoidable if calculation steps/methods are different in solving the same problem or finding the same value.

6 . Key concepts/methods/formulas, t- and F-tables are provided at the end of this assignment paper for your easy use .

7 . In formal hypothesis testing, unless otherwise instructed or clearly unnecessary, you MUST state the null and alternative hypotheses, calculate the appropriate sample test-statistic, find the corresponding critical value, and draw conclusions .

Question 1 (12 marks)

Promoting population growth is an important policy of an anonymous country, and an equally important issue is to improve its people’s health, both physically and spiritually. In relation to this, a problem of considerable interest to the country’s health officials as well as to its ordinary people is to understand the effects of smoking during pregnancy on infant health. One typical  and convenient measure of infant health is birth weight since a new-born infant who is too light can put the infant at risk for contracting various illnesses. Hence a simple linear regression (SLR) model could be proposed as follows:

weight    =  0 +  1 ciga + e,                                                                                                       (1p)

where weight is birth weight in ounces and ciga is average number of cigarettes the mother smoked per day during pregnancy. Using the popular ordinary least squares (OLS) method and the relevant data from BabyWeight –– a dataset  on some relevant variables or factors compiled from  a recently -conducted random survey on 483 women who gave birth to a little baby in the past three months in an Eastern city of the country, Model (1p) is estimated as follows:

weight    =  121.3584   –     0.6612 ciga   +     ,

(1.0388)             (0. 1176)

[n = 483, R2 = 0.0617, SSR = 189,594.0898]

(1s)

Q1 (12 marks): For a typical non-smoking woman A and a typical smoking woman B who smoked 10 cigarettes per day during pregnancy, find the estimated or expected birth weights (denoted as  wêlghtA1 and  wêlghtB1) of their new-born babies based on Model  (1s). Are the two estimated birth weights significantly different practically and statistically? Please briefly explain.

Question 2 (54 marks)

The above SLR Model (1p) or (1s) is too simple to well explain the important birth weight variable, and people’s economic condition as measured by family income should also be an important factor to consider. Hence Model (1p) is expanded as the following multiple linear regression (MLR) model:

weight =  0 +  1 ciga +  2 inc + r,                                                                                                 (2p)

which is estimated based on the OLS method and the relevant data from BabyWeight as follows:

weight   =  117.1865   – 0.5903 ciga   + 0.1220 inc  + ,                                                         (2s)

(2.0326)         (0. 1207)            (0.0512)

[n = 483, R2 = 0.0727, SSR = 187,375.7436]

where inc is the average monthly family income of a surveyed woman in thousand dollars in the recent half-year, which for brevity is called monthlyfamily income or just family income in this Assignment .

Q2a (4 marks): Briefly explain why the (population  1 or its) sample estimate  1   is negative, while the (population  2 or its) sample estimate  2   is positive.

Q2b (6 marks): Indicate two facts to briefly explain that the estimated MLR  Model  (2s) could be considered better than the estimated SLR Model (1s).

Q2c (6 marks): Woman B (in Q1) had a monthly family income of $11,500. What is the estimated or expected birth weight (denoted as  wêlghtB2) of her new-born baby based on Model (2s)? Is  wêlghtB1 or  wêlghtB2 , the estimated birth weight based on Model (1s) or Model (2s), closer to the real birth weight of Woman B’s new-born baby, and why?

Q2d-odd (8 marks)  for students with odd Student Numbers only: While having the same monthly family income as Woman A (in Q1), Woman C smoked 10 (more) cigarettes per day during pregnancy. Find the difference in the estimated birth weights for Women A’s and  C’s new-born babies based on Model  (2s). Can you test the significance of this difference at the  5% level? If yes, please formally perform the test. If no, please explain why.

Q2d-even (8 marks)  for students with even Student Numbers only: Woman D smoked the same amount of cigarettes per day during pregnancy as Woman B (in Q1), but her monthly family income was $20,000 higher than Woman B’s. Find the difference in the estimated birth weights for Women B’s and D’s newly-born babies based on Model (2s). Can you test the significance of this difference at the 5% level? If yes, please formally perform the test. If no, please explain why.

Q2e (10 marks): Woman A (in Q1) had a monthly family income of $31,500. Then what is the estimated birth weight (denoted as  wêlghtA2) of her new-born baby based on Model (2s)? Find the difference in the two estimated birth weights (wêlghtA2   and  wêlghtB2) for Women A’s and B’s new-born babies based on Model (2s), and briefly comment on the practical and statistical significance of this difference.

Q2f (6 marks): Compared to Woman E, Woman F smoked 10 more cigarettes per day during pregnancy and her monthly family income was $20,000 lower. Find the estimated difference in the birth weights for their new-born babies based on Model (2s). Any comments in relation to Q2e’s relevant result?

Q2g (14 marks):    As a knowledgeable AE student, in addition to the above SLR and MLR Models (1s) and (2s) [or Models (1p) and (2p)] for explaining new-born baby’s birth weight in different ways, you are also interested in understanding the relationship between the two IVs, cigarettes smoked (ciga) and family income (inc). Hence you propose the following SLR model:

inc =  00 +  01 ciga + u,                                                                                                                (3p)

and then estimate this model using the OLS method and the relevant data from BabyWeight as follows:

inc =  0   +  1  ciga +  .                                                                                                         (3s)

Can you find the values of the sample estimated  0   and  1   based on the available information up to this point? If yes, please show your work and find them. If no, please explain why.

Question 3 (34 marks)

As  factors other than cigarette  smoking and family income may also affect  a new-born baby’s birth weight,  the following expanded  MLR model  is then proposed  to  use for  possibly explaining more variations in birth weight (in the surveyed sample):

weight   =   0   +   1ciga +   2 inc +   3 mothedu +   4fathedu + v,                                          (4p)

which is estimated based on the OLS method and the relevant data from BabyWeight as follows:

weight   = 117.9374 – 0.5987 ciga + 0.1201 inc    – 0.6445 mothedu + 0.5884fathedu +  ,     (4s)

(5.8011)     (0. 1251)         (0.0572)         (0.5305)                  (0.4429)

[n = 483, R2 = 0.0867, SSR = 184,546.8979]

where mothedu is years of schooling for the mother who gave birth to a new baby in the past three months, andfathedu is years of schooling for the father .

Q3a-odd (14 marks)  for students with odd Student Numbers only: Some local experts specialized in socio-economic studies claim that, in terms of the modeling effects in infant birth weight, the positive effect  of increasing the monthly family income by  $1,000 is cancelled by the negative effect  of the mother’s smoking five (5) more cigarettes per day during pregnancy, after controlling for the changes in such factors as the mother’s and father’s education levels. Describe how to test this claim in certain details  (e.g.,  stating  the  hypotheses,  doing  the  transformation,  showing  the  transformed  model  and hypotheses, etc.) based on the population or general Model (4p), and briefly explain the claim is more likely to be rejected or not based on the estimated sample regression Model (4s).

Q3a-even (14 marks)  for students with even Student Numbers only: Some local experts specialized in socio-economic studies claim that, in terms of the modeling effects in infant birth weight, increasing the father’s education by one year is five (5) times as important as increasing the monthly family income by $1,000, after controlling for the changes in such factors as mother’s education and cigarette smoking during pregnancy. Describe how to test this claim in certain details (e.g., stating the hypotheses, doing the transformation, showing the transformed model and hypotheses, etc.) based on the population or general Model (4p), and briefly explain the claim is more likely to be rejected or not based on t he estimated sample regression Model (4s).

Q3b (20 marks): Briefly explain each of the two educational variables is individually significant or not in affecting infant birth weight in Model (4p) at the 10% level. And then formally test the two educational variables are jointly significant or not in affecting infant birth weight in Model (4p) at the 5% level. Based on these please suggest a statistically and practically better MLR model for use to explain infant birth weight.

Some Concepts, Methods and Formulas in Applied Econometrics (for Assignment 2 / Lectures 2-5)

Basic Applied Statistics (of one or two random variables)

Given n sample observations on (x, y): (x1, y1), … , (xn, yn), five sample sums for x, y, x2, y2 and xy can be obtained as:

xi = x1 + … + xn, yi = y1 + … + yn, xi2 = x12 + … + xn2, yi2 = y12 + … + yn2, and xi yi = x1 y1 + … + xn yn, based on which basic statistical calculations and simple linear regression analysis can be done.

.  Sample mean of x:     xi/n.                              .  Sample variance of x: sx2  (xi –  )2/(n- 1) = (xi2 – n  2)/(n- 1).

.  Sample standard deviation of x: sx   (sx2)1/2 .        .  Standard error of sample mean  : se()  sx/n1/2 .

.  Sample covariance between x and y: sxy  (xi –  )(yi –  )/(n- 1) = (xi yi – n)/(n- 1).

.  Sample correlation coefficient between x and y: rxy  sxy/(sx sy).

.  95% confidence interval for population mean x :    tn- 1(5%) se(), where tn- 1(5%) is the 2-tailed critical value of the t-distribution with n-1 degrees of freedom at the 5% significance level, e.g., if n = 30, tn- 1(5%) = t29(5%) = 2.045.

.  Testing H0: x = 0  vs. H1 : x   0  is done by comparing the sample t-statistic [t = (  0)/se()] with tn- 1(5%): if |t| > tn- 1(5%) we reject H0 and accept H1, and if |t|  tn- 1(5%) we fail to reject H0 at the 5% significance level.

.  If 0 is/isn’t in the above 95% confidence interval for x, then H0 (with 2-sided H1) isn’t/is rejected.

.  For 1-sided H1 : x > 0  [or  x <  0], just compare the sample t-statistic with the 1-tailed critical value tn- 1(10%).

Simple Linear Regression Model (yi =  F̂0   +  F̂1  xi + ûi  ŷi + ûi) –– one explanatory variable x.

.  F̂1   = sxy/sx2 : if x changes 1 unit, y is expected to change  F̂1   units. .  ŷi  F̂0   + F̂1xi is y’s model-fitted value (given xi).

.  F̂0   =   –  F̂1: F̂0   is y’s expected value given x = 0, which may not be meaningful since x may not be 0 in the sample.

.  For ALL linear regressions, total sum of squares (of y): SST  (yi – )2 = (n- 1)sy2 = SSE + SSR; explained sum of squares: SSE = RSST; residual sum of squares: SSR  ûi2  = (1 – R2)SST; coefficient of determination: R2    SSE/SST [= rxy2  for simple linear regression only] = the proportion of total sample variations in y explained by the regression model.

.  Standard error of regression (residuals):    = [SSR/(n-2)]1/2 .            .  Total variations in x: SSTx  (xi –  )2 = (n- 1)sx2 .

.  Standard error of F̂1: se(F̂1) =  /(SSTx)1/2 .                                         .  Standard error of F̂0: se(F̂0) =  [(xi2/n)/SSTx]1/2 .

.  95%  confidence  interval  for  population  1 : F̂1      tn-2(5%) se(F̂1),  where  tn-2(5%)  is the  2-tailed  critical  value  of the t-distribution with n-2 degrees of freedom at the 5% significance level, e.g., if n = 30, then tn-2(5%) = t28(5%) = 2.048.

.  Testing H0 :  1 = a1 against H1 :  1   a1 is done by comparing the sample t-statistic [t = (F̂1   – a1)/se(F̂1)] with tn-2(5%): if |t| > tn-2(5%) we reject H0 and accept H1, and if |t|  tn-2(5%) we fail to reject H0 at the 5% significance level.

.  If a1 is/isn’t in the above 95% confidence interval for  1, then H0 (with 2-sided H1) isn’t/is rejected.

.  For 1-sided H1 :  1 > a1  [or  1 < a1], just compare the sample t-statistic with the 1-tailed critical value tn-2(10%).

.  Confidence interval and hypothesis testing for population 0 are done in similar ways.

Multiple Linear Regression Model (yi =  F̂0   +  F̂1xi1 + … +  F̂kxik + ûi  ŷi + ûi) –– k explanatory variables x1, … , xk.

.  Standard error of regression (residuals):    = [SSR/(n-k- 1)]1/2, where SSR  ûi2 is the residual sum of squares.

.  Standard error of F̂j: se(F̂j) = /[SSTj(1 – Rj2)]1/2, where SSTj is xj’s total variations [= (n- 1) (xj’s variance)] and Rj2 is the R2 from regressing xj on all other explanatory variables [and VIFj = 1/(1 – Rj2) is xj’s variance inflation factor].

.  Confidence interval and hypothesis testing for an individual population j  are similar to the above simple linear regression case, just here the critical value is from a t-distribution with n-k-1 degrees of freedom .

.  Test the model’s overall significance [i.e., whether all explanatory variables arejointly significant] by comparing the sample F-statistic {F = (R2/k)/[(1 – R2)/(n-k- 1)]} with Fk,n-k- 1(5%), the 5% critical value of the F-distribution with k (numerator) and n-k-1 (denominator) degrees of freedom, e.g., if k = 2 and n = 30, then Fk,n-k- 1(5%) = F2,27(5%) = 3.35.

.  Test whether q linear restrictions or exclusions are true for the population s by comparing the sample F-statistic  {F = [(SSRr – SSRur)/q]/[SSRur/(n-k-1)]} with Fq,n-k- 1(5%), the 5% critical value of the F-distribution with q and n-k-1 degrees of freedom , where SSRr and SSRur are the SSRs of the restricted (or small) and unrestricted (or big) regression models.

.  Ify is the same for the restricted and unrestricted models, then also F = [(Rur2 – Rr2)/q]/[(1 – Rur2)/(n-k- 1)].

.  Testing  one  linear  combination  of several s  is  equal to  zero”  can  also be  generally  done  with  a  single  t-test  by appropriately transforming the original model (by defining a new parameter just equal to the linear combination), e.g., testing H0 :  1  = 52  in model y =  0  +  1x1  +  2x2  + u can be done by defining a new parameter 1 =  1 – 52 and a new variable z2 = 5x1 + x2  so the model becomes y =  0 + 1x1 +  2z2 + u for which 1 = 0 [or  1 = 52] is easily testable.

.  For model    y    = 0.5 + 0.25 log(x) + û:      ifx increases by 1%,    y is expected to increase by 0.0025 unit .

.  For model log(y) = 0.5 + 0.25 x       + û:  ifx increases by 1 unit,y is expected to increase by 25%.

.  For model log(y) = 0.5 + 0.25 log(x) + û:    ifx increases by 1%,    y is expected to increase by 0.25%.

.  Omitted variable bias depends on the relationships between the omitted variable and each of the other explanatory variables and between the dependent variable and each of the other explanatory variables, e.g., if x2 is omitted from y =  0 +  1x1  + 2x2 + u to have a smaller model y =  0 +  1x1 + v, then for j = 0 and 1,  j =  j +  2j, i.e., the bias depends on both  2 and j, where j is from the regression of x2 on x1 : x2 = 0 + 1x1 + w.