Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

ECON7310: Elements of Econometrics

Final Problem Set

June 5, 2023

Instruction

Answer all questions following a similar format of the answers to your tutorial questions. When you use R to conduct empirical analysis, you should show your R script(s) and outputs (e.g., screenshots for commands, tables, and figures, etc.).  You will lose  2 points  whenever you fail to provide R commands and outputs.  When you are asked to explain or discuss something, your response should be brief and compact.  To facilitate tutors’ grading work, please clearly label all your answers.   You should upload your answers  (in PDF or Word format) via the “Turnitin” submission link (in the  “Final Problem Set” folder under  “Assessment”) by 11:59 AM on the due date June 8, 2023.  Do not hand in a hard copy. You are allowed to work on this assignment in groups; that is, you can discuss how to answer these questions with your group members. However, this is not a group assignment, which means that you must answer all the questions in your own words and submit your report separately.  The marking system will check the similarity, and UQ’s student integrity and misconduct policies on plagiarism apply.

1.  MLR: Sharp RDD (30 points)

The sharp regression discontinuity design (RDD) occurs when the treatment is determined by a threshold function of X,  e.g.,  D  =  1[X  ≥  c].1     In  most  applications,  the  threshold c is determined by policy or rule.   The covariate X which determines the treatment is typically called the running variable. The threshold c is often called the cut-off.

Ludwig and Miller (2007)2 used a sharp RDD to evaluate a U.S. federal anti-poverty program called Head Start  (HS). HS was established in  1965 to provide preschool, health, and other social services to poor children aged three to five and their families.  HS funding was awarded to local municipalities through a competitive grant application. Due to a worry that poor regions may not apply at the same rate as well-funded regions, during the spring of 1965, the federal government provided grant-writing assistance (GWA) to the 300 poorest counties in the United States.   The 300 counties were selected based on the poverty rate as measured by the  1960 U.S. Census.  The question addressed by Ludwig and Miller was whether GWA in 1965 to the 300 U.S. counties selected on a poverty index had a measurable effect  (treatment effect) on childhood mortality eight to eighteen years later in the same counties, relative to counties that did not receive the GWA. In this application, the unit of measurement is a U.S. county.  The outcome variable Y is the county mortality rate in 1973-1983.  The running variable X is the county poverty rate (percentage of the population below the poverty line) in 1960. The cut-off is c = 59.1984.


Using the LM2007.csv dataset, a simple RDD estimation can be implemented by the fol- lowing regression:

Y = β0 + β1D + β2X + e,                                                   (1) 

where Y = mort age59 related postHS and X = povrate60.  In all the questions below, use observations satisfying X e [c - 13.8, c + 13.8].

(a)  (8  points) Estimate the treatment effect of GWA using model  (1)  (3  points).   Is  the treatment effect statistically significant (2 points). Interpret your result (3 points).

(b)  (6 points) RDD estimation is sensitive to themisspecification of the regression function. If the true regression function is nonlinear in X, then model (1) may mistake the nonlinearity at X  = c for  discontinuity” (i.e., treatment effect) at X  = c, leading to biased RDD estimate of the treatment effect. Add X2  to model (1) and estimate the treatment effect of GWA (3 points). Test the nonlinearity of the regression function (3 points).

(c)  (10 points) Extend model  (1) so that the new model allows the regression functions for treatment and control groups to have different slope coefficients on X (4 points).  Estimate the treatment effect of GWA  (3  points)  and test  if the slope coefficient varies  across treatment and control groups (3 points).  Hint: Be careful. Your extended model should still have the treatment effect at X = c measured by β1 .

(d)  (6 points) One of your classmates thinks model (1) (and the two extended models studied in (b) and (c)) may suffer from the omitted variable bias (OVB). She argues that many other factors, such as income, can affect mortality rate Y and are correlated with X but are not included in model  (1).   She suggests adding the county-level Black population percentage and the county-level urban population percentage to the regression as control variables, as these variables can be viewed as proxies for income.  The addition of these control variables can help mitigate possible OVB. Do you agree with her (2 point)? Explain your answer (4 points).

2. IV Regression:  Fuzzy RDD (20 points)

The sharp regression discontinuity requires that the cut-off perfectly separates treatment and control groups. An alternative context is where this separation is imperfect, but the conditional probability of treatment is discontinuous at the cut-off.  This is called fuzzy regression discon- tinuity.  This question asks you to estimate the following fuzzy RDD model using a simulated data regdisc.csv:

Y = β0 + β1D + β2X + e,                                                   (2)

where X is the running variable and D is the treatment dummy variable (= 1 if receive treat- ment, and 0, otherwise).  Note that the main difference between model (2) and model (1) is that D is not a deterministic function of X. Assume D = 1 is more likely to occur when X ≥ 5.

(a)  (8 points) D may be an endogenous regressor in (2) since individuals can select to receive or avoid the treatment.  For example, individuals with high treatment effects are more likely to seek treatment than those with low treatment effects.  If this is the case, the OLS estimate of the treatment effect β1  is biased.  Propose a valid instrument variable (IV) for D (4 points). Justify your answer (4 points).

(b)  (4 points) Use the IV selected in (a) and observations with X e [3, 7] to obtain a TSLS estimate of β1  (2 points).  Is the treatment effect significant (2 points)?

(c)  (8 points) Is model  (2) exactly identified, overidentified, or underidentified  (2 points)? Does your TSLS regression in (b) suffer from the weak IV problem (1 point)?  Justify your answer (2 points). Is it possible to test the exogeneity of your IV proposed in (a) (1 point)? Explain your answer (2 points).


3.  Panel Data Models (25 points)

You investigate the deterrent effects of execution on murder using the panel dataset murder.csv, which includes the (U.S.) state-level data on murder rates and executions.  You consider the following model with unobserved effects:

mrdrte it = λt + β1 exec it + β2unemit + αi + u it, t e (1987, 1990, 1993}             (3)

where exec it  denotes the number of past executions of state i by year t, mrdrte it  and unemit respectively denote the murder and unemployment rate of state  i in year t,  αi   and λt  are unobserved entity and time effects, respectively.

(a)  (10 points) Estimate model  (3) by OLS and compute the cluster-robust SE  (4 points). Interpret your estimated β1  and test its significance (4 points).  What is the estimated time effect of the year 1990 (2 points)?

(b)  (10 points) Estimate model (3) using xedeffects (FE) regression and compute the cluster- robust SE (4 points).  Interpret your estimated β1  and test its significance (4 points).  Is λ 1993  significantly higher than λ1987  (2 points)?

(c)  (5  points) True/False:  The consistency of the OLS estimator obtained in  (a) requires stronger exogeneity condition(s) than the FE estimator obtained in (b).  Do you think this statement is true or false (1 point)? Explain your answer (4 points).

4.  Binary Choice Models (25 points)

You analyze the purchase of private insurance using the HRS05.csv dataset.  The data come from wave 5 (2002) of the Health and Retirement Study (HRS). The HRS contains information on a variety of medical service uses.  Older people can obtain supplementary insurance coverage either by purchasing it themselves or by joining employer-sponsored plans.

You use the data to analyze the purchase of private insurance (ins = 1 if purchase, and = 0, otherwise) from any source, including private markets or associations.  Explanatory variables in- clude health status, socioeconomic characteristics, and spouse-related information.  Self-assessed health-status information is used to generate  a dummy variable  (hstatusg)  that  measures whether health status is good, very good, or excellent.  Socioeconomic variables used are age, gender, race, ethnicity (white or Hispanic), marital status, years of education, retirement sta- tus (respectively, age, female, white, hisp, married, educyear, and retire), and household income (hhincome).

(a)  (6 points) Run probit and logit regression of ins on retire, age, hstatusg, hhincome, educyear, married, and hisp.  Report your estimation results.

(b)  (4 points) Compute the pseudo-R2  of the probit and logit regressions in (a).  Hint: Use the logLik() function to compute the log-likelihood (check the help file by help(logLik)).

(c)  (5 points) Run OLS regression of ins on retire, age, hstatusg, hhincome, educyear, married, and hisp. Report your estimation results.

(d)  (5 points) Predict the probit response probability (of ins = 1) for a unretired, married, non-Hispanic individual with a college degree (educyear = 16), median age of the sample, good health status, and 75th percentile household income of the sample.

(e)  (5  points) Keeping all other factors the same as in  (d), compute the difference in the probit response probabilities (of ins = 1) for individuals with the sample’s 25th and 75th percentile household incomes.