Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit


ECON 191b: Econometric Methods for Causal Inference

Problem Set #1, Spring 2022

 

1.  (Selection bias) For each of the following examples (some of them hypotheti- cal), explain why the reported difference in mean outcomes between treated and untreated units may be contaminated with selection bias. What does selection bias mean in each of these cases?

a. College-educated (D = 1) workers earn (Y) more on average than those who did not graduate from college.

b. People who have recently been admitted to a hospital (D = 1) are more likely to die within the next year (Y) than those who have not.

c. U.S. states with high minimum wages (D = 1) have lower employment rates (Y) on average than those with low minimum wages.

d. Mothers of three children (D = 1) are less likely to work for pay (Y) than moth- ers of one child.

e. Graduates of public exam schools (D = 1) have higher SAT scores (Y) on aver- age than graduates of other public schools.

f. High-income earners (D = 1) have longer life expectancy (Y) than low-income earners.

g. People who regularly drink Champagne (D = 1) are less likely to get infected with COVID-19 (Y) than those who do not.

h. People who meditate every day (D = 1) are happier (Y) on average than those who do not.

 

2.  (Average treatment effects) Consider a population of five students who are about to choose whether to enroll or not to enroll in health insurance. Their self- reported health index with (Y1i) and without (Y0i) insurance is reported below.

Name

Y1i

Y0i

Daniel

3

3

Elena

5

5

Greg

4

2

Joseph

4

3

Yingying

4

4

a. Calculate the treatment effect for each student.

b. Calculate the average treatment effect.

c. Imagine a researcher who is able to randomly assign health insurance to some students and deny it to others. The researcher will randomly assign three students to the treatment group and two students to the control group. How many different compositions of the treatment and control groups are possible?

d. For every such composition of the treatment and control groups, calculate the difference in mean observed outcomes between treated and untreated units.

e. Verify that the difference in mean observed outcomes is an unbiased estimator of the average treatment effect.

f. Which aspect of this study guarantees that the difference in mean observed out- comes is unbiased?

g. In practice, would it be reasonable to study causal effects of health insurance in this context, assuming that the treatment is randomly assigned? Why/why not?

 

3. (Job training) The National Supported Work Demonstration (NSW) was a U.S. temporary employment program that operated in the 1970s. Its goal was to pro- vide work experience to disadvantaged workers.   Unlike in many similar pro- grams, the participation in the NSW was determined in a randomized experiment. The files nswt.dta and nswc.dta contain information about the treatment group and the control group in the NSW, respectively. (Both datasets are restricted to the male participants in the experiment.) The available variables are as follows:

Name

Description

treated

1 if treated; 0 otherwise

age

Age in years

educ

Years of schooling

black

1 if Black; 0 otherwise

hispanic

1 if Hispanic; 0 otherwise

married

1 if married; 0 otherwise

nodegree

1 if educ < 12; 0 otherwise

re75

Real earnings in 1975 (before the treatment)

re78

Real earnings in 1978 (after the treatment)

 

Use the command append to combine the two files. Note that treated is the treat- ment and re78 is the outcome in this study.  That is, we are interested in causal effects of job training on subsequent earnings. The remaining variables are mea- sured before the treatment assignment and may be used as additional covariates. a. Check for balance. That is, regress each pre-treatment variable on the treatment, and comment on whether the treatment group and the control group are similar in all observed dimensions. Use heteroskedasticity-robust standard errors. If some of the differences between these groups are statistically different from zero, comment on whether the test results are likely to be driven by chance rather than actual dif- ferences between the two groups.

b. Regress the outcome on the treatment. As before, use heteroskedasticity-robust standard errors.  Interpret the estimate of the average treatment effect and com- ment on its statistical significance.

c. Regress the outcome on the treatment and all additional covariates. As before, use heteroskedasticity-robust standard errors. Is the new estimate of the average treatment effect substantially different from that in point b? Why/why not?

d. Create demeaned versions of all additional covariates. Regress the outcome on the treatment, all additional covariates, and the full set of interactions between the treatment and the demeaned covariates. As before, use heteroskedasticity-robust standard errors. (Bonus points: why are these standard errors not exactly appro- priate in this context?) Is the new estimate of the average treatment effect substan- tially different from that in points b and c? Why/why not?

e. Regress the outcome on all additional covariates in the subsample of treated units.  Obtain predicted values from this regression.  Then, regress the outcome on all additional covariates in the subsample of untreated units. Obtain predicted values from this regression, too. Estimate the average treatment effect as the mean difference in predicted values from the two regressions. Verify that your answer is identical to that in point d.

f. Estimate the average treatment effect with the command teffects  ra.  Verify that your answer is identical to those in points d and e.

g. Comment on the differences in standard errors between points b, c, and f. Which estimation methods are associated with an increase in precision, however small?

 

4.  (Randomization inference) In this exercise, we will continue using the NSW data and we will consider an alternative approach to statistical inference in ran- domized trials. The general idea is as follows. Under the null hypothesis, assume that the treatment effect is zero for every unit. If this were the case, we could re- construct all the missing potential outcomes, as the observed outcome would be equal to the counterfactual outcome for every unit. Then, after doing this, we can simulate the treatment assignment mechanism to obtain a sampling distribution of an estimator of interest, say, the difference in mean observed outcomes. If the actual estimate in our original dataset is sufficiently extreme in this sampling dis- tribution, we interpret this as evidence against the null.

a. For the combined nswt.dta and nswc.dta dataset, randomly select 297 units to be “treated” and 425 units to be “untreated.”  Note that these “placebo” assign- ments will be different from the actual treatment assignment. Repeat this process 10,000 times. In every iteration, compute the absolute values of the differences in means of re78 and re75 between the “treated” and “untreated” units. Provide the histograms for these sampling distributions.

b. Compute the p-value for the test that the causal effect of the treatment on re78 is zero for all units. What do you conclude about this hypothesis?

c. Compute the p-value for the test that the causal effect of the treatment on re75 is zero for all units. What do you conclude about this hypothesis?

d. Comment on your answers in points b and c in the context of whether the treated and control groups are properly balanced and whether job training has a causal ef- fect on subsequent earnings.

 

5.  (Polio vaccine) In 1950s, an American virologist Jonas Salk developed one of the first effective vaccines against poliomyelitis, the virus that causes polio.  The effectiveness of this vaccine was evaluated in a randomized trial with 401,974 par- ticipants, 200,745 of whom were randomly selected to receive the vaccine and the rest to receive a placebo. Ultimately, the treatment group saw 33 polio cases while

the control group saw 115 cases. (These data appear in Cunningham, 2021.)

a. To test the null hypothesis that the average treatment effect of the Salk vac- cine is zero, it is sufficient to consider the standard hypothesis test about the dif- ference between the proportions of two populations.  Explain why.  Then, com- pute the test statistic and the corresponding p-value. (The test statistic is given by z =  (11)╱(p¯) + n2(1)  , where 1, 2, and  are the proportions in the first sample, in the second sample, and in the combined sample, respectively, and n1 and n2 are

the sizes of both samples.) What do you conclude?

b. Create a Stata dataset to represent the Salk vaccine trials.  The dataset should consist of 401,974 observations. Create two variables: D, which takes the value of one when a unit received the vaccine and zero otherwise; and Y, which takes the value of one when a unit was diagnosed with polio and zero otherwise.

c. Regress Y on D. What do you conclude about the average treatment effect of the Salk vaccine?  Interpret your point estimate and compare the corresponding test statistic with the test statistic in point a.

d. Interpret the value of the coefficient of determination in your estimated regres- sion. Is it problematic that the coefficient of determination and the point estimate in point c appear to be very small? Why/why not?

e. Use the data above to calculate the efficacy rate of the Salk vaccine. (The follow- ing tutorial explains how to calculate vaccine efficacy: https://nyti.ms/3sizYuW.) Compare your result to the efficacy rate of Pfizer’s COVID-19 vaccine, which is es- timated to be 95% for full vaccination.

f. The number of participants in the Salk vaccine trials was very large, also relative to the COVID-19 vaccine trials. Why do you think this was necessary?