Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Econ 140

Summer 2022

Midterm Exam 2

1.  For the  Oregon Health Plan Experiment  (OHP), describe in one sentence,  one of the two key policy questions that the experiment shed light on (considered only as relevant information from Ch1). [2pts, 1 sentence]

2.  RCTs are simple in logic, but difficult in logistics.  In the RAND Health Insurance Experiment  (HIE) discussed in class, the original design had a total of 14 treatments, but when preforming the analysis, this 14 were groups into 4 broader categories.  The researchers did this to address which of the following concepts discussed in class [2pts]

a) Increase sample size to address the fundamental problem of identification

b)  Reduce the logistical burden of tracking individuals over 14 different insurance services.

c) Increase sample size so the estimated coefficients can be approximated by well-known distributions.

d)  Reduce variation in the error term.

3. When conducting a hypothesis test in a regression analysis our main goal is [2pts]:

a)  Check if the estimated coefficient is consistent with some population parameter

b)  Check if an observed statistic is large in magnitude

c)  Check if the t-statistic is larger than 2 or smaller than -2

d)  Check if the population coefficient is consistent with a range around our estimated parameter.

4.  Explain in one or two sentences how assigning an intervention on the basis of who needs it most would NOT solve the selection bias problem (an example of need-based assignment would be to assign health insurance to the people that have the worst health, or are poorer, first).  [3pts, 2 sentences]

5.  Consider the following table displaying average undergraduate GPA from a random sample of Penn State University students.  [6pts, 2pts each]

Mean      SD     N

GPA     3.10         .4        400

a) Construct the 95% confidence interval for the sample mean GPA at Penn State and interpret.

b) Calculate the t-statistic and interpret significance for the null hypothesis that population average GPA is 4.1. Repeat for a population average GPA of 3.09.

c) Provide approximate p-values for the two t-statistics in (b)

d) Compare these two results.

6.  A t-statistic, that tests that an intervention had an effect of 1.5, is -3.2.  The standard deviation for the outcome variable is 5, and the study had 100 observations. What is the estimated effect of the intervention (using SE for sample mean is fine)?  [3pts]

7.  The 95% confidence interval of an estimated coefficient is [1.34, 5.74]. What is the corresponding standard error of this coefficient? (hint: approximately how many times standard error can fit in this 95% confidence interval?)  [2pts]

8.  The 95% confidence interval for a sample mean [-2, 4]:  [2pts]

a) Will contain the estimated sample mean 95% of the time

b) Is less likely to contain the population value in the [-1,1] range than in the [1, 4] range

c) Will contain the true mean 95% of the time

d) Is equally likely to contain the population value in the [0,1] range than in the [0, 4] range

9.  P-Hacking:  [4pts, 2pts each]

a)  Define the problem of p-hacking.

b) In the Dale and Krueger example covered in class we have seen many regression (18 if you count tables 1-3!).  Could you think of additional methodological choices that could generate another set of 18 (or more) regressions (there are many ways in you can answer this, for example you can use material from nonlinearities, regression inference an even from before, if it helps you can also assume that you have other variables that you can include in your regression)? 

10.  Under which conditions you could convincingly argue that regression is a good research design tool to answer a causal question?  [3pts, 1-3 sentences]

11. We discuss the Table below while learning about RCTs, but now we can look with more detail at the notes: is says that this are regression coefficients.  [6pts, 2pts each]


 

(a)  How many regressions are in panel A of this table?

(b) Write down the regression equation for the Physical Health index (assume that the regression uses only the treatment variable as a regressor).

(c) Is it statistically significant? Why?

12.  Recall this table from section 7 (“The gender gap in Canadian federal election. . . ”) [8pts, 2pts each]:


(Model 1)    (Model 2)

Woman

 

 

 

(0

.366)

(0

.135)

Vote share lag

 

0.276***

 

 

(0

.006)

Party performance

 

0 666***

 

 

(0.004)

Incumbent Party

 

6.783***

 

 

(0.148)

Distance from contention

 

 

.015**

 

 

(0 005)

Constant

27.682***

0.281

 

(0

.139)

(0

.246)

Observations /N

R2

23903

0 030

23903

0 872

Standard errors in parentheses

*p < 0.05, **p < 0.01, ***p < 0.001

a) What is the corresponding equation for Model 2?, What is the estimated equation for Model 2?

b) Provide an interpretation of this coefficient using the idea of regression at matching.

c) Provide an interpretation in plain English for the coefficient for the variable Women in model 2

d) Compute the t-statistic, for standard the null of a zero coefficient, for the coefficient of the variable “Distance from contention” in model 2. Give a rough estimate of the corresponding p-value.

13.  The regression residuals [2pts]

a)  are aggregated in a sum to solve the regression minimization problem.

b)  are unknown since we do not know the population regression function.

c)  are aggregated in a squared sum to solve the regression minimization problem.

d)  should not be used in practice since they indicate that your regression does not run through all your observations.

14.  Describe   the   OVB   formula   in   one   sentence   (all   English,    no   symbols)   [3pts,    1   sentence]

15. In a video watched on lecture one, an interviewer brings up the point that the gender pay gap in the UK is 9% as evidence that modern society is still primarily dominated by men. Her point is that gender        causes a wage differential.

a) Write down the underlying regression that corresponds to interviewers’ claim that women earn 9% less than men on average in the UK?[2pts]

Let’s assume that another (new) commentator jumps into the conversation and says That’s            probably an underestimate once you take into account that women stay away from industries that   have a bad record in the treatment of women, and that those industries tend to have lower earnings on average”

b) Write down the underlying regression that corresponds to the new commentator’s argument (hint: think of an Industry Machismo Index (IMI), where 0 means no machismo in the industry and 100 means maximum machismo).  [2pts]

 c)  Discuss how the OVB formula could help us understand the effect of including a variable like  an industry machismo index” on the effect of gender on wages. Write down the long, short and auxiliary equations and interpret the OVB formula (the right hand side, not the βl − βs  part) [3pts, 2-5 lines]

16.  High variation in             increases the t-statistics regression coefficients (for 0 null hypothesis), while high variation in             reduces it. [3pts]

a) the sample size; the residuals

b) the residual; the sample size

c) the regressor; the residual

d) the residual; the regressor.

(Table 4 is used in questions 18 and 19 below)

 

17.  Based on OVB and Regression as Matching. Answer the following questions related to Table 4:  [12pts]

a) Interpret the coefficient for years of education in the second column using the idea of regression as matching.  [3pts]

b) Write down the regression equation for column (3)[2pts]

Using the OVB formula, explain what is going on with the coefficient on years of education, when we move from 1 to 2, and from 3 to 4. Be explicit about the auxiliary equation that you would need in each case.  (Note: by OVB formula, we mean the right-hand side, not beta long beta short) [3pts, 2-4 lines]

d) In order to capture the true causal effect, it would be helpful to have some measure of ability”       (think something like general score of skills and talents”) and of privilege” (think something like a general score for additional support received during upbringing and in labor market) both                 unobservable. Using the OVB formula (again, not the difference between beta long and beta short,  but the other side of the equation), argue about the sign of the bias each of this two unobservable    will generate.  [4pts, 2-5 lines]

For simplicity lets use the columns 1 as the short equation (answer is fine if it uses any column as short):

18. Based on All Things Regression (Anatomy and others): Answer the following questions related to Table 4:  [8pts]

a) Write down the two-regressions required to generate the coefficient of distance to wealthiest zip code in column 5 as the coefficient of a bi-variate regression equation.  [2pts]

b) What is the t-statistic, for a null of zero association, for the coefficient on distance to wealthiest zip code on columns (4) and (5)? What happened with the coefficient themselves? Can you think of a  possible explanation (hint: think of regression [2pts] anatomy)?  [4pts]

c) Assume that the person that gives you the regression outputs tells you I forgot to mentioned that  the variable for years of education was actually in logs”, how should you re-interpret this coefficient? [2pts]