Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

ECON 436

Homework 4

Fall 2022

Question 1:  Schooling, Wages and a School Construction Program in Indonesia

In this question, you will investigate the relationship between education and wages. The exercise is influenced by Duflo (2001) “Schooling and Labor Market Consequences of School Construction in Indonesia: Evidence from an Unusual Policy Experiment” published in American Economic Review.

Suppose you want to understand the causal impact of elementary school education on wages in Indonesia.  You obtained an Indonesian dataset which has information on individuals’ years of schooling and wages.  In order to estimate the causal effect of elementary school education on wages, you start with the model below

log(Wagei ) = β0 + β1 Educationi + ui                                                                 (1)

where Wage and Education give the wages and years of schooling for individual i, respectively.

A) Method I: Linear Regression Model/OLS

Education is the only independent variable in the regression model (1).  This means that many independent variables are omitted from the model.

a) Can you give an example of an unobserved independent variable where its omission from model (1) will create omitted variable bias?

b) Explain why omitting that variable creates omitting variable bias using the two conditions for omitted variable bias.

When you are answering this question, first, state the two conditions for having the omitted variable bias. When you are stating the two conditions, use Q as the omitted variable, Y as the dependent variable and X as the regressor. Then say what is Q, Y and X in this context. After that, discuss the conditions in the context of the question. As an example, discussing Condition 2 can be writing whether it is likely for omitted variable and Education to be positively/negatively related.

B) Method II: Instrumental Variables Regression/2SLS Regression

In Method A, you used OLS but the method yields biased results due to omitted variable bias. Under Method I part a, you already gave an example of an unobserved variable that is omitted from model (1) which leads to omitted variable bias. In previous lectures, we included the omitted variable into the model to avoid omitted variable bias.  Unfortunately, now you do not have the data for the omitted factor you mentioned in Method I, part a since it is an unobserved variable. Thus, rather than solving omitted variable bias with a multiple regression model, you need to solve the omitted variable bias problem with an Instrumental Variables Regression/2SLS Regression.

In order to perform this new methodology, you rst need to nd an instrumental variable (IV). When you are going over your data, you realized that you have information on a school construction program  implemented by the Indonesian government  in the past.   The program  is  about the government randomly selecting some districts in the country to build many elementary schools, so that children can go to school.  Not every district is selected.  Meaning that in some districts, there are no new schools built by the government.

You have a dummy variable in your dataset named SchoolConstructionProgram, which takes the value of 1 if an individual is treated by the school construction program of the government in the past and 0 otherwise. Treated by the school construction program means that the individual was living in a district where the government built many schools during the time the individual was at elementary school age.

a) Based on the information provided above, is the variable SchoolConstructionProgram a valid instrument? Formulate your answer with respect to the following steps.

Step 1:  State the two conditions for IV validity. When you are stating the two conditions, use Z as the IV, u as the error term and X as the regressor. Then say what is Z and X in this context.

Step 2: Discuss the conditions in the context of the question. As an example, discussing Condition 1 can be writing whether it is likely for Z and X to be positively/negatively correlated.

Step 3:  End your answer with saying “  Since both of the conditions are satisfied, yes, the IV is valid.” or No, IV is not valid.”

b) Can you statistically test the exogeneity of your IV? First, write yes/no as an answer.  Then, explain why you can/cannot test.  (Write the context where you can/cannot test the validity of your IV)

c) Write the 2 stages of the 2SLS Regression in the context of the question. To answer this question, you need to write 1 model/regression for each stage using the variables in the question (you also need to write the new variable that is created in Stage 1).

d) Stage 1 of the 2SLS Regression provides a statistical relationship between the IV and the X . Thus, this stage is related to which of the validity conditions of the IV? First, write the name of the related IV validity condition. Then, explain why that condition and Stage 1 are related.

Question 2: Institutions and Economic Development

For this exercise you will work with the data used in the paper: Acemoglu, Johnson and Robinson

(2001) “The  Colonial  Origins of Comparative Development:  An Empirical Investigation”  pub- lished in American Economic Review.  You can nd the dataset in Blackboard under the name “ajr2001.dta” . The objective of this exercise is to replicate some of the results in Acemoglu, John- son and Robinson (2001) using IV.

In the paper, the authors investigate the causal impact of institutions  (X) on economic de- velopment/performance (Y). The regression model below summarizes the research question of the paper.

Economic Performance = β0 + β1 Institutionsi + ui                                              (2)

In the paper, for country i, Economic Performance and Institutions are measured by GDP per capita in  1995 and an index of average protection against expropriation risk in  1985– 1995 (an index for institutions of a country) respectively.  Due to unobserved omitted factors that are correlated with the Institutions variable, the authors use an IV Regression/2 SLS regression. They use mortality of the settlers/colonizers in a country in the past as an IV.

Use the ajr2001.dta” data to estimate the model (1) using IV. Settler mortality rate is the instrumental variable (logem4 in the data).

The STATA code for IV regression is as follows:

ivreg logpgp95 (avexpr=logem4), first robust

R users:

You can check the R resource I provided (Check Instrumental variable section)

a) Show the regression output. You can include a screenshot of your output (from STATA or R) or you can submit your log le if you are using STATA.

You will see that the coefficient of avexpr is now 0.94, which is the number in Column 1 of Table 4 in Acemoglu, Johnson and Robinson (2001). You will see that the code produces two tables. The first table is a regression where avexpr is regressed on logem4 (our instrument). The second table is a regression where logpgp95 is regressed on avexpr using logem4 as an instrument. This is because instrumental variables methodology nds the effect of institutions on economic performance using settler mortality (instrument) in 2 stages (2 Stage Least Squares (2 SLS)) Regression.

Important Note on Submission Style:

1) If you are taking screenshots of your STATA/R output, please do not upload your screenshots individually on Blackboard. Merge/compile it with your typed answers and upload all your answers to Blackboard as a single document.

2) If you are preparing a STATA log le for your STATA output, upload one document for your typed answers for the non-STATA questions (or one document which has the scan of your hand-written answers) plus one log le for your STATA output.

3) If you are going to take a photo of all your answers (hand-written + STATA/R output), CamScanner app takes photos and combine all of them in a single pdf document. You can upload that single pdf document on Blackboard.