Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Causal Inference for Microeconometrics

Assessment 3: problem set

Due date: 31st of October at 2pm

General instructions

Format Use Stata and the provided data for each exercise. Your report must be a PDF or MS Word document using 11 point font or larger with single spacing.  In your document, answer each question and paste the relevant Stata output for each question into your document.  To facilitate the grading work, please clearly label all your answers. Append your do-file for each exercise at the end of each exercise.

Marking A marking guide is provided for each question.  Please answer all questions and sub-questions to get full marks. Writing style matters in economics and will be taken into account in the marking for each question: be accurate, brief and to the point.  Misuse of causal language will be penalised.

Submission You should upload your assignment via the Turnitin submission link (in the Assessment 3 folder under Assessment). Do not hand in a hard copy. You are only able to submit once so make sure you finalise everything before submitting. You are strongly encouraged to submit your work reasonably earlier than the deadline to avoid potential technical issues.  Please submit the assignment on time:  I am not allowed to accept late submissions (unless there are exceptional circumstances).  Penalties will apply as described in the ECP (unless an extension has been granted prior to the due date).

Artificial intelligence (AI) usage This assessment has been designed to be challenging, authentic and complex.  Whilst students may use AI technologies, successful completion of this assessment will require students to critically engage in the task for which artificial intelligence will provide only limited support and guidance.   A failure to reference AI use may constitute student misconduct under the Student Code of Conduct.  If you use generative AI or AI-assisted technology, please include the following statement directly before the do-files at the end of your manuscript:  ”During the preparation of this work, I used [NAME TOOL / SERVICE] in order to [REASON]. After using this tool/service, the author reviewed and edited the content as needed and takes full responsibility for the content of the publication.”

Group work You are allowed to discuss this assignment with peers.   However, this is not a group assignment, which means that you must write up the assignment in your own words and submit it separately.  The marking system will check the similarity, and UQ’s student integrity and misconduct policies on plagiarism apply.

Aim This is an exercise to develop your independence in conducting data analysis which is an important part of being an economist across many industries (academia, policy, banks, industry, NGOs).   The economist toolkit is valued and often sought for by organisations wanting to estimate the impact of X on Y. This assessment aims at guiding you through a few examples of data analysis to build your independence and confidence in running your own analysis in your future empirical work. Don’t forget to take it as fun, because this is what research is about!

Exercise 1: the impact of school resources

Background This exercise uses the Ex__schres.dta which is collected yearly by the Department of Education.  Data is available for all schools and all years between 1993 and 1998.  The data contains information about the number of students, expenditures per student (as well as these expenditures adjusted for inflation and their log), average math scores, and the percentage of disadvantaged students in the school.  The Department has commissioned a research project to try and evaluate the impact of school expenditures on test scores.

1.  (7 points) Explore the variables.   Run an OLS regression of math test scores on the log of CPI adjusted  schools’ expenditures.  Is the coefficient statistically significant at 5%?  Interpret the coefficient. Now run this model controlling for the number of students (in log) and the percentage of disadvantaged students in the school.  Interpret the coefficient. What do you conclude about the impact of school expenditures and why?

2.  (5 points) You just saw a documentary on Netflix about schools spending more and more on each student each year. Run a regression to check whether this is true in your data. You now worry that this would bias your original OLS model from the previous question so you re-run this model now adding year dummies - how does the coefficient on the log of CPI adjusted schools’ expenditures compare to the estimate from the previous question? What is the sign of the bias in your original model? Why was your estimate biased in this direction?

3.  (6 points) Use random effects to re-estimate the above model (still controlling for the number of students (in log), the percentage of disadvantaged students in the school and year dummies).  How does your treatment effect compare with the OLS estimate?  Now run a fixed effect model.  How does your treatment effect compare with the random effect estimate?  Run a Hausman test:  what is your preferred model between RE and FE? Is it likely that time invariant differences between schools generate a bias in your least preferred model?

4.  (8 points) Thinking a bit more, you realise that there was an important election in QLD in 1997 that significantly shifted local governments, which increased school per student budgets.  Nothing significant happened in other States.  You decide to try and use this change as an exogenous shock to schools budgets in a difference-in-difference model.  Generate a variable that identifies the years post-treatment (from 1997 onwards) and a variable that identifies the treated schools.  Use a difference-in-difference to estimate the effect of the QLD increase on math test scores, controlling for the number of students (in log) and the percentage of disadvantaged students in the school. Interpret the coefficient.   Calculate the average of CPI adjusted schools’ expenditures in QLD before and after the election.  What percentage increase does that represent?  Is the effect of the increase in CPI adjusted schools’ expenditures larger in this model or the FE model?  What type of bias could explain the difference between the DiD and FE model?  Re-run the DiD model adding year and school fixed effects (this is what we call a two-way fixed effect model).  Does that change your DiD estimate much? Are you surprised?

5.  (4 points) Please provide a copy of your do file  (just the code, not the ouput) at the end of your assignment.

Exercise 2: does income make people happy?

Background There is this expression that money can’t buy happiness.  But your parents have always told you that to build a happy life, you need to study hard to get a good job and a good income.  So does money make people happier?  You’ve decide to find out for yourself using data from the  General Social Survey. You have obtained a pooled cross section for the even years between 1994 and 2006.  After having a look at the data, you decide to use vhappy as your outcome of interest  (dummy variable = 1 if people report being very happy and 0 if they are ”pretty happy” or ”not too happy”).  Your main explanatory variable of interest is income, which households’ weekly income in thousands of dollars.

1.  (7 points) First you decide to analyse the relationship between happiness and income in your data. Run a regression to check if they are related to each other and interpret the coefficient.  Then you start thinking that the relationship may not be linear as extra income may not mean the same thing for low income and high income households.  Generate a variable that gives the proportion of very happy people at each income decile.  Produce a scatterplot of the new happiness variable you created by income decile.  Describe the scatterplot with respect to linear vs quadratic trends, difference in slopes and possible jumps.  Generate a variable for the income below the median, a variable for income above the median and a dummy variable for whether a household’s income is above the median. Re-run the regression of happiness on income using these three income variables. Interpret the three coefficients.

2.  (5 points) Given the jump in happiness around the median of income you are starting to wonder how much of the income effect actually captures an income effect versus an effect of the prestige associated with certain professions. As for income you think that the association between prestige and happiness may not be linear, so you conduct a similar graphical analysis on prestige as you did with income. What is the best functional form to introduce prestige in your happiness regression? What happens when you regress happiness on all the income and prestige variables:  how do the coefficients on income change and what does that mean? what aspects of prestige matter?

3.  (3  points)  Remembering your econometrics class, you are worried about omitted variable bias and decide to control for demographic characteristics that could confound the effect of income on happiness.  Re-run the above regression controlling for race, gender and year dummies.  Does that change your income and prestige estimates? What do you conclude?

4.  (3 points) You discuss your results with a friend telling him that you discovered something really amazing about the fact that it’s not just your income that matters, but also whether you earn more than others  (i.e.  the median).  He agrees that it is quite fascinating but wonders whether your comparison is actually the one you want to make as you are comparing a household’s income with incomes in other years and in very different locations.   Maybe what matters is those that are closer to you in time and space?  You go back and redo your income analysis but instead of building your 3 income variable relative to the median in the data, you build 3 new variables that are relative to households in the same region and same year as you. You rerun your regression with the same 3 prestige variables and controls as in the previous question, but with the new income variables.  How do the estimates on income change when considering a closer peer group?  Does that suggest that households in your region and year are a more relevant comparison group?

5.  (3 points) What if a better comparison is the group with whom one grew up, not who they live with as adults.  Redo your income analysis but using 3 new income variables that are relative to households in the same region at 16 years old and same  (current) year.   Rerun your regression. How does your coefficient of interest change?  Does that suggest that households from the region you were living in at 16 is a more relevant comparison group?

6.  (4 points) You are now interested to look at whether these income and prestige patterns are more prevalent for certain subgroups.  Using interactions, run a regression to analyse differential effects for:  (1) women; (2) blacks. Identify and interpret meaningful differences between groups (you can use the test command to check the significance of coefficients that do not show directly in the regression).

7.  (1 point) In the end, does money make people happy?

8.  (4 points) Please provide a copy of your do file (just the code, not the ouput) at the end of your assignment.

Exercise 3: the impact of reading to children

Background The Australian government is worried about NAPLAN results in remote Australia and is evaluating a number of initiatives that aim at improving children’s education outcomes. You have been asked to evaluate an initiative that supports reading to children from low income households,  where reading is provided by members of a community organisation twice a week for an hour.   One of the primary objectives of the program is to improve reading test scores and you have been asked to conduct an impact evaluation of the effect of the program on reading test scores. You will use the dataset named ”Ex__reading.dta” to conduct your analysis.

1.  (7 points) When communities were selected for inclusion in the program, there were many more

remote communities than could be covered with the available budget.  The government decided to run a lottery to select the communities that would participate in the program in year 1, thus giving all communities a fair chance to start in the program first.   Your data contains information on communities selected at random for participation in year 1, as well as on communities that would only enter the program in subsequent years.  The variable treatment__locality indicates treatment communities (treatment__locality=1) and non-treatment or control communities (treatment__locality=0). In addition, the government restricted the eligibility of the program to families most in need which is defined in the exact same way in treated and control communities (eligible=1).  Data was collected from treated and control communities, for eligible and ineligible households, before the start of the program (round=0) and at the end of year 1 (round=1).

Compare baseline test scores and other covariates (age, spouse age, education, spouse education, whether the head of the household is a female, whether they speak an Indigenous language, the number of people in the household, whether the home has a dirt floor, whether it has a bathroom, the size of the land and the distance to the closest school) between eligible households in treatment and control communities:  report the difference in means, the standard error of the difference in means, the t-statistic for each variable and comment on the significance of average differences at 5% [Hint: you can make your coding more efficient by using loops when you have to replicate the same command several times.  Here you could try to use the foreach loop to run over the many variables (this is optional and you won’t be penalised if you don’t use it)]. Is the sample balanced on observables (interpret any significant difference you may find)? Is this what you would expect? and why or why not?

2.  (7 points) Now use an OLS regression to estimate the effect of the program on post-program reading test scores for the eligible population in treatment and control communities.  Run the regression without controls and then with all other covariates as controls.  Make sure to cluster standardized errors by locality. Interpret the estimated treatment effect. Is that likely to be the causal effect of the reading program? Why or why not?

3.  (4 points) You are still a bit concerned about the causal interpretation.  Re-run the OLS regression (with no controls) but this time on the ineligible population.  Do these results help confirm your confidence in the validity of the program impacts? Why?

4.  (4 points) After doing some more investigation on the design of the reading program, you find out that the government defined eligibility such that only households below the poverty line were eligible.  The  poverty index was constructed through a proxy  means test that assigned each household in the community a score between 0 and 100.   All households with a score less than or equal to 58 were classified as poor and were thus eligible.  All households with a score above 58 were considered non-poor and remained ineligible.  The variable  ”eligible” therefore identifies households below the poverty line (eligible=1) and ineligible households (eligible=0). First, normalise the poverty score so that the threshold is 0.  Estimate an OLS regression of reading test scores on the normalised poverty index and eligibility in the treatment for treated communities. What type of estimation model is that? Interpret the coefficient on ”eligible”.

5.  (4 points) You want to test whether the relationship between the poverty index differs on each side of the cut-off.  Create the relevant variables and re-run your OLS regression differentiating the effect on each side of the cut-off (don’t forget to center your new variable around 0).  Then you want to test for squared, cubic, and quartic poverty score terms on each side.  Create the relevant variables and re-run your OLS regression adding these non-linearities.  Is there any evidence that the functional form in the previous question was mispecified (explain why)?

6.  (5  points)  Using your preferred specification (the one that is correctly specified), please check whether there are any jumps in covariates (age, spouse age, education, spouse education, whether the head of the household is a female, whether they speak an Indigenous language, the number of people in the household, whether the home has a dirt floor, whether it has a bathroom, the size of the land and the distance to the closest school).  Please interpret any significant jump you find (at 5%).  What happens to your treatment effect when you add all covariates as controls in your regression?

7.  (5  points) Worried about your estimation strategy you decide to run a placebo test.   Design a placebo test, explain it and run the relevant regression.   Do you find a significant effect of the treatment?  Can you consider the treatment effects from the previous question as causal?

8.  (4 points) Please provide a copy of your do file  (just the code, not the ouput) at the end of your assignment.