Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

ECON60052 (UoM)

2021-2022

Midterm Assessment

Exercise 1 (50%)

You do not have to provide details on the Monte Carlo technique.  Argue in terms of finite and/or large sample properties of the estimator of interest being illustrated through the simulation.

Assume the following Data Generating Process (DGP):

y = β0 + β1x1 + β2x2 + u (M1)

With:

u ∼ N(0, 1)

x1

0

 

     

             σ1

σx1x2

σ2

σx2z1

σx2z2

σx2z3

σ1  = σ2  = σ1  = σ2  = σ3  = 1,

σx1z1  σx2z1

σ1    σz1z2 σz1z3

σx1z2  σx2z2 σz1z2

σ2    σz2z3

σx1z3 

σx2z3   

σz1z3    

σz2z3    

σ3    

σx1x2  = 0.5,σx1z1  = 0.8,σx1z2  = 0.1,σx1z3  = 0.4,σx2z3  = 0.6, σx2z1  = σx2z2  = σz1z2  = σz1z3  = σz2z3  = 0

β0

5

1. Assume a random sample of n = 1000 observations. Suppose the econometrician only observes x1  but not x2:

y = β˜0 + β˜1x1 +  (M2)


Do the Gauss-Markov Assumptions 1-4 hold for (M2)?  Please explain.  What are the conse- quences for estimating the model using OLS? (max 60 words)

2. Does β˜1  identify β1? Calculate plimn→∞ (β1).

3. Generate the variables according to the DGP in question 1 and estimate (M2) via linear re- gression and report the results.  Is your parameter estimate β1  close to its population value? Explain. (max 80 words)

4. Run the following algorithm:

(a) Keeping {x1,x2,z1,z2,z3} fixed, draw a dataset according to the DGP in 1.

(b) Estimate the regression (M2) for this dataset and store the resulting coefficient on x1 plus standard error.

(c) Repeat both steps R = 25000 times to obtain R estimates: β1,r  for r = 1,...,R.

Calculate and report the mean of the resulting estimates.  What do you observe?  Did you expect this value? Explain why. (max 70 words)

5. We have three potential instruments at our disposal: z1 , z2  and z3.  Given the information in Σ, which of the three is the best? Worst? Explain why. (max 150 words)

6. Generate a single draw of data according to the DGP in question 1 and estimate (M2) four times, instrumenting respectively x1  with (i) z1, (ii) z2, (iii) z3  and (iv) all three instruments. What do you observe? Explain. (max 800 words)

7. Repeat the algorithm in question 4 this time instrumenting x1  with (i) z1, (ii) z2, (iii) z3  and (iv) z1 + z2. What do you observe and did you specifically expect the values? Explain.  (max 280 words)

8. Change the sample size to n = 30 , set σx1x2   = 0 and repeat questions 4 and 7. What do you observe? Explain. (max 220 words)

 

Exercise 2 (50%)

In this exercise, you analyse data from the study “Effects of a large-scale social media advertising campaign on holiday travel and COVID-19 infections: a cluster randomized controlled trial” by Breza et al. (2021).

Their motivation for their research is summarised as follows: “During the Coronavirus Disease 2019 (COVID-19) epidemic, many health professionals used social media to promote preventative health behaviors". However, there seems to be little evidence on how effective they are.

The authors used a randomized controlled trial in the United States to assess the effect of a Facebook advertising campaign for the Thanksgiving and Christmas holidays to encourage users to stay at home. The authors asked nurses and doctors to record short video messages which were displayed to

Facebook users between 14 - 29 November 2020 in a “massive scale” . The treated group is labeled a “high-intensity group” to be compared with a “low-intensity group”.


The authors are specifically interested in the effect on two types of outcomes variables for the two holidays:  (i) movement variables, such as the proportion of Facebook users staying home, and (ii) COVID-19 cases. They estimate models at both, the county and zip code level.

In this exercise, we focus on the effect of the intervention at the county level on the movement outcome variable on the Thanksgiving holiday which was 26 November 2020.

The authors selected counties within 13 states with weekly COVID-19 data available at the zip-code level and which could be matched to county-level census data. This results in a sample of 6,998 zip codes in 820 counties.

At Thanksgiving, 410 counties were allocated to the high-intensity group (with 356 with Facebook mobility data) and 410 counties to the low-intensity group (with 343 Facebook mobility data).

Download the data from blackboard. More information on the data are in the paper.

 

Data Description

•  county_name: The name of the county.

•  state: The short name of the state.

•  county: The number of the county (also called county fips code).

• fips: The number of the county (also called county fips code).

•  high_county:  An indicator variable indicating whether the county is in the high intensity treatment group.

•  zip: The zip code.

•  treat: An indicator variable indicating whether or not the zip code has been treated.

•  urban: whether or not the zip code is urban or not.

•  movement_ch: Distance traveled.

•  stay_home: Proportion of users staying home.

•  date: Date of measurement.

Set seed = 1234. Start with reading the data into R. You can use the readxl package to read .xls data, the readstata13 package to read the stata data.  For your convenience, please find here a summary

of the variables from the raw datasets to make sure you have loaded your data correctly: “randomized_sample_thanksgiving.xlsx”:

 

“fb_movement_data.dta”:

 

 

Please be aware that in this homework, we do not always exactly follow the authors methodologies which might explain differences in your results and the ones in the paper.

1. State the research question. Why did the authors randomize the treatment? (max 160 words)

2. Read in both data files to create a panel at the county level using the function merge. During this process:

• Create a binary variable that indicates whether the majority of zip codes in a county is urban or not

• Create a variable that you deem most suitable to be included in the regression as control variable if we want to explain the share of individuals staying home. Explain your choice.

• For ease of interpretation, multiply the share of individuals staying home with 100.

To check you have done the merging correctly, look at the the following summary statistics for some of the variables.

 

 

(max 120 words)

3. Estimate the effect of the treatment on staying home without any additional controls  and with the chosen control.  Write down the models, estimate and interpret the result.  Use the traditional standard error. (max 340 words)

4. Run the second regression (incl. controls) using heteroskedasticity robust standard errors. Do the results change? (max 70 words)

5. For most specifications, the authors cluster their standard error at the county level.

(a)  Explain the rationale behind this and explain the potential consequences if they were not

to do that.  (max 300 words)

(b)  Run the regression using Cluster Standard Errors (Liang and Zeger, 1986).  Report your

results and comment.  (max 100 words)

6. You are also interested in the treatment effect heterogeneity for the model without any co- variates.  How would you obtain the treatment effect for the rural and urban counties from a single regression?  Write the model down and estimate it using OLS and a suitable standard error estimation method. Explain how to find the different effects using population expressions, calculate them and interpret. (max 300 words)