Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

ECON 140  Econometrics

SPRING 2023

Problem Set 1

-- Due on 02/15/2023, Wednesday 4:00 PM (PST) (Weds of Week 5)   

submit via Gradescope (course page -> Gradescope section)

(Please avoid hand-written answers if possible.)

Question 1

Imagine you knew that the true country-level production function (standard in macroeconomics) was: Yi = Ai 人Kia 人LiF, where Yi is the real” (purchasing power parity-adjusted) value of GDP for country i, Ki is the “real” value of the capital stock, Li is the number of workers in the workforce, Ai is total factor productivity (TFP), and α and β are production function parameters. [Hint: try writing that production function after taking logs on left and right-hand sides.]

Imagine  also  that  you  had  a  dataset  with  one  cross-section  of countries  in  2011  containing information on real GDP (in PPP-adjusted US Dollars), the real value of the capital stock (again in PPP-adjusted US Dollars) and data on the size of the workforce for each country in the dataset.

a)  How could you use this dataset to estimate the parameters α and β using an OLS regression? Be specific about each step of this analysis.

b)  Assuming the OLS regression in Part a) yields unbiased estimates of α and β, how could you use  your  estimation  results  above  to  compute  proportional  differences  in  TFP  across countries?

c)  You have learned from an expert that the reported real values of the capital stock, Ki, are measured  quite  imprecisely  (with  noise)  across  countries  by  statistical  agencies.  What concern could this give rise to in the estimation that you describe in Part a)? Be as formal as possible in your answer.

d)  Give two examples of additional potential threats to identification in the regression analysis of Part a). Be as formal as possible and derive the sign of any biases you discuss.

Question 2

To answer this question, we will use R (or your preferred software) and the dataset Mexico.csv” that you can download from bCourses. This dataset contains  1000 randomly selected Mexican workers in the year 2010 (from the Mexican population census in that same year). Note that in this administrative dataset, the variable “sex” is coded so that 1 corresponds to female and 0 corresponds to male. Write up the answers to a)-d) below in the same document you use for Questions 1 and 3. In addition, please attach the code you have used to answer the questions (R Script or Stata do file, etc.).

a)   Open the dataset in R (or other). First, create 3 dummy variables (AG, MA and SE) for agriculture, manufacturing and services. Visualize and export a table that lists the number of observations, the mean, the standard deviation, the minimum value and the maximum value for each of the variables in the dataset (edit and include the table in your written-up answer). Briefly describe what is the fraction of men in the dataset, what is the fraction of workers in each of agriculture, manufacturing and services in the data, and what is the fraction ofworkers speaking an indigenous language (an indicator of a person’s indigenous descent).

b)  Use the data to obtain a point estimate ofthe average difference in log daily wages for workers in services relative to all other economic activities in Mexico for 2010. Export your result in a regression table (that you can edit and include in your written up answer), and comment on the interpretation and statistical significance of your result.

c)  Use  the  data  and  OLS  regressions  to  explore  popular  claims  that  this  observed  wage difference for services (relative to other sectors) in Mexico can be explained due to the fact that service workers are more likely to be: i) male, ii) more educated, iii) older, iv) not of indigenous descent which the Mexican labor market may treat preferentially, and v) working in states with higher wages. Analyze each of those potential explanations jointly in one specification. Export your analysis appending the same regression table, and comment on the interpretation and statistical significance ofyour results.

d)  Investigate to what extent the returns to schooling (i.e. the increase in wages due to an additional year of education) differ between service sector workers and other workers in Mexico. Export your analysis appending the same regression table, and comment on the interpretation and statistical significance ofyour results.

Question 3

The foundation of a big tech company has hired you as part of their impact evaluation team. Your first assignment is to evaluate a program that they implemented before you arrived. Two years prior to your arrival, they installed free broadband internet access to 100 Indian villages, which they (non- randomly) selected from a list of 200 villages that had expressed interest in participating in the project. All 200 villages are very close to one another in the same small and densely populated region within one Indian subdistrict.

a)   The team runs the following regression to estimate the impact of the intervention on village- level GDP per capita:

GDPi = a + b Interneti + ui

where GDPi   captures village-level GDP per capita in Rupees and Interneti  is a dummy indicating whether village i received free broadband internet (Interneti=1) or not (Interneti=0). Does b capture the casual impact of free broadband internet on village-level GDP? Why or why not? Explain intuitively in words and formally using the potential outcomes framework.

Google gets funding to extend the project for another two years. They decide to work in a different subdistrict with a similar setup but one key difference. Again, they provide free broadband internet to 100 Indian villages selected from a list of 200 village that expressed interest in participating in the project. However, this time the 200 villages are randomly selected.

b)  First, you want to verify that the randomization was “successful,” that is, the 100 villages that received the free broadband internet treatment are on average similar to the 100 villages that did not. What 3-5 village characteristics would you like to measure to check this? What regression would you run, and what do you expect to see for the coefficient of interest?

c)  Which regression equation would you now run to estimate the impact of free broadband internet on village-level GDP? Explain the interpretation of the regression coefficients.

d)   How do you expect the coefficient of interest from part a) would compare to the coefficient of interest from part c)? Explain any assumptions you use to reach this conclusion.