关键词 > ECN702

ECN702 Econometrics II Assignment #2


Econometrics II

Assignment #2

Due date - Feb. 19h

Answer the following question in a separate paper with your empirical result obtained from the statistical program such as R, Eviews or Stata.  (R is recommended.)

1.   Using data file hmda_2017_boston, which contains mortgage application of residents in Bosting with the final decision. Unfortunately, available information in 2017 is quite       different from the data we handled during the lecture due to the privacy issue. The list of variables included in 2017 dataset can be found in the appendix at the end of this             document. Note that this is the original data set could be obtained by the following          address so that irrelevant entries are included



a.    Create the variable deny by checking whether denial_reason_1 is empty. If the entry is empty, the mortgage is approved.

Create the variable LTIby dividing loan_amount_000s by applicant_income_000s. This represents the applicant’s loan to income.

b.   Regress deny on LTI using a linear probability model, probit and logit regression.   Explain the difference of the result among three models focusing on the advantages and disadvantages of three models.

c.    To resemble the result with HMDA 1990, create the subsample which include only African American(3) and White(5) applicant based on applicant_race_1. Note that we ignore applicants’ rest of races they declared for brevity.

Then repeat (b). Does the result change? Why or why not?

d.   Regress deny  on LTI, applicant_race_1, loan_type, property_type, loan_purpose,   owner_occupancy, sex, income using linear probability model, probit and logit regression. Note that income is the variable you have to create by setting 0 for lower income group(<70) and 1 for middle, and 2 for the high income group(>200) based  on applicant_income_000s.

e.    Assume that model described in (d) is the one with every available data. Construct the table like Table 11.2 of the textbook comparing the various model. You could  take out the variables from (d) or you could add more from the original data set.    When you include the data, be cautious what each of variable stands for. You have to consider at least five specifications using probit or logit. You don’t need to use both models. LPM is not necessary.

f.    Based on the result you get from (e), compare yours with the result using 1990 HMDA

Do you think that the racial issues in the mortgage approval become less serious? Or it gets worse?

g.    Since we consider only African American and White in result (e), it has a drawback. To overcome it, use the original data set which include other races. But there are      many applicants who did not declare their races. In practice, those are excluded in    the estimation because they did not provide any information to our research. So, please make new subsample include all races ( 1~5) or exclude category 6 and 7 in   applicant_race_1.

Then repeat (d) and (e) for new subsample and answer (f) with the new result.

2.   (E10.2) Using data file Income_Democracy_Description, which contains an index of political freedom/democracy for each country in each year, together with data on each country’s income and various demographic controls.

a.    Is the data set a balanced panel? Explain.

b.   The index of political freedom/democracy is labeled Dem_ind.

i.      What are the minimum and maximum value of Dem_ind in the data set? What are the mean and standard deviation of Dem_ind in the data set?   What are the 10th, 25th, 50th, 75th, and 90th percentile of its distribution?

ii.      What are the value of Dem_ind for the United States in 2000? Averaged over all years in the data set?

iii.      What is the value of Dem_ind for Libya in 2000? Averaged over all years in the data set?

iv.      List five countries with an average value of Dem_ind greater than 0.95; less than 0. 10; and between 0.3 and 0.7.

c.    The logarithm ofper capita income is labeled Log_GDPPC. Regress Dem_ind on Log_GDPPC. Use standard errors that are clustered by country.

i.      How large is the estimated coefficient of Log_GDPPC? Is the coefficient statistically significant?

ii.      If per capital income in a country increases by 20%, by how much is Dem_ind predicted to increase?

What is the 95% confidence interval for the prediction?

Is the predicted increase in Dem_ind large or small? (Explain what you mean by large and small.)

iii.      Why is it important to use clustered standard errors for the regression? Do the results change if you do not use clustered standard errors?

d.   Answer the following question

i.       Suggest a variable that varies across countries but plausibly varies little or not at all over time and that could cause omitted variable bias in the regression in


ii.      Estimate the regression in (c), allowing for country fixed effect. How do your answer to (c)-(i) and (c)-(ii) change?

iii.      Exclude the data for Azerbaijan, and rerun the regression. Do the result changes? Why or why not?

iv.      Repeat (i)~(ii) of (d) based on the result from (iii)

v.      Assume there are additional demographic controls in the data set. Should these variables be included in the regression?

If so, how do the results change when they are included?

e.    Based on your analysis, what conclusions do you draw about the effects of income and democracy?



Respondent ID: 10 Character Identifier


1 -- Office of the Comptroller of the Currency (OCC)

2 -- Federal Reserve System (FRS)

3 -- Federal Deposit Insurance Corporation (FDIC)

5 -- National Credit Union Administration (NCUA)

7 -- Department of Housing and Urban Development (HUD)

9 -- Consumer Financial Protection Bureau (CFPB)

Edit Status:

Blank -- No edit failures

5 -- Validity edit failure only

6 -- Quality edit failure only

7 -- Validity and quality edit failures


MSA/MD: Metropolitan Statistical Area/Metropolitan Division

State: Two-digit FIPS state identifier

County: Three-digit FIPS county identifier

Tract: Census tract number


Sequence Number: One-up number scheme for each respondent to make each loan unique

Loan Type:

1 -- Conventional (any loan other than FHA, VA, FSA, or RHS loans)

2 -- FHA-insured (Federal Housing Administration)

3 -- VA-guaranteed (Veterans Administration)

4 -- FSA/RHS (Farm Service Agency or Rural Housing Service)

Property Type:

1 -- One to four-family (other than manufactured housing)

2 -- Manufactured housing

3 – Multifamily

Loan Purpose:

1 -- Home purchase

2 -- Home improvement

3 -- Refinancing


1 -- Owner-occupied as a principal dwelling

2 -- Not owner-occupied

3 -- Not applicable

Loan Amount: in thousands of dollars


1 -- Preapproval was requested

2 -- Preapproval was not requested

3 -- Not applicable

Action Taken:

1 -- Loan originated

2 -- Application approved but not accepted

3 -- Application denied by financial institution

4 -- Application withdrawn by applicant

5 -- File closed for incompleteness

6 -- Loan purchased by the institution

7 -- Preapproval request denied by financial institution

8 -- Preapproval request approved but not accepted (optional reporting)



1 -- Hispanic or Latino

2 -- Not Hispanic or Latino

3 -- Information not provided by applicant in mail, Internet, or telephone application

4 -- Not applicable

5 -- No co-applicant


1 -- American Indian or Alaska Native

2 -- Asian

3 -- Black or African American

4 -- Native Hawaiian or Other Pacific Islander

5 -- White

6 -- Information not provided by applicant in mail, Internet, or telephone application

7 -- Not applicable

8 -- No co-applicant


1 -- Male

2 -- Female

3 -- Information not provided by applicant in mail, Internet, or telephone application

4 -- Not applicable

5 -- No co-applicant

Gross Annual Income: in thousands of dollars


Type of Purchaser

0 -- Loan was not originated or was not sold in calendar year covered by register

1 -- Fannie Mae (FNMA)

2 -- Ginnie Mae (GNMA)

3 -- Freddie Mac (FHLMC)

4 -- Farmer Mac (FAMC)

5 -- Private securitization

6 -- Commercial bank, savings bank or savings association

7 -- Life insurance company, credit union, mortgage bank, or finance company

8 -- Affiliate institution

9 -- Other type of purchaser

Reasons for Denial:

1 -- Debt-to-income ratio

2 -- Employment history

3 -- Credit history

4 -- Collateral

5 -- Insufficient cash (downpayment, closing costs)

6 -- Unverifiable information

7 -- Credit application incomplete

8 -- Mortgage insurance denied

9 -- Other


HOEPA Status (only for loans originated or purchased):

1 -- HOEPA loan

2 -- Not a HOEPA loan

Lien Status (only for applications and originations):

1 -- Secured by a first lien

2 -- Secured by a subordinate lien

3 -- Not secured by a lien

4 -- Not applicable (purchased loans)

Application Date Indicator

0 -- Application Date >= 01-01-2004

1 -- Application Date < 01-01-2004

2 -- Application Date = NA (Not Available)


Population: total population in tract.

Minority Population %: percentage of minority population to total population for tract. (Carried to two decimal places)

FFIEC Median Family Income: FFIEC Median family income in dollars for the MSA/MD in which the tract is located (adjusted annually by FFIEC).

Tract to MSA/MD Median Family Income Percentage: % of tract median family income compared to MSA/MD median family income. (Carried to two decimal places)

Number of Owner Occupied Units: Number of dwellings, including individual condominiums, that are lived in by the owner.

Number of 1- to 4-Family units: Dwellings that are built to house fewer than 5 families.