Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Problem set 6 - U6068

Due:  December 7 at the beginning of class

In this problem set you will estimate how individuals value cancer risks.  The data for this study is from an actual study that has been published.

The data set includes sale prices for houses in two counties in Nevada: Churchill county and Lyon county. For some unexplained reason, Churchill county had a leukemia outbreak. The first case occurred in 1999, with several additional cases between 2000 and 2002. To this date, it is unclear what caused the leukemia cases.  The idea behind the study is to look at housing prices once the leukemia cases became public in Churchill county.  Lyon county is included as a “control county”. It didn’t have any Leukemia cases.

In general, it is difficult to place a monetary value on how people value cancer risk. The idea in this study to look at changes in housing price and use them as a proxy for how people value changes in cancer risk.

The data set includes the following variables for the years 1990-2002:

houseID:

churchill:

year:

month:

day:

lotsize:

floorsize:

condition:

age:

price:

cancerRisk:

ID that uniquely identifies a house, i.e., if a house is resold, it will have the same id.

Identifier is 1 if the house is located in Churchill county and 0 if the house is located in Lyon county.

year in which the sale took place.

month in which the sale took place.

day in which the sale took place.

lot size of the house in acres.

size of the house in square feet.

condition of the house rated on a 0-10 scale.

age of the house at the sale.

real (inflation-adjusted) price of the house.

cancer risk, which is zero before 2000 and then linearly increases to 1 by 2002 when the last leukemia case was discovered.

In the following, for each regression please comment on model fit as well as the sign and significance of coefficients.

Problem 1: Hedonic regression explaining housing prices as a function of house charac- teristics. Use only sales data from 1990-1998 (years before Leukemia cases).

a) Run a regression of the sale price on lotsize, floorsize, and age (including both linear and squared variables). Discuss the results.

b) Run the same regression as in part a) except that you also include dummies for the various conditions of a house.1   Discuss the results and why you would include dummies instead of just including “condition” as a variable.

c) Rerun the analysis in part a) and b) but use the log of the sale price instead of the sale price. Explain the difference. In your opinion, which specification is better?

Problem 2: Comparing Churchill and Lyon county. Use only sales data from 1990-1998 (years before Leukemia cases).

a) What are the average sale price, age, lotsize, floorsize, and house condition in Churchill and Lyons county.

b) Use t-tests to check whether the variables from part a are statistically significantly different in the two counties.2

c) Discuss whether Lyons county is a good “control” county for Churchill county.

Problem 3: The effect of Leukemia cases on house prices - trends in housing prices

a) Derive the average log sale price in Churchill county in 1990-1998.

b) Derive the average log sale price in Churchill county in 2000-2002.

c) Derive the average log sale price in Lyon county in 1990-1998.

d) Derive the average log sale price in Lyon county in 2000-2002.

e) Discuss the difference between a) and b). Why might the difference between c) and d) be of any interest?

Problem 4: The effect of Leukemia cases on house prices - regression analysis

a) Regress log sales prices on lotsize, floorsize, and age (including squared variables) as well as cancer risks. Interpret the results.

b) Limit the data set to houses that are sold at least twice.3   Rerun the analysis from part a), but only use the subsample of houses that are sold at least twice.  Do the results change?

c) Again only use houses that sell at least twice.   Regress log sale price on cancerRisk

using house fixed effects and year fixed effects.4  Interpret the results. c) Discuss the advantages/disadvantages of approach a), b), and c).

Some background and hints

(i)   Quadratic  terms:  In class we talked about linear regression and how the regression coefficient gives the marginal (per/unit) impact of an exogenous variable (e.g., age) on the variable of interest (in the problem set housing prices).  If you only include age in the regression, this implies that the reduction in price is the same for each additional year! Do you think this is realistic, i.e., do you expect that the same drop in housing price in the first year and the 25th year?

In the real world, prices tend to drop more for new properties than for some that are really old.  So now ask yourself what is the role of the quadratic term?  It allows for the price reduction of an additional year to vary by age, i.e., a new house while have a significant drop in price in the first year (as it goes from brand new to used), but there might not be much of a drop for a house that is already 25 years old by becoming 26 year old.  In the extreme, houses might even start to increase in value when they become really old (antiques).

In more mathematical terms, if house prices y area linear function of age a, y = b0 +b1 a, the impact of an additional year on the price is b1.  If you use a quadratic specification, where y = b0  + b1 a + b2 a2 , the marginal impact of an additional year  (i.e., the price drop caused by having a house that is one year older) is b1  + 2b2 a, which varies with age!

(ii)   Ordinal  versus cardinal variables:  An ordinal variable establishes a ranking, where

more is better, but it does not imply that a twice as high value is twice as good.

For example, you get grades in this class:  A (GPA 4.0), A- (GPA 3.7), B+ (GPA 3.3). While a higher GPA means that a student did better, it doesn’t necessarily imply that a student with a GPA of 4.0 did twice as good as one with a 2.0.

If you were to include an ordinal variable in a regression equation, e.g., condition of the house, it would imply that going from condition 1 to 2 has the same impact on the price as going from 2 to 3.

(iii)   Linear  versus log models.   As we discussed in class,  a liner model implies that the absolute reduction in house price is the same for all houses independent how expensive they are, i.e., in a linear specification, having a higher cancer risk lowers the price of a 100,000 house by the same amount (e.g., $10,000) as the one of a 3million mansion.

If you take the log of the dependent variable, e.g., house prices, the model specifies that cancer risk reduces the house price by the same relative  or percentage amount. For example, a 10% reduction would reduce the price of the 100,000 home by $10,000 and the price of the 3million mansion by $300,000.

(iv)   Fixed effects.  Recall that in a cross-sectional hedonic analysis, i.e., an analysis across space where you have one observation per house, there might be omitted variables that bias your coefficient of interest, e.g., air-quality was correlated with distance to beach, and omitting the later one from the analysis biased the coefficient on air quality.

The advantage of fixed effects is that you include a  “dummy” or indicator variable for each house that capture all time-invariant fixed effects (e.g., the distance to the beach) and hence you don’t have to worry about what time-invariant variables you have to include to avoid omitted variable bias. If a regression that uses fixed effects gives you a different answer than one where you just compare different houses by linking them to various house characteristics, you have to worry that the latter suffers from omitted variable bias. If the latter model is correctly specified, the answers should be the same.

In order to identify the effect of a variable (e.g., cancer risk) in a fixed effect model, the house has to be sold at least twice with different cancer risks, otherwise the variable cancer risk would have been completely co-linear with the fixed effect.

Ok, if I have lost you in the last paragraph, consider the following example of colinearity. Some of you might have had game nights, where you get together with a group of friends to play a board game, e.g., Trivia Pursuit.  Sometimes you have couples that always play together and hence you have no way of telling who of the two is the smart one. If Chris and Pat always come together to game nights and always play together, how would you ever figure out who really is the smart one? In order to identify who of the two is the smart one,you want them to play with different people and see how well they are doing, i.e., if Pat and person X do better than when Chris plays with person X, you can tell that Pat is smarter. Similarly, if the house indicator (fixed effect) always shows up with the same cancer risk, you cannot tell whether it is the house fixed effect or the cancer risk that contributes to the house value and by how much, but if the same house fixed effect shows up with different cancer risks, you can disentangle the influence of each one.