Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

ECON20003  QUANTITATIVE METHODS 2

Second Semester, 2022

Assignment 3

Exercise 1    (33 marks = 4 + 16 + 5 + 8)

The owner of a mail-order catalogue in the United States would like to compare her sales with the geographic distribution of the population. According to the U.S. Bureau of the Census, 21% of the population lives in the Northeast, 24% in the Midwest, 35% in the South, and 20% in the West. Listed below is a breakdown of a sample of 400 orders randomly selected from those shipped last month. The owner of the mail- order catalogue would like to know whether the geographic distribution of her orders reflect the geographic distribution of the population.

 

Region

 

Northeast

Midwest

South

West

Frequency

68

104

155

73

(a)  What is the variable of interest? Is it qualitative or quantitative? If it is qualitative, is it ranked or unranked? If it is quantitative, is it discrete or continuous? What is its level of measurement? Explain your answers.

(b)  Answer the research question by performing all necessary calculations manually. State the precise hypotheses, the decision rule, calculate the test statistic showing the details of your calculations, make a statistical decision at the 1% significance level with reference to the proper critical value, and draw your conclusion. Based on the relevant critical value table, what can you tell about the p-value of your test? Explain your answer.

(c)  Repeat the test you performed in part (b) with R. Evaluate the test using the reported p-value this time.

(d)  List all requirements that must be met to validate the test in parts (b) and (c). Are they likely satisfied this time? Explain your answers.

Exercise 2    (31 marks: 5 + 4 + 12 + 10)

Terry and Associates is a specialised medical testing centre in Denver, Colorado. One of their major sources of revenue is a kit used to test for elevated amounts of lead in the  blood.  Workers  in  auto  body  shops,  those  in  the  lawn  care  industry,  and commercial house painters are exposed to large amounts of lead and thus must be randomly tested.  It is expensive to conduct the test, so the kits are delivered on demand by car to a variety of locations throughout the Denver area.

Kathleen Terry, the owner is concerned about appropriate costs of each delivery. To investigate, she gathered information on a random sample of 50 recent deliveries. Factors thought to be related to the cost of delivering (Cost, $) a kit are:

Prep: The time in minutes between when the customized order is phoned into the company and when it is ready for delivery.

Delivery: The actual travel time in minutes from Terry’s plant to the customer. Distance: The distance in miles from Terry’s plant to the customer.

Traffic: Whether the traffic in the Denver, Colorado area is light (1), normal (2) or heavy (3).

These data are saved in the a3e2.xlsx file.

 (a)  For each of the five variables, answer the following questions. Is it qualitative or quantitative? If it is qualitative, is it ranked or unranked? If it is quantitative, is it discrete or continuous? What is its level of measurement? Explain your answers.

(b)  Consider the following four pairs of variables: Cost and Prep, Cost and DeliveryCost and Distance, and Cost and Traffic. In each case, do you expect the variables to be related to each other? If yes, do you expect the relationship to be positive or negative? Explain your answers.

(c)  Using R, calculate the Pearson or Spearman correlation coefficient, whichever is more appropriate, for the four pairs of variables in part (b). In each case, briefly explain your choice between the Pearson and Spearman correlation coefficients and comment on the direction and relative strength of the relationship as implied by the point estimate.

(d)  Based on your answers in part (b), perform appropriate tests with R at the 5% significance level on two pairs of variables, Cost and Prep and Cost and Traffic, to determine whether there is a linear, or at least monotonic, relationship between the variables in the expected direction. In both cases, show the hypotheses and state the statistical decision and the conclusion.

Exercise 3    (36 marks: 5 + 4 + 6 + 6 + 9 + 6)

The a3e3.xlsx file contains international data from 2003 on 41 countries and four variables,

Unemp: unemployment rate (%),

Over65: proportion of the population over 65 (%),

Life: life expectancy at birth (years),

Literacy: proportion of population age 15 or more that can read and write (%).

(a)  Suppose you intend to estimate a multiple linear regression model of Unemp using three independent variables, Over65, Life and Literacy. Write out the population regression equation using the actual variable names. Do you expect the slope parameters to be positive or negative? Explain your expectations, or if you are undecided, explain why.

(b)  Estimate the population regression model in part (a) with R. Write out the sample regression equation using the actual variable names.

(c)  Interpret the adjusted coefficient of determination. Is the model likely to be useful in predicting the unemployment rate? Explain your answer.

(d)  Test the overall significance of the model at the 5% significance level. What are the hypotheses, the statistical decision and the conclusion? Be precise.

(e)  Based on your expectations in part (a), test appropriate hypotheses concerning the slope coefficients using t-tests at the 5% significance level. What are your hypotheses, decisions and conclusions?

(f)   What do the slope coefficients suggest?