关键词 > STAT2008/2014/4038/6014/6038

STAT2008/2014/4038/6014/6038 Regression Modelling Assignment 1

发布时间:2022-08-26

Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Semester 2, 2022

STAT2008/2014/4038/6014/6038 Regression Modelling

Assignment 1

Research School of Finance, Actuarial Studies and Statistics

Questions (100 marks)

You are interested in the high-performance concrete and you wish to explore some of the techniques you have learned in our regression course thus far.  Data le concrete.csv” (available to download from Wattle) contains compression strength (in MPa [megapascal]) of high-performance concrete and a variety of component covariates.  While there are number of variables available, for this assignment you will only consider compressive .strength and cement. Please answer following questions:

(a)  [5 marks] Conduct an Exploratory Data Analysis (EDA) to assess whether these two

variables are associated.   Is there a statistically significant correlation between the variables?  Clearly specify the hypotheses you are testing and present and interpret the results.   (Hint:  When performing the EDA, please use both the numerical and graphical measures to assess the association. Use the cor .test() function to conduct a suitable hypothesis test.)

(b)  [15 marks] Fit a simple linear regression model with compressive .strength as Y and

cement as X .  What are the estimated coefficients of the tted model and the stan- dard errors associated with these coefficients? Interpret the values of these estimated coefficients. Perform t-tests to test whether or not these coefficients differ significantly from zero (clearly outline the hypotheses and test statistics).  What do you conclude as a result of these t-tests?

(c)  [10 marks]  Generate the ANOVA table and test whether the model in part  (b) is significant. You need to write down the hypotheses, provide the ANOVA table. What is the test statistic, rejection region or p-value, and your conclusion associated with this test?

(d)  [10 marks] Experiment with  applying natural log transformations  and square root transformations to one or both of the predictor and the response variable.  Select a best model with the help of scatter plots and sample correlation values. Write out the form of the selected model. (Hint: Perform the EDA as what you have done in (a) and show the results for ALL combinations of the variables. Original model also needs to be considered.)

(e)  [20 marks] With the selected model in part (d), construct a plot of the residuals against

the fitted values, a normal Q-Q plot of the residuals, a bar plot of the leverages for each observation and a bar plot of Cook’s distances for each observation.  Use these plots to comment on the model assumptions and on any unusual data points.

(f)  [10 marks] With the selected model in part (d), obtain a 95% confidence interval for

the slope parameter.  Without performing a formal test, justify whether the slope is statistically different from 0.5.

(g)  [5 marks] With the selected model in part (b), what is the estimated error variance?

What is the coefficient of determination value and how to interpret this value?

(h)  [15 marks] Fit a linear model with log(X) and log(Y), where compressive .strength

is Y and cement is X . Express this estimated model in terms of original untransformed variables (both X and Y). Based on the mathematical expression, what happens to  when the value of X is multiplied by a factor of k? Generate a plot of X and Y on the original scale, along with the tted model on the original scale.

(i)  [10 marks] If there is a mixture of high-performance concrete with 270 kilograms per cubic meter of cement, what is the predicted compressive strength based on model fitted in  (d)?   Provide an appropriate 99% interval for the prediction.   Please also provide the point estimate and an appropriate 98% interval for the prediction based on model tted in (i).