Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Assessed coursework 1

ST231 Linear Statistical Modelling with R

Deadline:  12 February 2024, 1 pm

Please read these instructions carefully!

This assignment counts for 20% of your final module mark. The maximum score for this coursework is 50 marks.

You are expected to produce your report in R Markdown and then convert it into a pdf file. Handwritten answers will not be awarded marks. Use a font size of 11pt or larger. Question sub-sections must be clearly labelled for ease of marking.

If you do not submit your solutions in a typed format, then this will not be accepted as a submission. You should convert your solutions into one PDF file to be submitted on the ST231 moodle page.

Please read Chapter 5 in the course guide which gives details around the procedures regarding coursework including applying for extensions and lateness penalties. Please ensure that you submit in good time before the deadline. Penalties will apply if work is submitted more than 1 minute after the deadline unless an extension is granted. Loss of work in progress is not deemed a mitigating circumstance. The penalty for late submission is a zero grade.

If you have any queries about the coursework, please post them on the ST231 forum, but do not post any part of your solutions. You can also submit questions to the anonymous question form on moodle.

Please  be  aware  that  your  work  will  be  submitted  to  TurnItIn,  a  piece  of plagiarism-detection software. Cases of suspected collusion or plagiarism will be followed up as outlined in Section 5.3 of the course guide. Note that detailed discussions of the assign- ment or comparisons of numerical/graphical results or computer code are not permitted. Furthermore the use of AI such as ChatGBT or other generative artificial intelligence tools are not permitted.

Make sure to read the questions carefully. Answer questions in full sentences. If asked to produce a plot, make sure that it is of good standard and included in your report. Include R code only if requested to do so.

Good luck with the assignment!

Instructions

Download the file dia. csv from moodle. The dataset consists of information on 500 round diamonds. The variables are:

• weight: the weight of the diamond in carat;

• width: the width of the diamond in mm.

Question 1 - Exploratory analysis [12 marks]

Using appropriate numerical and graphical summaries, describe the distribution of the variables in the dataset.  For each of the variables, your answer should be around 4-6 sentences and include one graphical illustration.

Question 2 - Predicting the weight of a diamond [38 marks]

A jeweller broke their scales used to measure the weight of diamonds.  They are still able to measure the width of the diamonds and have asked you to develop a normal linear model that predicts the weight of a diamond from its width.

(a)  [12 marks] Fit a simple linear regression model of weight on width (Model A). Illustrate the fitted model on a scatterplot of weight against width. Also present the residual plot of Model A. (In this assignment we use the term “residual plot” as short for the plot of residuals against fitted values.)

•  Describe all key features of the plots.

•  Decide which of the features need addressing and which do not. Explain why. Be as specific as you can.

(b)  [6 marks] Carefully consider the application context and your residual analysis in (a) to  suggest an improved model (Model B). Clearly define your proposed model and explain  why you chose this particular model. This should include a motivation based on the application context and statistical justifications derived from your residual analysis. (Hint: consider how, in the physical context, the weight of a round diamond relates to  its width.)

(c)  [3 marks] Implement Model B. Present and critically evaluate its residual plot.

(d)  [6 marks] Develop another model (Model C) for which both linearity and homoscedas- ticity are reasonable assumptions. Model C must not be a reparameterisation of Model B. Clearly define the proposed model and explain how you developed it. Present and discuss the residual plot of Model C.

(e)  [5 marks] Decide which of the models (Model A, B or C) is preferable and explain why.

(f)  [3 marks] Give a quantitative interpretation of the slope coefficient(s) for Model B.

(g)  [3 marks] In a scatterplot of weight against width, give a graphical illustration of the predictions made by Model B.