STA302H1F/STA1001HF: Final Project


Due on 14th August, 2022 11:59 PM Sharp on Crowd mark

The final project will be due on Aug.  14th, 2022 by 11:59PM EST. It will not be possible to extend the due date since we have to grade all the projects and submit the course grades.  Students will be required to demonstrate their understanding of the methods taught in lecture by developing a reasonable regression model using the techniques taught in class. The students will be responsible for choosing the correct methods to apply and providing appropriate justifications where necessary.

This is a formal report and therefore it must contain the following sections:

❼ Introduction section:  provides  details regarding the question you wish to address, why the model is being developed, how you intend to go about developing the model, and finally how the model meets the purpose mentioned earlier.

❼ Exploratory data analysis section: a detailed description of the variables in the data set with appropriate tables or figures that highlight certain characteristics of your variables that you deem important to mention. This should also facilitate choosing particular predictor variables, transformations on the predictor or response variable, and other logistics as it pertains to your model.

❼ Model  development section:  a detailed discussion of the process used to come to the final model. Justifications may be both statistical and empirical in nature.You should also have as well as in-depth diagnostics to illustrate the ‘goodness’ of the model.

❼ Conclusion  section:  restate why the  model is useful in the context of the data, provide an interpretation of the final model in non-technical language (i.e explain how the variables work, discuss predictions), and discuss any limitations/problems remaining with the model and how they might impact its use in the real world.

The final project will be done alone, and must be typed and submitted by the stated deadline. In marking your project, I will take into consideration the difficulty of the analysis that you attempt. A simple analysis with few errors may be graded higher than a more ambitious analysis with more errors.

The breakdown of the report will be as follows:


Break down

Introduction and data description


Exploratory analysis and Model Development


Conclusions and discussion


Quality of writing


Choose a data set from online that is appropriate for the linear regression model. This means veri- fying the nature of the relationship between your response variable and your explanatory variables. If the relationship cannot be modeled by a linear regression model, even after a transformation on the response variable, then you should choose another data set.

❼ You can use packages discussed outside of the course such as tidyverse, gridExtra, and cowplot.

Your report should be as long as is needed to be a convincing exploration of the question at hand, but not so long that it becomes excessively so. I would not exceed 7 pages of writing, not including figures and tables. However, when we (the graders and I) read your report it needs to have a logical flow. Any code should be displayed  in the Appendix section of the report; please do not display this in the body of the formal report.

While you will be using R for your analysis, should consider using R Markdown. If you use LaTex this is fine as well. At the end make sure the report is either in a .doc file or a pdf file. In order to pass the course, everyone must submit the final project.