Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STA238 – FINAL PROJECT

 

GOAL

The purpose of this project is to provide you with an opportunity to perform basic data analysis, from  beginning to end, using tools and concepts covered in our course. This includes everything from:          formulating a study question, reading in and cleaning data, performing exploratory data analysis and   representing them using select numerical and graphical summaries, performing inferential statistics,    and communicating your findings using both technical and non-technical language. Thegrading rubric  for the proposal is the same whether you choose to work individually or with a partner.

 

INDIVIDUAL WORK

For this final project, you are permitted to work with ONE partner in the class if you choose to do so.

Those working in pairs will have to perform one additional analysis as part of their final project

component. If you prefer to work in pairs, scroll to the section titled Pair Work’.

In your individual and independent final project, you will need to perform appropriate exploratory data analysis to your data set, along with at least two of the following statistical methods,                 appropriately chosen for your research question:

•    Statistical inference using confidence intervals (single mean/variance or two population means) OR bootstrapped confidence intervals

•    Statistical inference using hypothesis testing (single mean or two population means) OR simulated hypothesis tests

•    Estimator analysis through simulation methods (such as simulating new data or bootstrapping)

•    Goodness of fit test

•    Simple Linear Regression, including diagnostics and inference on parameters (i.e. Confidence intervals and/or hypothesis testing of beta parameters are part of SLR)

PAIR WORK

These instructions apply to students who plan to work with another classmate in the course. If you       choose to work with a partner, it will be you and your partners’ responsibility to establish how work is fairly shared, and to manage yourselves in establishing work expectations, meeting deadlines, and        having a mutual agreement on calibre/quality of work you expect of each other. To facilitate this,         students working in a partnership will be expected to complete a pair work contract, agreed upon by   both parties beforehand. The pair work contract MUST be submitted between March 15-18 for the    group to be created on Quercus.

In your final project working as a pair, you will need to submit as part of your final project two sets of data analyses:

1. Answer one research question using simple linear regression analysis (complete with inference on parameters), complete with diagnostics

AND

2. Perform appropriate exploratory data analysis to your data set, along with at least two of the following statistical methods, appropriately chosen for your second research question:

•    Statistical inference using confidence intervals (single mean/variance or two population means) OR bootstrapped confidence intervals

•    Statistical inference using hypothesis testing (single mean or two population means) OR simulated hypothesis tests

•    Estimator analysis through simulation methods (such as simulating new data or bootstrapping)

•    Goodness of fit test

 

PROPOSAL  INSTRUCTIO NS

Your proposal should only include an outline and plan for your project, which will be submitted for TA review and feedback. You are not expected to do any analysis for your project other than the initial  EDA until after the feedback has been returned to you.

To write your project proposal, you will need to do the following tasks:

1.   If you are working with a partner, complete yourpair work contracttogether, agreed to and      signed by both students before proceeding. This contract must besubmitted on MS Forms         between March 15 and March 18 in order to be able to work with a partner. If you are working alone, start at step 2.

2.   Find a data set that might have sufficient potential to be studied on Open Data Toronto (https://open.toronto.ca/) or using one of the open data sets in R


(some R packages include additional data sets that you can explore:https://cran.r-                          project.org/web/packages/available_packages_by_name.html). Here are some additional data    sources you can use as long as they are classified as “open datasets”:

a.   Gapminder which has open global data:https://www.gapminder.org/data/

b.   Kaggle which has some freely available data sets:https://www.kaggle.com/datasets  (make sure to check “Open Database” in the filters)

You may not use any data set that has already been studied in our course! Keep your options   open and have a few data sets selected and pick the best choice among them.  For the purposes of data analysis, it is recommended you limit yourself to .csv formatted data (scroll to                    “Formats” and filter by “.csv” files). Keep in mind what kind of analysis can be done on the data  sets you are considering. Once you have a viable data set, begin thinking about what research     question can be investigated with your chosen data.

3.   In 2-3 sentences, provide a description and context of your data set. This is an overview of what data was collected, the variables included (including units of measurement). If there’s a time       frame, include that information, such as frequency of data collection, or date range of your         data. Include a citation and link to your data source (APA/MLA/Chicago styles only).

4.   State your research question clearly. Your research question should be specific to your data set and context.

e.g. “Has rainfall gotten worse?” Is not a clear research question. Include relevant contextual     details, such as “Has the trend in the amount of rainfall that occurs over the summer in Toronto changed over the past 10 years?”

5.   In 3-4 sentences, describe which variables from your data set you plan to use in your analyses to help answer your research question, with a brief justification for your choice.

6.   Perform some exploratory data analyses on your data in R to get a sense of whether

a.   You have a large enough data set to work with

b.   Your data has enough interesting and relevant attributes that you can apply to your research question

c.   Your data seems to be feasible to work with

You should only include in your proposal a selection of graphical displays and/or summary statistics that are relevant to your research question.

7.   Describe any data cleaning/refining you think you will need to do on your data set before any analysis can be conducted.

8.   A brief description of which analyses or methodologies you intend to apply to your data. This

portion should include some exploratory data analyses to justify your selection of                         methodologies (e.g. “I am using a side-by-side boxplot over a histogram because I want to          see/verify _____.” Or I plan to use confidence intervals because I want to study ____ about the data.”).


FORMATTI NG PROPOSAL

Your proposal should be written using full sentences and include proper grammar and spelling, using course-level terminology as appropriate. At the same time, your project plans and ideas should be     communicated clearly.

To write your proposal, it is recommended that you organize your tasks into sections, for example:

SECTION 1: STUDY QUESTION

SECTION 2: DESCRIPTION OF DATA (2 -3 SENTENCES) INCLUDING LINK AND CITATION OF YOUR DATA

SECTION 3: DESCRIPTION OT RELEVANT VARIABLES TO BE STUDIED (3 -4 SENTENCES)

SECTION 4: DESCRIPTION OF METHODS THAT YOU WILL USE (2 -3 SENTENCES PER METHODOLOGY)

ANTICIPATED DATA CLEANING/REFINING

INITIAL EXPLORATORY DATA ANALYSIS

LINEAR REGRESSION ANALYSIS (ONLY IF YOU ARE WORKING WITH A PARTNER)

METHODOLOGY 1

METHOLODOGY 2

The written portion of your proposal should be approximately 500 words long, no more than 1 page in length (Times New Roman/Arial/Calibri, size 12 font), and maximum two pages when including your     initial exploratory data analysis.

 

SUBMISSION

Submission link on Quercus will be available starting March 15, 2022. Your submission must include:

▪    Written proposal with EDA (Times New Roman/Arial/Calibri, size 12 font, 500 words, ≤ 2 pages)

▪    R markdown file for the EDA conducted

▪    Data file you used in R markdown in your EDA

If working with a partner, you should not submit your proposal until after your group has been formed on Quercus, which will be available no later than March 20, 2022 (this is based on when your group      submits their pair work contract).