Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit




STA258 Data Analysis Course Project Instruction

 

 

 

Purpose of the Project:

The course project aims to develop your statistical communication skills. You will work with your peers    from your tutorial. In small groups, you will explore analyzing a provided data by choosing appropriate     statistical techniques that you learn in this course. You will use RStudio to carry out appropriate statistical analysis and will use R Markdown to produce a PDF document of your report. You will submit one report as a group in Quercus on the due date(s).

 

 

Project Steps:

There are seven steps involved in the course project.

 

➢  Step 1 is concerned with your group formation and declaration of shared responsibilities. Aligned   with the expectations ofthe project, each member of the group, will declare their shared                  responsibility, that is the task each member ofthe group will undertake for the project. All              members ofthe group must agree on the task that each member will work on to complete their part for the course project. In addition to dividing tasks equally among your group members, you may   want to consider that each member is assigned an admin duty. These roles include group manager,  assistant manager, communicator, editor, etc.

 

➢  Step 2 is concerned with conducting exploratory data analysis. You will write a report based on the statistical results that you obtained and will focus on effective communications of the results.          Imagine that you are writing a report that other students in the class will want to read; this is the      audience you are aiming for. Include your code somewhere in your report; this can be next to your  output, or you can move it to an appendix of your report if you think that makes it read more           smoothly. Use R Markdown to produce a PDF document ofyour report. Instructions will be            provided in class on how to use R Markdown.

 

➢  Step 3 is concerned with assessing your self and your peers in your assigned group regarding the   work that you and your peers have invested in completing project’s steps 1 and 2. A rubric will be provided on how to consider your assessments.

 

➢  Step 4 is concerned with conducting statistical inferences. You will use statistical inference

methods that you learn in this course (e.g., hypothesis testing, confidence interval), and as far as the data permit, answer the statistical questions, using appropriate graphs and checking of assumptions  to support your analysis. Once again, you will focus on the effective communication ofyour             statistical analysis and will write a report. Use R Markdown to produce a PDF document of your

report.


 

➢  Step 5 is, once again, concerned with assessing your self and your peers in your assigned group regarding the work that you and your peers have invested in completing step 4 ofthe course      project.

 

➢  Step 6 is concerned with a 10-minute voice-over video-presentation (e.g., PowerPoint, Prezi,            Infographic, Padlet, mind map, concept map) ofyour data analysis. All students in each group must contribute to creating a voice-over video-presentation.

 

➢  Step 7 is concerned with your perception regarding working in small group and the extend to which you gained any valuable experience to collaborate with your peers on grappling with data. You will complete an anonymous survey in Quercus to describe your opinion regarding the course project.

 

➢  Since this is a group project, it is expected that all group members receive the same mark for steps

2 and 4. However, if it becomes evident that a group member did not stay on their assigned task as agreed by all group members throughout the course project, then that group member will not be     receiving the same grade as all other group members. Therefore, consult with the Prof. Asal if you experience any time zone conflicts that makes it difficult for you to connect with your peers. You   must inform the course instructor at the beginning of the term ifyou foresee any problem.

➢  The course project accounts for 35% ofyour course grade. Table below describes the due date and weight for each step ofthe course project.


 

Step

Description

Due Date

Weight

1

Group Formation and Declaration of Shared Responsibilities

Sept. 26th, 11:00 PM in Quercus

4%

2

Exploratory Data Analysis Report

Oct. 24th, 11:00 PM in Quercus

10%

3

Self- and Peer-assessment

Oct. 24th, 11:00 PM in Quercus

2%

4

Statistical Inference Report

Nov 21st, 11:00 PM in Quercus

10%

5

Self- and Peer-assessment

Nov 21st, 11:00 PM in Quercus

2%

6

Video Presentation

Dec 5th, 11:00 PM in Quercus

5%

7

Course Survey

Dec 5th, 11:00 PM in Quercus

2%

Total

35%

 

 

Step 1: Group Formation and Declaration of Shared Responsibilities

(Due Date: Sept. 26th, 11 PM)

 

You will virtually meet your group members during your tutorials via Zoom. Your course TA will create breakout rooms in Zoom based on your group number. You can locate your group number in Quercus.     Your course TA will guide you how to find your group number.

Once you join your group’s breakout room in Zoom, introduce your selfto your group. Think about what role each member ofthe group will undertake. Agree on a mutual method to contact each other outside     tutorial times. We recommend that you use your group page’s discussion board in Quercus to                    communicate with each other.

As a group, prepare a one-page document to declare your shared responsibilities. In that document,             indicate participating group members’ first and last names. Do not include student numbers. Acknowledge that you met with your group members, read the course project’s instruction, and are aware ofthe               upcoming tasks with their due dates.

If you encounter that a group member is not attending the tutorials, please let your TA know. It could be that the student switched their tutorial or dropped the course.

 

Context of Data

 

How many close friends do you have, (that is, people who are not your relatives, but who you feel at ease with, can talk to about what is on your mind, or call on for help)?

The population distribution ofnumber of close friends in Canada is skewed to the right with mean 6.46  and standard deviation of 9.55. These values are unknown to a researcher who samples 1000 persons 15 years of age and older in Canada to estimate mean number of close friends.

Let us suppose that population data regarding number of close friends is stored in “Friends.csv” Preliminary steps:

•   From Quercus, download (and save) the excel file named “Friends.csv”

•   Import the data file into RStudio.

•   Attach the data file.

•   In R, set a seed number using the function set.seed( ). You will get the same result when you start with that same seed each time you run the same process.


 

Step 2: Exploratory Data Analysis (Due Date: Oct. 24th, 11 PM)

1.   Draw a single sample of size n = 1000. Store your sample in single.sample (this is just an                 assignment name where you will store the results of your random sample in R). Note that the name of variable of interest in your single.sample is friends. R is case sensitive.

 

a.   Use your sampled data to obtain summary statistics for the variable number of close friends. Use the function favstats() in library(mosaic) to obtain summary statistics.

 

b.   Make a relative frequency histogram for the sampled data, number of close friends. Add a title to your plot and add appropriate labels to the axes. You can add colour to your plot.

 

c.   Make a boxplot for the sampled data, number of close friends. Add a title to your plot and add appropriate labels to the axes. You can add colour to your plot.

 

d.   Make a normal probability, or QQ, plot for the sampled data, number of close friends. Add a title to your plot.

 

e.   Your answers to parts a-d resulted in summary statistics and plots of sampled data. Describe the shape, center, and spread of the sampled data distribution.

 

2.   Draw 10,000 samples of size n = 1000 each to approximate the sampling distribution of sample mean. Define a variable sample.mean (this is just an assignment name where you will store the  results of your sampling in R) and let R know that it is a vector. Initialize the number of 10,000 repeated sampling of size 1000 each and stores the estimated means.

 

a.   Calculate the mean and standard deviation of this empirical sampling distribution and compare to the theoretical values of  and  .

b.   Make a relative frequency histogram for the sampling distribution of sample mean. Add a title to your plot and add appropriate labels to the axes. You can add colour to your plot.

 

c.   Make a boxplot for the sampling distribution of sample mean. Add a title to your plot and add appropriate labels to the axes. You can add colour to your plot.

 

d.   Make a normal probability, or QQ, plot for the sampling distribution of sample mean. Add a title to your plot.

 

e.   Your answers to parts a-d resulted in numeric values and plots of sampling distribution of sample   mean. Describe the shape, center, and spread of the sampling distribution of sample mean for 1000 persons. What does it specify?

 

 

Step 3: Self and Peer Assessment (Due Date: Oct. 24th, 11 PM)

A rubric is posted in the Course Project module in Quercus. See Assignment page for submission.


 

Step 4: Statistical Inference (Due Date: Nov 21st, 11 PM)

 

1.   In this question, you will perform a hypothesis test for a population mean number of close friends.        Discard the provided information that were described at the beginning ofthis assignment regarding the true population mean and population standard deviation for the number of close friends. Assume that    this information is unknown. However, suppose it is claimed that the population mean number of close friends is 2.

 

a.   Recall that you used R to generate a random sample of size 1000. Use the same information from your Step 2 analysis (e.g., summary statistics) to carry out a hypothesis test for whether the           population mean number of close friends differs from 2.

 

i.      Set up null and alternative hypothesis to test whether the population mean number of close

friends differ from 2.

ii.      State the test-statistic and  -value.

iii.      Make a decision about  using  = 0.05.

iv.      Make a conclusion in the context of this problem.

v.      If the decision in part iii was in error, what type of error was it? What could you do to reduce the chance of that type of error?

 

b.   Calculate a 99% confidence interval for the population mean number of close friends. Report the values of the 99% confidence interval. Interpret this interval in the context of this problem.

 

2.   In this question, you will investigate whether males and females differ in their mean number of close   friends. You need to create two sub-population distributions ofmales and females. Generate a random sample of 540 females from population of females. Generates a random sample of460 males from       population ofmales. Bind the two generated samples in R and store the generated samples that you      bound in Gender.Sample (this is the name ofyour data frame).

 

a.   Use the function favstats() in library(mosaic) to obtain summary statistics for each gender.

 

b.   Use library(ggplot) to make two histograms from grouped data. Make two frequency histograms     for the males and females sample distributions of number of close friends. Add a title to your plots.

 

c.   Use library(ggplot) to make two boxplots from grouped data. Make a side-by-side boxplots for the males and females sample distributions ofnumber of close friends. Add a title to your plots.

 

d.   Set up a multi-paneled plot in R with 1 row and 2 columns. Make two normal probability, or QQ,   plots for the males and females sample distributions of number of close friends. Add a title to your plots.

 

e.   Use R to construct a 95% confidence interval for the difference between the population means for males and for females. Interpret this interval in the context ofthe problem.

 

f.   Your answers to parts a-d resulted in summary statistics and plots of distributions of sample data  for each gender. For each gender, does it seem like the distribution ofnumber of close friends is    normal? Explain why this does not invalidate the results in part e but may affect the usefulness of the interval.


 

Step 5: Self and Peer Assessment (Due Date: Nov 21st, 11 PM)

 

A rubric is posted in the Course Project module in Quercus. See Assignment page for submission.

 

 

Step 6: Video Presentation (Due Date: Dec 5th, 11 PM)

 

Step 6 is concerned with a 10-minute voice-over video-presentation (e.g., PowerPoint, Prezi, Infographic, Padlet, mind map, concept map) ofyour data analysis. All students in each group must contribute to          creating a voice-over video-presentation.

Some tips for creating your presentation slides:

❖  Create 5 to 7 slides (including an introduction and a conclusion slide).

❖  At the beginning ofyour video presentation, one member will introduce your team members and will give an overview of what section each member will present.

❖  Tell the story of your findings using tables/graphs/images.

❖  Use key words as prompts to motivate telling the story of data (your findings).

❖  If you want to include words or sentences in your slides, limit to three sentences.

❖  Making a video presentation of your term work should feel good since you are expressing your   collective understanding of the data that you explored and are presenting the efforts you put into working on this project with your peers. Enjoy

 

 

Step 7: Course Survey (Due Date: Dec 5th, 11 PM)

Step 7 is concerned with your perception regarding working in small group and the extend to which you  gained any valuable experience to collaborate with your peers on grappling with data. You will complete an anonymous survey in Quercus to describe your opinion regarding the course project.