Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STAT 3011      Homework 1

Spring 2024

(Due: February, 04, 2024)

Chapter covered:  1,2 and 4

Show your work for full credit!

Problem 1.   A survey of 2104 households in the United States found that 65% subscribe to cable television

(a) Identify the population

(b) Identify the sample.

(c) Identify the parameter

(d) What is the statistic?

(e)  If the 2104 households were surveyed because they were easy to reach and were selected from households in Texas.   Is  this  a  good sample?   Is  this  a  convenience sample or  a volunteer sample? Explain

(f) What is a subject of this study?

Problem 2.   Identify each of the following variables as continuous, discrete, or categorical.  Ex- plain

Which graphs can be used to display each variable?

(a)  The number of tickets sold at a movie theatre on a given night.

(b)  The number of liters of milk a family drinks monthly.

(c)  The identification number on a questionnaire

(d)  The response time of an emergency unit.

Problem 3.   For each of the following variables, indicate whether you would expect its histogram to be symmetric, skewed to the right, or skewed to the left.

(a)  The distribution of quiz scores where the quiz was very easy and most students did very well.

(b)  The distribution of the lifespans of batteries in TV remote controls with most of them excessively used and very few of them rarely used.

(c)  The weight of similar physical statistics textbooks titled The Art and Science of Learning from Data, fifth edition by Alan Agresti; Christine A. Franklin; Bernhard Klingenberg Publication” .

Problem 4.   In  a  survey  conducted  by the  National  Center for Health  Statistics,  the sample mean height of women in the United States (ages 20-29) was 64 inches, with a sample standard deviation of 2.75 inches.

Hint:  Use the general rule of standard deviation  (three-standard deviation rule from the course lecture notes page 30) to justify your answer.

(a)  69.5 inches is it an unusual woman’s height?

(b)  55 inches is it an unusual woman’s height?

(c) Interpret the sample standard deviation.

Problem 5.   Researchers  wanted  to know if there is a link between proximity to high-tension wires and the rate of leukemia in children.  To conduct the study, researchers compared the incidence rate of leukemia for children who lived within 1/2 mile of high-tension wires to the incidence rate of leukemia for children who lived more than 1/2 mile of high-tension wires.

(a) Identify the explanatory variable and the response variable.

(b) What is another explanatory variable that we would expect to be associated with the response variable?   Explain  how such a variable is dealt with in this study.   Is  this a lurking variable (you need to talk about how it associates with both the explanatory and response variable)?

Note:  cite your source

(c)  Determine whether the study depicts an observational study or an experiment.  Explain your reasoning

(d)  Give an example of an experimental study.  Explain.

Problem 6.   (R problem 1)

The ”President.cvs” contains the age of each president of the United States at the time of presidential inauguration (first inauguration if elected to multiple and consecutive terms).

The data set is a .csv file posted on Canvas under the module week 2.  Download and import the file into R using the following code.  You have to insert your own pathname.  Remember to type the following code into R instead of cutting/pasting it.  You could also use any other method of your choice to import the file into R.

Pres<-read.csv(”yourpathnamegoeshere/President.csv”, header=TRUE)

attach(Pres)

head(Pres)

(a)  Construct a histogram of the age of presidents

i) Submit the plot.

ii) Describe the overall shape of the distribution

iii) State if there are any outliers.

FOR R Problems 2-3, we will use the Getting To Know You survey data from STAT 3011 Spring 2024 which consists of 25 variables. The data set is a .csv file posted on Canvas under the module week 2.   Download  and  import  the  file  into R using the following code.   You have to insert your own pathname.  Remember to type the following code into R instead of cutting/pasting it. You could also use any other method of your choice to import the file into R.

Getting2NoU<-read.csv("yourpathnamegoeshere/GettingtoKnowYou.csv",  header=TRUE) attach(Getting2NoU)

head(Getting2NoU)

Problem 7.   R problem 2

In this question, we will explore the distribution of the number of hours per day, on average, you spend on social networks.

(a) What is the type of variable we are interested in?  Explain?  What is the name corre- sponding to this variable in your dataset?  Note:  Be as much specific as possible

(b) What is the 5-number summary of the number of hours spent by students from Minnesota on Social media?  (Hint:  Use summary () command).  Find the IQR and interpret your result.

The maximum number of hours spet by students from Minnesota on Social media is it an outlier? Explain. Hint:  Any value below Q1 or above Q3 by more than 1.5IQR is an outlier

(c) What is the 5-number summary of students’ number of hours spent on Social media? (Hint: Use summary () command).

(d)  Use R to calculate the mean and standard deviation of social media hours.  Suppose that you spent 3 hours and 10 minutes. How many standard deviations is your time spent on social media away from the mean?

Problem 8.   R problem 3

Suppose this time, you want to compare the distributions of the number of hours students mostly spent on each of the social networks based on the social networking sites/mobile appli- cations they use the most.

(a)  Construct a side-by-side boxplot.  Hint:  You  can use the following code.  Update your variables names

boxplot(numerical  variable~Grouping  Variable,las=2) .

(b) What are the shapes of the distributions of the number of hours spent on social media by those using Facebook and Others?

(c) Which distribution is more spread out in terms of IQR? in terms of range?

(d)  Use the median to compare the number of hours spent on social media by these groups of students.