Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STAT 17 Fall 2023, Midterm Exam

Friday, 2023 November 3rd, 10:40 - 11:40 AM, Classroom Unit 1

Learning Objectives:

This list can be read as:  ”in order to solve this exam, the student should be able to..”.  Make  sure to  complete your formula  sheet  with  the  recommended formulas  in  each  objective.   Please  remember  to  NOT  include concepts, word definitions or explanations, nor solved problems.

.  Produce appropriate graphical and numerical descriptive statistics for different types of data. Specific objectives include:

 Identify and remember the concept of statistics as a field, with examples of applications, and uses.

 Identify different parts of data sets: labels, cases, values, variables.

 Identify different types of data:  Quantitative (discrete and continuous) and Categorical (binary, ordinal and nominal).

 Identify different types of graphs:  stemplot, boxplot, histogram, bar graphs, pareto charts, scat- terplot, time series plots.  Understand how they are constructed, in order to properly interpret them.

–  Calculate sample statistics:  sample mean,  sample variance, sample standard deviation, mode, median, percentiles (1 and 3), IQR, correlation, least squares regression.  Understand how they are calculated, being able to calculate them using a simple calculator, and correctly interpret them. Formulas should be included in formula sheet.

–  Recognize the different sources of data  (anecdotal,  available,  census, samples, survey samples, experiments, etc.).  Students should be able to identify the source of data, the components of a sample survey or experiment, and questions related to ethical practices when giving a case study that describes a real application.

.  Apply probability rules and concepts relating to discrete and continuous random variables to answer questions within a business and economics context. Specific objectives include:

–  Understand the concepts of randomness and probability models, and its uses in applied problems.

  Know and apply the general probability rules (axioms) to simple problems related to calculating the probability of an event.

  Know the definition of random variables (r.v), how to define them in an applied problem, and identify when this r.v. is discrete and when is continuous.

–  Recognize the most common discrete distributions: binomial and Poisson, as well as its assump- tions, parameters, E(X), Var(X), support, and shape.  Formulas (pmf, cdf) should be included in formula sheet.

  Recognize the most common continuous distributions:  uniform, Normal, Standard Normal, as well as its assumptions, parameters, E(X), Var(X), support, and shape.  Formulas (pdf, cdf) should be included in formula sheet.

–  Calculate the means and variances of discrete random variables (E(X) and Var(X)), and apply its rules to problems concerning linear combinations of discrete r.v.s.  Formulas should be included in formula sheet.

  Distinguish between the different distributions and know how to use them to model a random phenomenon in order to calculate probabilities or percentiles.

  Know about the related distributions to the Normal: F, t student, Chi Square, only to calculate probabilities or percentiles.

  Know the definitions,  and understand how to use joint and conditional distributions to solve problems related to calculating probabilities for two discrete random variables, and to identify and use the concept of independence.  Formulas should be included in formula sheet.

–  Calculate the conditional mean of discrete random variables  (E(X|Y)), and apply its rules to problems concerning linear combinations of discrete r.v.s.  Formulas should be included in formula sheet.

1.  (12 points)  Part I. Multiple Choice

In this section,  6 questions  are going  to  be  included.  The following questions  are from last year’s  exams (Spring  and  Winter) for  your  reference.   Questions  will  change for  this  year’s  exam.   Each  question  is worth 2 points.  No partial  credit is possible  in this  case.  Please  mark  with an X on top  of the  letter you choose.

The U.S. Census Bureau collects a large amount of information concerning higher education.  For ex- ample, the Census Bureau provides a table for each year that includes the following variables:  state, number of students from the state who attend college, average tuition per state in dollars, and number of students who attend college in their home state.

1. What are the cases for this set of data?  [2 pts]

(a)  States                                                              (c)  Students

(b)  Colleges                                                          (d) ID

2. Which one of the variables is quantitative continuous?  [2 pts]

(a)  State

(b)  Number of students from the state who attend college.

(c)  College

(d)  Average tuition in dollars

3.  Now, suppose you want to describe the distribution of the number of students who attend college, to have an idea of the center, spread, and shape of the distribution.  Which one of the following is the best plot to do so?  [2 pts]

(a)  Pareto Chart                                                  (c)  Bar Graph

(b)  Histogram                                                    (d)  Pie Chart

4.  The variable Xi  represents the number of students from state i who attend college in their home state. If you want to calculate the national average of the number of students per state who attend college in their home state, and you use N as the total number of states, you want to use the following formula:  [2 pts]

(a)  Ni /Xi

(b) Xi /Ni

(c) Xi /N

(d) Ni /Xi

Let’s think of a new problem. We have data on the 2016 GDP (Gross Domestic Product) in billions of dollars for 197 countries. The statistical summary is the following:

n

Sample Mean

St Dev

Min

Q1

Median

Q3

Max

196

382.9

1636

0.2000

6.450

27.35

192.4

18620

5.  The shape of the distribution of 2016 GDP is:  [2 pts]

(a)  Right skewed

(b)  Left skewed

(c)  Symmetric

(d) I dont have enough information

6.  The IQR of the GDP data is:  [2 pts]

(a)  192.4

(b)  6.450

(c)  27.35

(d)  185.95

7. You were hired to study the performance of The Golden State Warriors (basketball team) during the last season.  Among all of the variables you collect, there’s one called 3PM that records the number of Point Field Goals Made per game. What type of variable is that?  [2 pts]

(a)  Qualitative - binary

(b)  Quantitative - continuous

(c)  Quantitative - discrete

(d)  Qualitative - categorical

8.  The city of Santa Cruz monitors pedestrian traffic at the crosswalks at the base of campus all week. They count how many people cross High Street daily (15, 23, 62, 54, 38, 34, 77). Would the histogram that represents the data be symmetrical? Why?  [2 pts]

(a)  No, because the median is to the left of the mean.

(b) Yes, because the median is the same as the mean.

(c)  No, because the median is to the right of the mean.

(d) Yes, because the median is to the right of the mean.

9.  The expression Yi  is the mathematical notation representing [2 pts]

(a) the sum of values for the variable Y

(b) the mean of the variable Y

(c) the median of the variable Y

(d) the total error of the empty model fitted to the variable Y

For the next two problems, assume a joint probability mass function for X and Y is defined as follows:

 

X = 0

X = 1

Y = 0 Y = 1

1/4

1/8

1/2

1/8

10. What is the joint probability of P(X = 0, Y = 1)?  [2 pts]

(a)  1/4

(b)  1/2

(c)  1/8

(d)  1

11. What is the conditional probability of P(X = 0|Y = 1)?  [2 pts]

(a)  1/4

(b)  1/2

(c)  1/8

(d)  1

2.  (15 points)  Part II. Short Answers.   Make sure to include a justification for every answer in this part. Answers limited to yes/no will be graded as only one point.

In this section, 2 questions  (each with 3 parts)  are going to be included.  The following  questions are from last  year’s  (Spring  and   Winter)  exam for  your  reference.   Questions  will  change  for  this  year’s  exam. There’s plenty of room for partial  credit in this case,  but in order to have full credit, you need to  be very clear on which steps you are taking to solve the  question.  Answers  limited  to  a single  number or yes/no will be graded as partially correct,  even  if they are  correct.

Question 1 (7 pts)

A researcher is studying the effect of price promotions on consumers’ expectations.  She makes up a history of the store price of a hypothetical brand of laundry detergent for the past year.  Students in a marketing course view the price history on a computer.  Some students are randomly assigned to see a steady price, while others see regular promotions that temporarily cut the price. Then the students are asked what price they would expect to pay for the detergent.

(a) Is this study an experiment? Explain your answer.  [1pt]

(b)  Clearly identify the treatment (and its levels) and the response variable [3pts]

(c)  Now, suppose that you plot the age of the students and the price that they would expect to pay for the detergent, and find a positive correlation.  Sketch a scatterplot that illustrates a strong positive linear relationship.  Clearly label the axis of your sketch, and give a one line explanation on what that strong positive linear correlation means in the context of this study.  [3pts]

Question 2 (8 pts)

Suppose the average number of emails received by a particular employee at your company is four emails per hour. Suppose the count of emails received can be adequately modeled as a Poisson random variable. Compute the following probabilities.

(c) What is the probability of this employee receiving exactly two emails in any given hour?  [2pts]  (a) What is the probability of this employee receiving exactly seven emails in any given hour [2pts] (c) What is the probability of receiving at least one email in any given hour?  [4pts]

Question 3 (7 pts)

In a study designed to evaluate the benefits of taking echinacea when you have a cold, 719 patients were randomly divided into four groups.  The groups were  (1) no pills,  (2) pills that had no echinacea,  (3) pills that had echinacea but the subjects did not know whether the pills contained echinacea, and (4) pills that had echinacea and the bottle containing the pills stated that the contents included echinacea. The outcome was a measure of the severity of the cold.

(a) Identify the type of data (observational, experimental, anecdotal, available) collected in this study. Give clear reasons for your answer [2pts]

(b) Identify the treatments and response variable for this example.  [2pts]

(c)  Explain what type of variable is the response variable (quantitive or categorical, and which subtype), and give an example of possible values observed.  [3pts]

Question 4 (8 pts)

Many U.S. cities encourage a shift of commuters toward the use of public transportation for commuting. In New York City, 57% of commuters use public transportation.

(a) Identify the random variable, and the named distribution that best describes it.  Explain why using its four assumptions.  [3pts]

(a) If you choose 10 NYC commuters at random, what is the probability that exactly two commuters use public transportation for their daily commute?  [2pts]

(b) If you choose 10 NYC commuters at random, what is the probability that exactly more than one commuters use public transportation for their daily commute?  [3pts]