Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

DS 1000

Assignment 1  due September 30, 2022 at 11:55 pm

•     Questions with the computer symbol :must be answered using Python. All code must be provided.

•    Submissions must be done via Gradescope. You must carefully assign questions to their corresponding pages. Questions with no pages assigned to them will receive zero marks.

•     Each student must submit their own work. Scholastic offences are taken seriously, and students are directed to read the appropriate policy, specifically, the definition of what constitutes a Scholastic Offence, at the following Web site:

http://www.uwo.ca/univsec/pdf/academic_policies/appeals/scholastic_discipline_undergrad.pdf

Question 1 (20 pts)

The tons handled in a year of the 25 busiest ports in the United States (The 2013 World Almanac) are displayed in the histogram below.

 

a.    (5 pts) Describe the shape of the distribution.

b.   (5 pts) Approximately what percent lies below 75?

c.    (5 pts) Approximately what are the minimum and maximum of the data set?

d.   (5 pts) What is the center of the dataset? (For this question, take the center to the value with roughly half the years having lower tons handled and half the years having higher   tons handled).

Question 2 (20 pts)

An article reported on a study of strength properties of high-performance concrete obtained by using superplasticizers and certain binders. The data below shows the flexural strength (a            measure of ability to resist failure in bending) in MegaPascals.

5.9

7.2

7.3

6.3

8.1

6.8

7.0

7.6

6.8

6.5

7.0

6.3

7.9

9.0

8.2

8.7

7.8

9.7

7.4

7.7

9.7

7.8

7.7

11.6

11.3

11.8

10.7

a.    (5 pts) Make a stemplot. Be sure to label the units.

b.   (5 pts) Describe the shape, center, and variability of the distribution.

c.    (5 pts) Without using software, calculate the mean and median of these data. Show your work. Compare these two values. What do they tell you about the distribution?

d.   (5 pts) Without using any software, calculate the first and third quartiles of these data. Show all your work.

Question 3 (15 pts)

Home sale amounts were reported for a sample of homes in Almeda, CA, that were sold the previous month (1000s of $).

590      815      608      350      1285    408      540      555      679

a.    (5 pts) Calculate the mean and standard deviation.

b.   (5 pts) Calculate the median and range.

c.    (5 pts) Which measurements would you suggest using for this data set? Explain?

Question 4 : (5 pts)

A soft drink machine has 5 options to choose from: Coca-Cola, Dr. Pepper, Sprite, Diet Coke,      and Pepsi. A sample of 50 soft drink purchases is selected, and the proportion of each selection is shown below.

Soft Drink

Coca-Cola

Diet Coke

Dr. Pepper

Pepsi

Sprite

Percentage %

38

16

10

26

10

Make a pie chart to display the distribution of soft drink purchases. Choose the colours so that Coca-Cola is brown, Diet Coke is white, Dr. Pepper is red, Pepsi is blue, and sprite is green.

Question 5 : (15 pts)

Smartphones are advanced mobile phones with Internet, photo, and music and video capability. The following survey results show smartphone ownership by age.

 

Smart phone

Other Cell

Phone

No Cell

Phone

Age

18-24

49

46

5

25-34

58

35

7

35-44

44

45

11

45-54

28

58

14

55-64

22

59

19

65+

11

45

44

a.   (5 pts) The first row gives percentages of cellphone ownership for ages 18-24. Using this information, draw a bar chart.

b.   (5 pts) Draw a bar chart that illustrates the smartphone ownership for each age group. Use a bidimensional bar chart.

c.    (5 pts) Using the barcharts in part a. and b. give a simple description of the changes in cellphone ownership for the different age groups.

Question 6 : (15 pts)

(dataset LargeCorp.csv) Fortune provides a list of America’s largest corporations based on annual revenue. The data describe the 50 largest corporations with annual revenue expressed in billions of dollars.

a.    (5 pts) Make a histogram of these data.

b.   (5 pts) What is the shape of the distribution? How many of the corporations have annual revenue more than 100 billion dollars?

c.    (5 pts) From the histogram, what is the minimum and maximum annual revenue? What is the centre?

Question 7 : (10 pts)

(Cholesterol.csv) A study examining the health risks of smoking measured the cholesterol levels of people who had smoked for at least 25 years and people of similar ages who had smoked for no more than 5 years and then stopped.

Give a graphical comparison of the cholesterol distributions for the two groups using side-by- side boxplots. Provide appropriate numerical summaries for the two distributions and identify any outliers in either group. What can you say about the effects of smoking on cholesterol levels?