STATS 101/101G/108 Introduction to Statistics Assignment 1, Second Semester 2022


Assignment 1, Second Semester 2022

Read these instructions carefully

   Assignment 1 is worth 5% of your final mark.

•   It will be marked out of 35 marks, 31 marks for the questions and 4 marks for communication and presentation. See below for how communication and presentation marks are allocated. Your final mark will be converted to a mark out of 10 which will be recorded towards your course work.

•   An important part of statistics is figuring out what data is saying and communicating this to others. For this reason you will be expected to write answers which clearly communicate your thoughts.

• Communication and Presentation marks

1   Demonstrate clear sentence structure: this includes correct use of full stops and capital letters; not writing excessively long or complicated sentences; attention to spelling and grammar.

1   Demonstrate ability to communicate information clearly in sentences: this includes sentences conveying the correct idea; sentences making sense; comments not being excessively long or short; conclusions following logically from previous statements.

1   Assignment set out well and easy to follow: this includes the answers being clearly set out in the correct order; answers not being messy; graphs and plots are tidy with correct labelling of axes.

1   Name  and  Username  (UPI)  on  the  first  page  of assignment  and  only  a  single  pdf file submitted.

•   Refer to the Worked Examples on the Canvas assignment page for examples of how to set out your answers.

Handing in

•   Assignments must be submitted online via Canvas PRIOR to the deadline. (Go to Assignment 1 and click Start Assignment. Upload your file and then click on Submit Assignment) You will need to submit your assignment as a single PDF (.pdf) file. Assignments more than 30 minutes late are not accepted unless there is a good reason for an extension being granted (usually medical, requiring a medical certificate). Canvas automatically closes submissions after the 30-minute grace period so you will be unable to submit after that.

•   You can prepare your assignment in a word processor. You can paste computer output into it as required. If needed, you can include photos of hand-written sections (such as formulae or pictures). You MUST print or scan the final document to a pdf file.

•   Handwritten assignments will need to be scanned to a single pdf. We suggest using the Camscanner App for mobile phones. This will produce a PDF file that can be submitted for marking.

•   Prepare your assignments well in advance of the deadline in case of technical issues, as no extensions will be provided in this case.

   Just submit your answers. Do not also include the questions. You do not need a coversheet.

   Name your file: Username_A1.  e.g. jbon007_A1.pdf.    Check you submit the correct file!

•   By submitting this assignment, you confirm that you understand the University’s policies on cheating, plagiarism and group work; that your submission is entirely your own work and you have not allowed access to any part of the assignment to any other person.

Question guide

•   Attempt Questions 1, 2 & 3 when Chapter 1 has been covered.

   Attempt Question 4 when Chapter 2 has been covered.

   Questions 1 & 2 require the use of iNZight software.


The following information is used for Questions 1 and 2:

There are many recipe websites with vast amounts of recipes on the internet. One website, taste.com.au has over 50,000 recipes on it. More than 300 recipes for savoury meals were randomly selected and various information was recorded on them. Data for the recipes was recorded in the file RecipeData.csv which can be downloaded from Canvas. It includes the following variables:





Energy      SaturatedFat TotalFat

the estimated number of minutes it takes to prepare the meal. the estimated number of minutes it takes to cook the meal.    the estimated number of minutes it takes to make the meal     (= PrepTime + CookTime).

the amount of energy contained in the final meal (in kJ).

the amount of saturated fat in the meal (in grams).

the total amount of fat (including saturated fat) in the meal (in grams).

NumberIngredients the number of unique ingredients in the meal grouped as either: <8 (for less than 8), 8or9, 10or11, 12or13 or 14+.



the number of comments left by people viewing the recipe, coded as either None (for 0), Some (for 1-9) or Many (for 10 or more).

the difficulty rating of the recipe, classed as either Easy or Hard.

Potato, Pumpkin, Rice, Bacon, Onion, Cheese,

Chicken, Carrot, Garlic, Oil, Butter

a  series  of variables that  state whether  or not the recipe  includes the variable named as an ingredient with levels Yes or No. (Eg if Rice has value Yes then the recipe contains rice.)

Question 1. [9 marks] [Chapter 1]

Load the recipe dataset, RecipeData.csv, into iNZight Lite or iNZight.

For each of the following, use iNZight to create an appropriate plot and briefly comment on

what the plot reveals. Hand in your plots with the comments.

(a)     First explore TotalFat alone.                                                                                            [2 marks]

(b)    Explore the relationship between TotalFat and any one of the categorical variables.

[2 marks]

(c)     Explore the relationship between TotalFat and any one other numeric variable.       [2 marks]

(d)    Explore the relationship between all three variables used in the above plots. (I.e., the two numeric variables and the one categorical variable that you have already used.)            [3 marks]

Question 2. [5 marks] [Chapter 1]

Load the recipe dataset, RecipeData .csv, into iNZight and produce relevant summary statistics to answer the questions below.

Notes:       - When you are using two categorical variables, the order you put variables into

iNZight does affect the frequency table in the summary so consider this carefully.

- Use the Worked Examples for guidance on rounding in your answers.

of these recipes contained garlic?

of the onion recipes were classed as hard level of difficulty?

(c)     Which of the number of ingredients groups had the highest proportion of recipes that had no comments left and what was that proportion?                                                                     [2 Marks]

(d)    What proportion of these recipes used both garlic and oil as ingredients?                         [1 Mark]

Question 3. [5 marks] [Chapter 1]

A medical researcher is interested in how accurate an exercise tolerance test is in predicting coronary artery disease. 1465 males with suspected coronary artery disease were studied. They were first given an exercise tolerance test, then further tests to reliably establish whether or not they had coronary artery disease. 1023 of the males were identified as having coronary artery disease,  of which  815  had positive results  from  the  exercise  tolerance test.  Of the males classified as not having coronary artery disease,  115 had a positive result from the exercise tolerance test.

Use this information to answer the following:

(a)    Construct a two-way table of counts displaying this information. Complete the table.    [2 marks] (b)    What proportion of these males who tested positive on the exercise tolerance test actually had


(c)    What proportion of these males who tested negative on the exercise tolerance test actually had coronary artery disease?

[1 mark]

(d)    How do you think the answer to (b) would change if the test was applied to any randomly selected male? Briefly justify your answer.                                                                            [1 mark]

Question 4. [12 marks] [Chapter 2]

Consider the following studies:

Study 1: A study was conducted to investigate the effectiveness of taking Zyban when trying to quit smoking. 429 smokers volunteered to take part in the study. Due to concerns that living with another smoker may alter the effectiveness of the treatment, the volunteers were initially split into two groups depending on whether or not they lived with another smoker. Each of the two groups was then randomly split in half, with one half allocated to take Zyban and the other half allocated to take a placebo. The percentage of people in each group that managed to successfully stop smoking after a year was recorded.

Study 2: A study was conducted to investigate the effects of playing video games on visual skills. 16 young men took a series of tests that measure their visual skills. They were then asked whether or not they had played video games in the last 6 months. It was found that the men who had played games within the previous 6 months performed better on the tests than those who hadn’t played.

(a)     Answer the following questions FOR EACH study:

(i)      Identify the groups that are being compared. (I.e., what treatments or factors of interest are being compared?) DO NOT also say what is being measured to make the comparison

 you do this in (ii).

(ii)    What is being measured to compare these groups? ONLY describe the variable being

measured. DO NOT also mention the groups being compared you do this in (i).

(iii)   Would you describe the study as an experiment or an observational study? Referring to

the study design, justify your answer. (I.e., what part of the study design led you to this conclusion?)

[6 marks total: 3 marks for each study]

(b)    Which of the studies, if either, used blocking? For either study in which blocking was used,

describe what was blocked.

(c)     Which of the studies, if any, used a control group? For any studies with a control group, briefly describe what the control group was.                                                                                      [2 marks]

(d)    After  study  2 was  completed  a  school  newspaper runs the headline  Video  games  cause improved visual skills in young adults” . Give two reasons why this headline is not appropriate.

[2 marks]