ETM5900 Business Statistics S2 2023 Assignment 3


Business Statistics [S2 2023]

Assignment 3 [Major Assignment]


1. This is an individual assignment worth 60 marks. It forms 50% of your final mark for this unit.

2. Assignment presentation format:

· Use default format, paragraph, and margin settings.

· Font size: 12.[Times New Roman]

· At least 1.15 spacing between lines.

3. Students must always uphold Academic Integrity.

4. Submissions of the assignment is to be done via Moodle only [Any answers submitted via email will not be marked]. Please submit answers only in pdf file document and your excel working file.

5. Answer all 5 questions.

6. The assignment must represent your own work and not extracts from your colleagues. Do

not introduce irrelevant information.

7. Ensure the assignment is completed by the date and time specified with a cover page.

Question 1 [Total8 Marks]

A welfare organisation is interested in alleviating the social problems encountered by the disadvantaged sector of a local community. One aspect that the organisation wishes to study is to analyse the composition of the disadvantaged sector that requires financial aid. The data collected are available in the ETM5900  Major  2023 worksheet Data. Data was collected from the population of all 945 individuals who sought financial counselling from the welfare organisation during the course of a year. The data include age, sex, and household type, and we focus on these demographic characteristics in this assignment. The welfare agency will use the demographic data it collects to help it to estimate future costs to fund the service as well as the level of resources and personnel it requires to service its clients.

You must use your subsample of the ETM5900  Major  2023.xls. data. Your sample should consist of 200 observations starting from the patient whose ID is the same as the last three digits of your student number. For example, if your student number is 20275749, you would use individuals 49 to 248.

Age Distribution of the population

i)       Show the frequency percentages to one decimal place for gender in a Table.    [1  mark]

ii)     Create an appropriate graph showing the percentages of males and females for part (i)   with proper labels. Report briefly on the gender composition of the group who sought   financial  counselling.                     [3 marks]

iii)    Compute summary statistics in a Table for the age of males and females. Give statistics as either whole numbers or to two decimal places as appropriate.[Hint: You are required to show count, minimum, maximum, mean, median, mode, standard deviation, range, coefficient of variation, lower quartile, upper quartile and IQR]          [1 mark]

iv)     Use the summary statistics from part (iii) to compare the locations of the two

distributions. What do the measures of central location indicate about the symmetry or otherwise of the distributions?        [3 marks]

Question 2 [Total 10 Marks]

Write a brief report on the affordability of staying in a condominium in Penang. It is common  for a household to spend about one-third of its income on accommodation. Household Income  and Basic Amenities Survey Report 2019 by the Department ofStatistics reported that Penang  residents' mean and median income is RM7774.00 and RM6169.00. You are required to do the  necessary inferencing to justify that condominium rental paid by the tenants a high based on  variables  collected  by  the  real  estate  agent.  You  are  required  to  write  about  180  to  200 words.

You  must  use  your  subsample  of the  Penang  Rental  Data.xls.  data.  Your  sample  should consist of 200 observations  starting from the patient whose ID is the  same as the last three digits of your student number. For example, if your student number is 20275749, you would use individuals 49 to 248.                             [10 marks]

*Source: Household Income and Basic Amenities Survey Report 2019, Department of Statistics Malaysia


Question 3 [Total 14 Marks]

On April 14th, 1912, only 705 passengers and crew out of the 2228 on board the Titanic  survived when the ship sank. Information on 1046 of them who boarded the ill-fated ship

will be used to investigate factors of survival.

The key variables of interest are:

Survived = whether a passenger survived or not (survival is indicated by survived = 1).

Possible explanatory variables:

Age = Age measured in years

Gender(recode so that sex =1 for females and 0 for males),

Class =(pclass =1,2 or 3), need to create a reference class, say the third class

pclass =1, class 1 passengers; pclass=2,class 2 passengers; pclass=3,class 3 passengers parch = Number of accompanying parents/ children

sibsp = Number of accompanying siblings/ spouses (sibsp)

A snapshot of the EXCEL File looks like this.

You must use your subsample of the titanic.xls. data. Your sample should consist of 300 observations starting from the patient whose ID is the same as the last three digits of your student number. For example, if your student number is 20275749, you would use individuals

49 to 348.

a)      Create a simple cross-tabulation of the survival rates of each type of passenger. Identify the  dependent  and  independent  variables,  explain  the  conditional  percentages  and determine if survival rates depend on gender.                                                  [3 marks]

b)      Create a simple cross-tabulation of the survival rates and passenger class. Identify the dependent and independent variables, explain the conditional percentages and determine if survival rates depend on passenger class.            [3 marks]

c)      Examine whether there is a relationship between survival rates and gender. Perform an appropriate test at 5 % level of significance.                  [4 marks]

d)      Examine  whether  there  is  a  relationship  between  Survival  rates  and  passenger  class. Perform an appropriate test at 1 % level of significance.                                    [4 marks]

Question 4 [Total 14 marks]

The file carat.sav contains data on the prices and weights (measured in carats) of diamonds

as appeared in a newspaper advertisement in Singapore.

You must use your subsample of the carat.sav.xls. data. Your sample should consist of 300 observations  starting  from the patient whose ID is the  same as the last three digits of your student number. For example, if your student number is 20275749, you would use individuals

49 to 348.

a)      Obtain a scatter plot of Price against Carat and comment on the plot.     [2 marks]

b)      Estimate a simple linear regression model relating Price and Carat.         [1 mark]

c)      Obtain a 95% confidence interval for the slope and interpret its meaning.      [2  marks]

d)      Carry out a test to check if there is a significant relationship between Price and Carat. [4 marks]

e)      What is the value of the coefficient of determination? Interpret its meaning.  [2 marks]

f)      What will be the price diamond would the model predict for a weight of:

(i)0.93                                                       (ii)1.5                                   [1 mark]

g)     In each case can the prediction be regarded as reliable? Give reasons why or why not. [2 marks]

Question 5 [Total 14 Marks]

The file Time series S22023.xls data shows the retail sales of rubber gloves in a pharmacy.

(a)    Plot the time series on a suitably labelled chart. Discuss the behaviour of the series and

hence what components appear to be present.        [2 marks]

(b)    Calculate the 12-month centred moving average and add a plot of these values to graph

Briefly explain what the moving average values tell us about the components of the series.                          [3 marks]

(c)       According to the graph you have obtained:

(i)       Does it appear to be appropriate to use a linear trend and seasonal model to fit the given data? Explain briefly. [2 marks]

(ii)       Is this a good model to use for forecasting? Why? [2 marks]

(d)      Using Excel's regression tool, perform a linear regression analysis of sales against

time. The excel regression output (Summary Output) should be shown.     [1 mark]

(e)      Use the trendline values obtained the monthly seasonal indices (ratio).       [2 marks]

(f)    Using the trend column obtained from part (d) and the seasonal indices obtained in (e), obtain trend and seasonal model values for the January, February and March of year eleven.                       [2 marks]

[Total 60 Marks]