Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit


EQC 7004 Statistical Data Analysis.

Class Test (20%) Semester 1 2021/2022


Instruction:

•    This is a one-hour test. Please complete the answer within an hour after your download the question.

•    All analysis must be done using R software.

•    Your analysis answers should include your R code and R output. (copy and paste into your answer file)


Section A (10 marks)

1.   What is the purpose of exploring data?                                       (2 marks)

2.   What are the two main categories oftechniques for exploring data?                     (1 marks)

3.   What is the Differentiate between Univariate, Bivariate, and Multivariate analysis?                (3 marks)

4.   Discuss the approach to handling missing data.                                               (3 marks)

5.   What is the most important condition to perform parametric hypothesis testing?                        (1 mark)

 

Section B (10 marks)

Attached with the question is the smoking dataset (“smoking data.xlsx” ) that contains          historical records of patients with heart conditions. Below is a brief description ofthe all the variables in the dataset:

•    AGE: Age of patients

•    HEIGHT: Height of patients

•    WEIGHT: Weight of patients

•    CHOL: Patient’s cholesterol level

•    BLOOD: Patient’s blood type- o, a, b, ab

•    MORT: Mortality status of the patients- alive, dead

•    SMOKE_STATUS: Patient’s smoking status- no, smoking

•    SMOKE_TYPE: The type of smoking for patients who smoke – no, cigarette, vape

 

Utilize R software to answer the following questions:

1.   What is the size of this data frame?                                                                (1 marks)

2.   Give the summary statistics for all the variables.                                          (2 marks)

3.   How many survived according to smoking status?                                        (2 marks)

4.   Present the variable weight in a chart of your own choice and comment on the distribution.                     (2 marks)

5.   Is there a significant difference between mortality and the blood type?                          (3 marks)