Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

COMP809  – Data Mining & Machine Learning

Semester 1, 2023

Assignment 1

Maximum Marks: 100               22 March 2023

Paper Description: Data Mining & Machine Learning

Paper Code: COMP809

Total Marks: 100

Date: 22 March 2023

Deadline: 12 April 2023

INSTRUCTIONS:

1.  This is an individual assignment.

2.  Only documents in pdf or html will be accepted. You can generate the document directly on Jupyter Notebook.

3.  Submit the pdf file via Canvas.

4. Formats  other  than  pdf will  be  ignored  and  the  author  will  be  asked  to  re-submit  the assignment.   Resubmissions will be subject to the late policy outlined in the study guide (i.e. 5% per day up to 5 days).

5.  The python code required to complete this assignment, which includes code to support your conclusions & answers, must be embedded in the document in the corresponding answer as text (not image), unless otherwise specified.  This code will be marked.  Unsolicited python scripts submitted separately will not be marked.

6.  Read  carefully  and  answer  all the  questions  as  requested.   Any  material  or  information unrelated to the correct answer may result in a significant reduction of marks for that question.

7.  Do not forget to fill in and sign the cover sheet which must be the very first page in the pdf. Use software such as Adobe Acrobat Pro on the Uni computers to include the file at the start of your document. Do not submit the cover sheet separately.

8. If you need an extension or if your performance has been impacted by some extenuating circumstances, then you must complete the special consideration form on Canvas.

9.  Only the techniques studied in this course will be accepted.

10.  The comprehension of the questions is part of the assignment.

Grade table:

Question:

1

2

3

Total

Points:

52

20

28

100

Score:

QUESTIONS:

1. Abalone is a large marine gastropod mollusk.  The large sea snail is most often found in the cold waters of New Zealand,  Australia,  South Africa,  Japan,  and the west coast of North America. It has extremely rich, flavorful, and highly prized meat that is considered a culinary delicacy. The age of abalone is determined by cutting the shell through the cone, staining it, and counting the number of rings through a microscope a boring and time-consuming task. Other measurements, which are easier to obtain, are used to predict the age.  Further information, such as weather patterns and location (hence food availability) may be required to solve the problem. The idea of this study is to predict the age of abalone from physical measurements. The economic value of abalone is positively correlated with its age.  Therefore, to detect the age of abalone accurately is important for both farmers and customers to determine its price. Determining the actual age of an abalone is a bit like estimating the age of a tree. Information about the attributes in the data set are given in Table 1. The ranges of the continuous values have been scaled (by dividing by 200).

Name

Measurement Unit

Description

Sex

M, F, and I (infant)

Length

mm

longest shell measurement

Diameter

mm

perpendicular to length

Height

mm

With meat in shell

Whole weight

grams

whole abalone

Shucked weight

grams

weight of meat

Viscera weight

grams

gut weight (after bleeding)

Shell weight

grams

after being dried

Rings

+1.5 gives the age in years

Table 1: Information about the attributes.

(a)  Clean the data set. Use descriptive statistics to detect any anomaly in the data. Comment on it.               [5]

(b)  Generate a plot for the variable length. Comment on it.                                     [5]

(c) Is there any statistical evidence to keep the variable sex to eventually predict the variable rings? Justify your answer.                                [6]

(d) Is there any statistical evidence to keep the variable sex but considering only males and females to eventually predict the variable rings? Justify your answer.                             [6]

(e)  The aim of this study is to predict the variable rings. Is there evidence of multicollinearity? Justify your answer.          [8]

(f) Fit a linear model with the original variables, i.e., without any transformation on the predictors. Comment on it. How well the model fits the data?             [7]

(g) Use principal components to transform the predictors and fit a linear regression model. How good is the model? Compare it to the model fitted in (f). Justify your answers.                  [9]

(h) Using the model fitted in  (g), predict the ring value for an abalone with length=0.52, diameter=0.41, height=0.14, whole weight=0.83, shucked weight=0.36, viscera weight=0.18, shell weight=0.24, and sex = Masculine.  The numerical values have already been scaled by dividing by 200. Interpret your results.

2. Is it possible to predict the gender (just Female or Male) of an abalone given the continuous predictors? Justify all your answers.

(a)  Train a model with 70% of the data and test it with the rest 30%.  Address the issue of

unbalanced data if it is required. Justify the procedures.

(b)  Calculate the accuracy, sensitivity and specificity of the model. Interpret your results.

(c) What is your conclusion? Would you recommend the model? Justify your answers.

3.  Chac´on et al.   (2023) showed that the talent ranking of a country is related to governance indicators,  the proportion of students attending top universities,  and participation in post graduates programs.  The variables considered in this study are described in Table 2.  In the present project, we aim to categorize through a cluster analysis the countries considered in the study. For this, the variable income group, which is a country classification by income for years 2021-2022, has been added due to its potential use.  Its information has been obtained from the World Bank website.

Note: The file with the data set contains variables which have been used to construct others.

In your analysis, consider only the ones described in Table 2, countries, and income groups (if you consider it necessary).

(a)  Clean the data set. Comment on the procedure.

(b)  Perform a K-means and hierarchical cluster analysis to determine the number of clusters.

Justify your answer.

(c)  Plot the clusters using a scatter plot. Comment on it.

(d) Write a brief report with your findings. This should include at least: i) a discussion about the performance of the clustering analysis, ii) a description of the clusters if it is possible,

iii) discussion of anomalies in the clusters if there is any, and iv) a recommendation of a variable(s) that was not included in the analysis but that could to help describing the clusters.

Reference:

Chac´on, R., Fan, S., and Maturana-Russel, P. (2023).Higher education and national governance: comparison of their relationship with talent. Int. J. of Education Economics and Development. (Accepted for publication)

Indicator

Description

Data source

VA

GE

RQ

RL

CR

Voice and Accountability

Political Stability and Absence of Violence/Terrorism Government Effectiveness

Regulatory Quality

Rule of Law

Control of Corruption

WGI

Top 200, 201-500, 501-800, 801-1000.

Percentage of students attending best-ranked universities: The number of students attending universities ranked by QS within the Top 200, 201-500, 501-800, and 801-1000, divided by the total number of students enrolled in the tertiary level in a certain country.

QS Ranking

Times Higher Education: Number of students by university. UNESCO : Total students in tertiary education.

ISCED 5, ISCED 6, ISCED 7, ISCED 8.

Participation rate by level of higher education: The number of students enrolled in ISCED5   (short- cycle tertiary education), ISCED6 (Bachelors level) , ISCED7 (Masters level) and ISCED8 (Doctoral level) tertiary education level divided by the population of the official age for tertiary education

UNESCO Statistics

Talent

Overall

(TL)

Relative talent level of an economy: Median of Talent Overall Ranking ( 2017-2020)

World Competitiveness Centre (IMD)

Table 2: Variables studied in Chac´on et al.  (2023).