Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit


Machine Learning Assignment

 

Assignment aims and structure

The goal of this assignment is to apply what you have learned from this module, including the topics of polynomial regression, splines, tree-based methods and deep learning neural networks, to model a real data set. This assignment is worth 50% of your final mark. The submitted assignment should be written in a report style.

 

Data set

First, please select a data set from the UC Irvine Machine Learning Repository  https://archive.ics.uci.edu/ml/index.php. If you have another data set you would like to use  that is not from this repository, please confirm this is ok with the lecturer before proceeding. You should choose a data set that you find interesting! The aim is to then explore it and  formulate a problem (specifying response(s) and predictors) to tackle.

 

Please use the outline below to organize your report (in parentheses the contribution of each part).

Introduction (15%)

In this part you should highlight motivation and research questions, describe the data and the variables, and perform an initial exploratory analysis.

 

Analysis and Modelling (50%)

In  this  part,  select  at  least  two  methods  from  the  following  general  categories:  (i) polynomial regression or splines, (ii) tree-based methods and (iii) deep learning neural networks. You may implement as many methods as you want, but no less than two. Note that ifyou choose to select exactly two methods, then these should not belong to the same category.  Please also provide motivations/justifications of your choice. Based on the  methods you choose, proceed to an accordingly appropriate analysis. Compare the selected methods in terms of predictive performance. Produce appropriate plots and numerical summaries in order to evaluate the predictive accuracy of the methods. You may apply things learned during workshops, but also feel free to be creative and to experiment with methods.

Discussion and Further work (15%)


Discuss and comment on the results presented in the previous session and provide some insights about how you might improve your approaches or adapt other approaches to better address the problem if more time and data were given.

 

Executive Summary (10%)

In this part you should provide a summary in terms that would be easy for a non-expert to understand the modelling problem being addressed with this data set, the results of your analysis and any performance metrics. This means you will need to avoid using technical terms such as cross entropy, hidden layer, etc (imagine you are handing this to your line manager in a future job). An important aspect of the executive summary is reflecting on what the real-world objective may be in relation to the data set you are using and how your analysis addresses it. Feel free to be creative here!!!

.

Overall presentation and formatting (10%)

The report should be well organized and presented with clear headings, well presented figures and tables, and a narrative writing style.

 

The final report should be a maximum of 10 A4 pages total in PDF (any work beyond 10 pages will not be marked). Do NOT include any code snippets in the written report, numerical results from R/Python (if any) should be summarised in tables in the main body of the report (do not just copy-paste R/Python output).