Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Predictive Analytics and Machine Learning: Assignment 2

2022

1    Data

This assignment uses data related with phone call marketing campaigns of a Portuguese banking institution. The predictive task is to classify if the client receiving the call will subscribe to a term deposit with the

bank. The data consists of a total of 1000 phone calls. The data was sourced from the UCI machine learning repository. The full dataset that you MUST use for this assignment is available on Moodle under the name _ortueucsc   a_ngPbso .

Data on the following variables are available.

Response variable

● y: whether the client subscribed to the deposit or not.

Client predictors

● age : age (in years).

● job: type of job.

●  marital: marital status.

●  education: level of education.

●  loan: whether this customer has a personal loan.

●  month : last contact month of year.

●  campaign: number of contacts performed during the phone campaign for this client.

●  day_of_week : last contact day of the week.

●  duration: duration of the call (in seconds)

Economic predictors

●  emp.var.rate: employment variation rate.

●  cons.price.idx: consumer price index.

●  cons.conf.idx: consumer confidence index.

●  euribor3m: euribor 3 month rate.

●  nr.employed: number of employees.

2    Task

The task is to compare three methods that have been taught in this unit. You MUST choose one method from each of the three following groups:

Group 1: Logistic regression, k-Nearest neighbours.

Group 2:  Trees; bagging; random forest; boosting.

Group 3: Neural networks; support vector machines.                                                                                         The idea is for you to compare the prediction performance of the three selected methods and make a case as to which works best for this particular data problem.                                                                                          It is your choice to select a training and validation sample,  and to decide how to evaluate predictive performance. Be clear about the steps you have followed and document each of these steps in your report. You need to submit a short report of maximum 2000 words. Your R code and additional work not crucial to the analysis can be included in an Appendix (this will not count towards the word limit).

3    Guidance

The assignment will be divided in three parts. To assist you, a list of questions are provided below. These are designed to prompt you to think about the analysis and will influence the grading of the assignment. If you can think of issues not listed here then you are encouraged to address them.

3.1    Data preparation (5 marks)

● Is the data clean? Are there missing values or outliers?

●  Can you observe any patterns from simple exploratory analysis including summary statistics and basic plots?

● Are all plots clearly presented and correctly explained?

●  How can these patterns inform the models that you will choose?

●  How will you ensure the data can be reproduced by somebody with knowledge of the techniques you will use?

3.2    Description of the models (8 marks)

●  Have you motivated the use of each of the selected methods?

● What are the parameters of the models?

●  How are these parameters estimated?

● Are the limitations of these methods clearly discussed?

3.3    Model comparison (8 marks)

●  Have you described the specific models that resulted after estimation?

●  Have you clearly described how you selected the tuning parameters for each of the methods?  For instance, how did you pick the number of trees in a random forest, or how did you pick the number of layers in a neural network, etc.

●  How you employed any diagnostics after fitting the models?

●  Have you discussed and motivated the accuracy measures that you will use?

●  Have you clearly established which model is best terms of in-sample and out-of-sample accuracy?

●  Figures and tables can be useful outputs for this section.

3.4    Conclusion (4 marks)

● Is the analysis robust to minor changes in the methodology?

● Are any assumptions made for the analysis or in drawing conclusions. If so, are these clearly explained?

●  Does the report clearly summarises the findings from the analysis?

● Is your report a cohesive story with an interesting conclusion or does the report simply lists everything that was attempted?

4    Submission

This assignment is a group assignment. The maximum group size is four people. You may form groups with students from different tutorial groups and from different unit codes.  A single soft copy should be

submitted with a group assignment cover page added to the front. All assignments should be submitted via Moodle.