Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

OPIM 3511: Final Project Instructions

General Instructions:

•     Use dataset that is not used in examples/HW in our class.

•    You can perform classification or regression - your choice.

Things to submit:

•     Project Report: 6~8 pages, double spaces, including references.

•     Dataset: a copy of all your datasets in .csv.

•    Code: An .ipynb notebook with headers and comments – please make it easy for me to grade.

•     Upload all the files to HuskyCT as a .zip file.

Detailed Descriptions:

Item

Description

Total Points

Data Description & Project objective

Background  of  how  dataset  is  collected,  what  is  your objective.

5

Literature Review

Give  a  background  on  the  problem  you  are  trying  to solve.   Use  ten  quality  sources  from  blogs,  research articles, websites, news stories. List your ten references at the end of the notebook.

5

Exploratory     Data

Analysis

Create three interesting plots and two interesting tables to include as part of your report.

These must be created in Python.

Perform data imputation if necessary. (Impute with mean or median will be okay)

2 * 5 = 10

Modeling

Use an 80/20 split on the data.

Set the random seed equal to one of your student IDs (7 digit code) when splitting.

Only use numeric variables. Examine the column names and data types  (via df.info()) and delete any duplicate columns or categorical columns.

Fit two models.

For example, if you are doing regression, you can fit your data  with  multiple  linear  regression  and  decision tree

regressor.

NO simple linear regression.

If you find your model is overfitted on the training data (i.e., R2=1 or accuracy=1), do hyperparameter tuning or ask help from me.

10

Modal Evaluation

Regression: scatterplots and R2, MAE, MSE

Classification: confusion matrix and accuracy report

5

Analysis                 &

Discussion

I want you to really dig into the results: How did the error metrics          change          across          your          different experiments/models?  Is  one  ML  model  ‘better’  than another? 

Also,  relate your  results to other studies on the same dataset. Reference at least three other different studies and  compare  your  algorithm  and  results.  Your  model does not need to beat others.

10

Conclusion

As part of your final report, make sure you have at least five  to  ten  sentences  describing  what  you  did  in  the report, and what you might do differently next time if you had more data/time/etc.

5

Total

 

50