Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Lab 1  EDA and Linear Regression

•    You will need to find a dataset for this lab. This is a good opportunity to start thinking about

your project. You may use the same data for your labs and project. In that case, the analyses you complete in this lab may be included as part of your project report in the end.

•   Using RapidMiner, create 2 types of exploratory of data analysis for the data.

o Describe any data preparation you did.

o Include a snapshot for each EDA.

o For each EDA, describe the pattern(s) observed. What are some business questions relevant to the EDA?

•   Using RapidMiner, build 1 linear regression using the data.

o Describe any data preparation you did.

o Include a snapshot for the model.

o If you used linear regression, include the R-squared, RMSE, and coefficients.

•    You may work in groups of up to 3 people for this lab.

•    Notes: It is recommended that you find a clean dataset (not needing too much data preparation as this can be very time-consuming).

•    People in the past tend to use datasets stored in one csv or xlsx file, without too many missing values, and having the target and predictor variables needed.

•    Some datasets people have used in past:

o Superstore data (see Canvas)

https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

https://www.kaggle.com/neuromusic/avocado-prices

https://www.kaggle.com/jessicali9530/honey-production

•    Examples of other data sources:

o Datasets used in class (e.g. Superstore data)

o Kaggle

o UCI Machine Learning Repository

o A list compiled by someone:https://github.com/awesomedata/awesome-public- datasets#datachallenges

o Data provided by corporations (Yelp, Airbnb, Wal-Mart,

etc):https://www.springboard.com/blog/free-public-data-sets-data-science-project/