Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STP 429 – Applied Regression

Lab #2: Multiple Regression (100 points)

Website for data collection:https://www.baseball-reference.com/

Data to be collected:

 

Use the drop down menu and enter Batting to get Year-by-Year Batting Statistics.  You will see the following columns for your team:

 

If you click the drop down menu (Share & more), you will be able to download the data into a CSV file.   For the analysis:  For the 1979-2021 seasons only (DO NOT include the 1994, 1995, and 2020 seasons):

Dependent variable:  Wins (W)

Independent variables:  Use any 5 variables that are strongly associated with team wins.

Goal for the analysis:  Create two best 3-variable models to predict team wins.  One model will include data from the 1979-2000 seasons and the other model will include data from the 2001-2021 seasons.

Your step-by-step analysis should include:

•     Exploratory Data Analysis – all variables that are used at the beginning of the analysis should be        graphed as tables or charts.  Each table/chart should be analyzed for distributions/potential outliers.

•     Correlation Analysis (PROC CORR) – all potential independent variables should be correlated with the dependent variable.  This should include scatterplots and relevant statistics.

•     Multiple Regression (PROC REG) – This is a multi-step process as you are testing combinations of              variables to find the best 3 variable model.  DO NOT use stepwise regression methods for your variable  selections. You should also test one interaction term to determine if it significant in the model.  Make      sure that you justify how you determined that the interaction was needed.  The final independent             variables should be regressed on the dependent variable.  Report the model in equation form and             interpret each coefficient of the model in the context of the data.  Analysis of the regression output          should be completed with careful attention to the relevant parts of the SAS regression output, especially

when concluding whether the interaction or second order terms are significant in the model . After completing your analysis, you will need to create a statistical report in the following format:

Abstract/Executive Summary (20 points) – High level summary of the purpose, data and summary.

Data (10 points) – Discuss the data to include:  number of observations, variables used, why you chose these variables.

Methodology (10 points)– What statistical procedures did you use to analyze the data.


Results (50 points) – For each model this should include: analysis and results of each step, what decisions you  made to proceed to the next step and why.  All graphs/tables should be included and referenced, preferably in

an Appendix.  All SAS code should also be included in the Appendix, not in the body of the report. Which of the two models were better?  Why?

Final Conclusions and Next Steps (10 points) – What were your overall conclusions from this analysis?  Were there different steps that you would have taken or different data that you would have used if you were to       complete this analysis again?

Submission Guidelines – Submit the report (including all SAS code and graphs) in a PDF to be uploaded to  Canvas by Sunday, March 27 at 11:59 PM.  No late submissions will be accepted.  If you are working with a partner, only one submission is needed under either partner’s name.

Data Dictionary – Choose your independent variables (excluding Wins) at minimum from this list, but feel free to use others.

Batting:

W (Wins)

R (Runs)

H (Hits)

2B (Doubles)

3B (Triples)

HR (Home Runs)

RBI (Runs Batted In)

SB (Stolen Bases)

BB (Walks)

SO (Strikeouts)

BA (Batting Average)

BatAge (Age of Batters)