Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STAT 1601:  Introduction to Data Science with R

J-Term 2023

Course Expectation Form / Syllabus

Course Information

Course Name:  STAT 1601: Introduction to Data Science with R

Number of Units:  3                                                                                                                  Pre-requisites:  No prior knowledge of programming, data science, or statistics is required

Instructor Information

Faculty Name:  Prince Afriyie (pronounced Afriy´e), PhD.

E-mail Address: [email protected]

Instructor’s Zoom  Office Hours:  Tuesdays and Thursdays from 1:00 pm to 2:00 pm EST.

Course Assistants

Course Assistants  (email):  Azeez, Shakur([email protected]),

Hopkins, Daeja ([email protected]).

Course Assistant’s Zoom  Office Hours:  Join online office hours using the Zoom Office Hours tool in Collab on the following days and time:

● Mondays, Tuesdays, Wednesdays: 12:00 pm to 1:00 pm EST (Azeez)

● Wednesdays, Thursdays, Fridays: 11 am to 12 pm (Hopkins)

Role  of the  Course Assistants:  Grading, responding to questions on Piazza Discussion Board and holding office hours.

Fundamental Course Structures

Course Description:  This course provides an introduction to the process of collecting, manipulat- ing, exploring, analyzing, and displaying data using the statistical software R. The collection of elementary statistical analysis techniques introduced will be driven by questions derived from the data. The data used in this course will generally follow a common theme.

The course is broken down into two parts. Part 1: Exploring data - this part comprise of learning and using R to collect/scrape,  summarize,  manipulate and visualize data.   Part  2:   Statistical methods - this part comprise of using data to learn about the world around us through regression and classification.

Instructional Method:  Recorded lecture videos.

Suggested Resources:

● Learning R by Cotton; R Cookbook by Teetor (Note: electronic copies of both are available through the UVa Library.)

● Statistics, 4th Edition by Freeman, Pisani and Purves.

Note: The suggested books are for your edification, you do not need them to be successful in the course. Notes and lecture videos will be provided for every lesson.

Course Software:  We will be using the statistical software, R, throughout the semester. RStudio is a software that runs R with additional user friendly features. RStudio will be used for all in-class R demonstrations and examples. Both R and RStudio are free for download for all operating systems.

1. First, download R: https://cran.r-project.org/

2.  Second, download RStudio Desktop: https://www.rstudio.com/products/rstudio/download/

Collab  and email access:  I will be distributing important course information on the course Collab website. The use of Collab and UVa email is required for the course.

Grading

Grades for the course is a weighted average of the following:

● Investigations/Homework (due almost everyday): 35%

● Midterm Exam (scheduled on Monday, Jan 9): 35%

● Final Project(video presentation due on Friday, Jan 13): 30%

Grading Scale: Your weighted average will translate to the following letter grades at the end of the semester.

95 - 100 % = A; 90 - 94.9% = A-; 87 - 89.9% = B+; 83 - 86.9% = B; 80 - 82.9% = B-;

77 - 79.9% = C+; 73 - 76.9% = C; 70 - 72.9% = C-; 60 - 69.9% = D; below 60% = F

Course Policy Information

Investigations/Homework:  The Investigations will be based on the homework and course material covered in the previous class.  Collaboration among students on homework assignments is allowed and encouraged.  Each Investigation will require the use of R and students will submit an HTML file of their solution on Collab created using R Markdown. A template R Markdown le will be posted for your use.

Midterm Exam:  The Midterm Exam will be based on material covered in the rst week of class. The exam will be administered through Collab under the Midterm Exam tool. Unlike the Investigations, every student will take the exam individually (not group based).

Project:  The purpose of the project is to make informed decisions using coding, statistical tech- niques and concepts in this course.  You may work individually or in teams of up to four class members.   Every team will be tasked to nding  (or collecting) an interesting dataset,  framing pertinent research questions, analyzing the dataset, making an informed decision and profession- ally present ndings in a (approximately) 20-minute video.  Detailed expectations and format of the video presentation will be posted in Collab under the Project Support folder.  All resources consulted should be listed at the end of the video presentation.

Homework and/or Final Project:  Use the following link to nd group members for the Homework    or Final Project:                                                                                                                                         https://docs.google.com/spreadsheets/d/13UejWsUMqE40xSUdi18lNy5OH5Dtn3UtJz1DiQZ0pqA/ edit?usp=sharing

Accommodations:   If you have, or believe you have,  a disability that requires accommodations, please contact the Diasability Access Center (SDAC) immediately to discuss your situation. I am

happy to accommodate you based on recommendations by the SDAC.

Tentative Schedule:

Day

Content

Task

 

Day 1:01/02

Intro to DS; Syllabus; Collab Intro to R; R Scripts

Option to sign up

for a group

 

 

Day 2:01/03

R Packages, R Markdown

Dataset Prelims

Import, Export Data in R

 

 

Day 3:01/04

Data structures; Summarizing Data Traditional Data Wrangling I     Traditional Data Wrangling II

 

Homework 1 due by 5 pm

 

 

Day 4:01/05

Data Wrangling via dplyr Package I

Data Wrangling via dplyr Package II

Data Scraping

Homework 2 due by 5 pm

FP reminder: Find Dataset

 

 

Day 5:01/06

Data Cleaning I

Data Cleaning II

Data Visualization

Homework 3 due by 5 pm

FP reminder: Data Wrangling

 

Day 6:01/9

Midterm Exam

Exam due by midnight

 

 

Day 7:01/10

Data Visualization

Bivariate graphs

multivariate graphs

No Hw due

FP reminder: Data Wrangling

 

 

Day 8:01/11

Data Visualization

special graphs

Regression

Homework 4 due by 5 pm

FP reminder: Data Visualization

 

 

Day 9:01/12

Regression:

Simple and Multiple

Logistic

Homework 5 due by 5 pm

FP reminder: Regression

 

Day 10:  01/13

Logistic

Classication: KNN

Video presentation of project due by 11:59 pm