Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Data Science II: Applied Statistical Learning

PPOL 565, Spring 2023

1    Course Information

Description:   This course offers students an applied understanding of three key data sci- ence skills:  data collection, data wrangling and machine/statistical learning.  Students will learn to gather raw data (using web scraping techniques and APIs); clean, structure, and manipulate data in a variety of formats; effectively explore and visualize data; and analyze datasets using a variety of machine learning models including regression, Naive Bayes, K- nearest neighbors, decision trees and random forests, support vector machines, and artificial neural networks. Throughout the course, emphasis will be placed on effective visualization, model refinement and validation, and ethics. Students will engage with a number of policy- relevant case studies throughout the course and will work on a policy-focused data science project. This course is taught in Python 3.

Prerequisite:   PPOL 564

2    Course Outline

TOPICS

Module 1: Introduction & Preliminaries                                                        Web scraping and data collection with APIs, preprocessing, data characterization

Module 2:  Modeling                                                                                               Proximity, models, supervised vs unsupervised learning, classification vs regression

Module 3:  Linear Models                                                                                                   Linear models, selection, regularization, ridge regression, LASSO, issues in high dimensions, logistic regression, linear discriminant analysis

Module 4:  Classification Models                                                                                       Information gain, decision tree algorithms, ensemble methods, K-nearest neighbors, Gaussian and multinomial Naive Bayes

Module 5:  Avoiding Overtting

Overfitting, cross-validation, sampling techniques, diagnostic curves

Module 6:  Model Evaluation                                                                                             Evaluation metrics, confusion matrices, ROC, AUC, class imbalance problem, multi-class problem

Module 7:  SVM & Neural Networks

Support vector machines, neural networks, deep learning

3    Required Materials Required Textbooks:

• Introduction to Data Mining, 2e by Pang-Ning Tan, Michael Steinbach, Anuj Karpatne, and Vipin Kumar.

• An Introduction to Statistical Learning with Applications in R, 2e by Gareth James, Daniela Witten, Trevor Hastie, and Robert Tibshirani.  A PDF version of the book can be downloaded for free from https://www.statlearning.com/.

All other required course readings will be posted on Canvas.

Canvas:   A Canvas site (https://canvas.georgetown.edu/) will be used throughout the course and should be checked on a regular basis for announcements, readings, and assign- ments. All readings and assignments will be posted on Canvas; they will not be distributed in class or by e-mail. Support for Canvas is available at (202) 687-4949.

Computing:   Programming tasks for in-class activities and assignments will be conducted using Python 3.  Students are encouraged to utilize the Anaconda data science platform, which bundles Python with a set of tools and commonly used data science packages. Students can download3andinstalltheAnaconda Distribution from https://www.anaconda.com/ download/.  Students may not use Python 2 or R for problem sets; however, students may use R for nal project deliverables with prior approval from the professor.

4    Course Requirements

Requirement

Points

Percentage

Problem Sets (5)

150

37 5%

Discussions (2)

10

2.5%

Midterm Exam

100

25%

Final Project

140

35%

Total

400

100%

Problem  Sets  (37.5%):   Students will complete ve problem sets.  While you are en- couraged to discuss the problem sets with your peers and/or consult online resources, the finished product must be your own work. Each problem set is worth 7.5% of the nal grade.  Problem sets are due on the date and time posted on Canvas and must be submit- ted on Canvas.  Late assignments will be penalized 10% for every day they are overdue. Students may correct and resubmit problem sets for partial credit.  Please see the Course Policies section for additional information about the resubmission policy.

Discussions (2.5%):   Participation is a key component of your success as a student, both in class and on Canvas discussion boards.  Each Canvas Discussion is worth 1.25% of the final grade. What does good participation look like?

1. Answering instructor questions.

2. Asking relevant clarifying and contextual questions.

3. Actively engaging in meaningful discussion by responding to peers comments and ideas.

Exam (25%):   The midterm exam will be a written, in-person exam applying the topics covered during class discussions, problem sets, and activities. Make up exams will be given only for proven and substantiated extenuating circumstances.

Final Project  (35%):   The nal project will allow you to delve deeper into a topic of interest. Over the course of the semester, you will work on a project that applies what you have learned in the course.  The project, which will be completed in stages, will comprise 35% of your course grade.

Requirement Points

Memo 1: Topic and Data                    15

Memo 2: Analysis Plan                       20

Presentation & Reflection                   30

White Paper & Replication Code 75

Project Total 140

5    Grading

Course grades will be determined according to the following scale:

A

95% or greater

-

90% to < 95%

B+

87% to < 90%

B

84% to < 87%

-

80% to < 84%

C

70% to < 80%

F

less than 70%

Note:  If you nd an error in the calculation of your grade, please send a message to the TA or professor providing documentation of the error.  Inquiries about assignment grading or feedback must occur within one week of the grade being posted on Canvas.

6    Course Policies

Communication:   Email is the preferred method of communication.  All email messages must originate from your Georgetown University email account(s). Please use a professional salutation, proper spelling and grammar, and patience in waiting for a response.  The pro- fessor reserves the right to not respond to emails that are drafted inappropriately.  Please email the professor and/or TA directly rather than through the Canvas messaging system.

Assignments and Late Work:   Assignments should be clear, legible, and submitted in the required format.   Writing assignments will be graded on the basis of content, logic, analysis, mechanics, organization, and research. Due dates for all assignments will be noted on Canvas and are non-negotiable. Exceptions to this policy will be made only for unusual circumstances and may require valid documentation from the student.  Late work will be penalized 10% per day and project deliverables will be penalized 20% per day.

Assignment Resubmission:   Students who receive a score of 85% or less on a problem set or project memo may resubmit the assignment within one week of receiving a score. Upon regrading, the student may recoup up to 75% of the points deducted from the original submission.

Electronic Devices:   The use of laptops, tablets, or other mobile devices is permitted only for class-related work. Audio and video recording is not allowed without prior approval from the professor. Please mute all electronic devices during class.

Important Academic Policies:   McCourt School students are expected to uphold the academic policies set forth by Georgetown University and the Graduate School of Arts and Sciences. Students should therefore familiarize themselves with all the rules, regulations, and procedures relevant to their pursuit of a Graduate School degree.  The policies are located

at: http://grad.georgetown.edu/academics/policies/.

Academic Integrity:   Academic integrity is central to the learning and teaching process. Students are expected to conduct themselves in a manner that will contribute to the main- tenance of academic integrity by making all reasonable efforts to prevent the occurrence of academic dishonesty. Academic dishonesty includes (but is not limited to) obtaining or giv- ing aid on an examination, having unauthorized prior knowledge of an examination, doing work for another student, and plagiarism of all types, including copying code.

Disability:   If you believe you have a disability, then you should contact the Academic Resource  Center  ([email protected]) for further information.   The  Center is located in the Leavey Center, Suite 335 ((202) 687-8354).  The Academic Resource Center is the campus office responsible for reviewing documentation provided by students with disabilities and for determining reasonable accommodations in accordance with the Americans with Disabilities Act  (ADA) and University policies. For more information,  go to: http:// academicsupport.georgetown.edu/disability/.

Provosts  Policy  Accommodating  Students  Religious  Observances:   Georgetown University promotes respect for all religions. Any student who is unable to attend classes or to participate in any examination, presentation, or assignment on a given day because of the observance of a major religious holiday or related travel shall be excused and provided with the opportunity to make up, without unreasonable burden, any work that has been missed for this reason and shall not in any other way be penalized for the absence or rescheduled work. Students will remain responsible for all assigned work.  Students should notify professors in writing at the beginning of the semester of religious observances that conflict with their classes. The Office of the Provost, in consultation with Campus Ministry and the Registrar, will publish, before classes begin for a given term, a list of major religious holidays likely to affect Georgetown students. The Provost and the Main Campus Executive Faculty encourage faculty to accommodate students whose bona fide religious observances in other ways impede normal participation in a course. Students who cannot be accommodated should discuss the matter with an advising dean.

Title IX/Sexual Misconduct:   Georgetown University and its faculty are committed to supporting survivors and those impacted by sexual misconduct, which includes sexual as- sault, sexual harassment, relationship violence, and stalking.  Georgetown requires faculty members, unless otherwise designated as confidential, to report all disclosures of sexual mis- conduct to the University Title IX Coordinator or a Deputy Title IX Coordinator.  If you disclose an incident of sexual misconduct to a professor in or outside of the classroom (with the exception of disclosures in papers), that faculty member must report the incident to the Title IX Coordinator, or Deputy Title IX Coordinator.  The coordinator will, in turn, reach out to the student to provide support, resources, and the option to meet.   (Please note that the student is not required to meet with the Title IX coordinator.) More informa- tion about reporting options and resources can be found on the Sexual Misconduct Website: https://sexualassault.georgetown.edu/resourcecenter.

If you would prefer to speak to someone confidentially, Georgetown has a number of fully confidential professional resources that can provide support and assistance, including:

• Health Education Services for Sexual Assault Response and Prevention confidential email: [email protected]

• Counseling and Psychiatric Services (CAPS): (202) 687-6985 or after hours, call (833) 960-3006 to reach Fonemed, a telehealth service; individuals may ask for the on-call CAPS clinician

More information about reporting options and resources can be found on the Sexual Mis- conduct Website: https://sexualassault.georgetown.edu/resourcecenter.

IMPORTANT:   This syllabus is subject to change and may be amended through- out the course to reflect any changes deemed necessary by the instructor.  Any changes will be announced on Canvas.