Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STAT802:  ADvANcED ToP1cs 1N ANALYT1cs - SEMEsTER l 2022

Question 1. The file binaryA1-STAT802.csv contains information of 400 students who applied to graduate school last year. There are four variables, as follows:

● admit, which is equal to 1 if the individual was admitted to graduate school, and 0 otherwise,

● gre, the student’s gre score when the application was submitted,

● gpa, the student’s gpa when the application was submitted, and

● rank, that takes on the values 1 through 4 and indicates the prestige of the Institution the student obtained their bachelor’s degree.  Institutions with a rank of 1 have the highest prestige, while those with a rank of 4 have the lowest.

Using regression models, your manager (Cathy) is willing to explore gregpa, and institu- tion rank as factors that may influence the chance of students to be admitted to graduate school.  Specifically, she believes that gpa has the highest influence  on anticipating the admission (and non-admission) of these students to graduate school.  Cathy also believes that the differences among the institution’s prestige  in the chances of students ‘admitted’ and ‘not admitted’ differ based on the gre scores. Is your manager correct with both assumptions? These results will be used in the next Executive Board meeting.

a)  (1 marks - model + 4 marks - justication = 5marks) Propose an appropriate modelling framework to deal with your manager’s concern.  Name the model (e.g., ordinary regression, logistic regression, etc.) Justify your answer.

b)  (2 marks) Write down the full (theoretical) model.

c)  (4 marks) Derive the reduced models, if this is the case. If no reduced models are to be considered, then write down a short paragraph explaining this point.

d)  (3 marks) Generate SAS code to estimate your model, AND appropriately address any issue related to OVERDISPERSION, if any.

e)  (3 marks) For the following students, your manager wants to know how likely (or unlikely) is for them to be admitted to graduate school.

Teresa: gre = 680, gpa = 3.5, and rank = 2.

Johanna: gre = 530, gpa = 4.18, and rank = 3.

Tim: gre = 600, gpa = 4.34, and rank = 4.

f)  (8 marks) Write down an executive summary. Focus on the question Is your man- ager correct with both assumptions?.  Include a short discussion on Part d) - Overdispersion and Part e).


 

Question 2  In this question there are two tasks, as follows.  While you could work out both         tasks using the same SAS code, your answers must be separately provided (and clearly la-         beled). Consider the academic-related data/problem from Slide 24, file STAT802-Week2-GLMs-II, from Week 2 (Blackboard).

a) Using regression models run a proper analysis to investigate 1) the eect of the math and ‘language’ scores on X2  = the average number of days absent during the school year, and 2) the extent to which the influence of the math scores on X2  fluctuates across the dierent bilingual status.

b) Explore options to address issues related to overdispersion.  Include solution/s if such massive variability is observed

c) Use the selected model to estimate the average number of days absent for three stu- dents: Andrea, Curtis and Jessica.  According to the School records, Andrea showed the highest attendance rate (from past years) and this trend is expected to continue on.

The data is the following:

Andrea: Math score = 38.5, Language score = 49.4, biling = 1.

Curtis: Math score = 56.21, Language score = 52.11, biling = 2.

Jessica: Math score = 61.39, Language score = 42.90, biling = 3.

 

(20 marks) Write down an executive summary addressing points a), b) and c). Include your SAS code in an Appendix  (15 marks - Executive Summary + 5 marks SAS code).

 

** NOTE: You may want to include the regression model selected but it won’t be marked. Only the ES and the SAS code will be assessed as outlined above.


Question  3.   The file groundwater.csv contains the number of contaminated wells observed per 3 month period (quarter) from January 2005 - December 2009 in the Atlanta, U.S., region. The Atlanta Council surveyed carried out this work to find wells contaminated by

the solvent TCE (Trichloroethylene). They also recorded the average levels of nitrate and chloride in the area over the 3 month period. Here is the outline of this data set:

● Quarter - time point (period of three months).

● Colum N - The number of contaminated wells in the area PER quarter.

● nitrate - Average level of nitrate per quarter.

● chloride - Average level of chloride per quarter.

Your manager is interested in looking at the effect of the nitrate and chloride levels over the number of contamined wells observed every quarter, and also in exploring how good are these factors (nitrate and chloride) to ‘predict’ TCE-contaminated wells to use in upcoming studies.


a)  (1 marks - model + 4 marks - justication = 5marks) Propose an appropriate modelling framework to deal with your manager’s concern.  Name the model (e.g., ordinary regression, logistic regression, etc.) Justify your answer.

b)  (2 marks) Write down the full (theoretical) model.

c)  (2 marks) Derive the reduced models, if this is the case. If no reduced models are to be considered, then write down a short paragraph justifying this decision.

d)  (3 marks) Generate SAS code to estimate your model, AND appropriately address any issue related to OVERDISPERSION, if any.

e)  (8 marks) Write down an executive summary. Focus on the question ‘Is your man- ager correct with both assumptions?  and on overdispersion issues.