Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STAT 541: Multivariate Analysis

Homework 3, due February 17th, 2023

In the HW 3 folder on Canvas there are normalized versions of some of the datasets from the

previous HW assignment. When thinking about MLE estimation in a factor analysis model, keep in mind that if  is the MLE of the FA covariance matrix and S is the MLE of the generic covariance matrix under a multivariate normal model, then trace(  1 S) = p where p is the dimension of S . Make sure to monitor this when you think about convergence of any computational algorithm for fitting the MLE.

Question 1. Load the dataset CASchools_normalized .csv which is a collection of variables for some schools in California and comes from the AER package for R. Address the following prompts:

(a) For the number of columns (10) that the data matrix contains, what are the possible dimen- sions k for an orthogonal factor analysis to be identifiable (to have a unique solution up to rotations)? What are the excess degrees of freedom of these models?

(b) Fit a factor analysis model using the maximum likelihood method to the data for each dimen- sion k for which the excess degrees of freedom are non-negative. I suggest using the factanal function from the stats package in R, but you can use whatever software you want.

(c) The six dimensional factor analysis model has 10 ∗ 6 − 6 ∗ 5/2 + 10 = 55 parameters, which matches that for a generic 10 × 10 covariance matrix.  Even though this model is saturated in terms of parameters and provides a unique solution to the FA estimation problem, that does not mean it is adequate for describing the sampling distribution of the data. Investigate at least two aspects of the data to try to determine whether you think the data could be generated from a multivariate normal model.

(d) If you were to use a multivariate normal model to try to predict future observations from this model, which model from the ones you have fit would you choose?  Do you think these model-based predictions would provide a good approximation to the real data generating process?

Question 2. Load the dataset College_normalized which is a collection of variables about colleges from US News & World Report from the ISLR package for R. Address the following prompts:

(a) Using a p-value cutoff of 0.01, do forward selection using the likelihood ratio test to select a multivariate normal FA model for the data.

(b) Using a p-value cutoff of 0.01, do backward selection using the likelihood ratio test to select a multivariate normal FA model for the data.

(c) Using the AIC as a criterion, select a model from the multivariate normal FA models for the data.

(d) Using the BIC as a criterion, select a model from the multivariate normal FA models for the data.

(e) Do the selected models match? Do you think that the model selected in these four ways have to match?

Question 3. Load the datasets penguins_2_normalized .csv and penguins_4_normalized .csv which are noisy kinds of embedding of variables from the penguins dataset from the palmerpenguins package for R. Address the following prompts:

(a)  Compute the varimax loadings matrix from the MLE fit of a two dimensional FA model to the penguins_2_normalized .csv.  Describe how the two loadings take different underlying factors and load them onto the twenty-five dimensional space of covariates.

(b) Let Q denote the 25 × 2 of varimax loadings, Ψ be the diagonal matrix of specific variances (uniquenesses), and X be the 342 × 25 data matrix. Compute regression style factor scores by computing F = XΨ1 Q(QT Ψ 1 Q)1 , this matrix should be 342 × 2 dimensional.  Compare these factor scores to the first two left singular vectors of X .

(c) Repeat this exercise with the penguins_4_normalized .csv where the dimension of the FA model is 4 and the number of left singular vectors to compare to is also 4.