Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STAT 443 Project

Spring 2022

1    Introduction

This document describes the group project for STAT 443 in the Spring 2022 semester. This is worth 20% of the nal mark for this course.

You can work in groups of up to six people and each person in the group will receive the same mark. You will be submitting your project to Crowdmark.  Students can create their own groups on Crowdmark and any member of the group can submit on behalf of the group. All students in the group will receive a copy of the graded feedback.

You need to submit your report to Crowdmark by 5:00pm on  Tuesday  26 July. Late submissions will receive a mark of zero and the Faculty policy on plagiarism1  will be strictly followed.

The project is divided into four parts.  For each part you separately submit an PDF document to Crowdmark. The page limitations given below are important.

The clarity of your communication relative to the target audience in this project is important being worth about 70% of the total mark.  You are writing for an audience of data scientists who have not studied the equivalent of STAT 443 but have done well in the equivalent of 200 and 300 MATH and STAT courses.

The project is based around the ideas in Chapter 5 of the course notes on the evaluation of forecasting methods.  You will be using both Monte Carlo simulation and evaluating methods via a simple competition framework.

 

2    The Scenario

2.1    Part 1 [10 Marks]

You are working on a coop placement in a Data Analytics group. The head of this group has met with a consultant who was asked to evaluate the forecasting methods that the company is using to predict future prices of key commodities.  During the meeting the

consultant made an informal comment regarding their underlying views about forecasting. The consultant said:

‘All causal, stationary processes are a combination of an MA(.) and a periodic process.  I aways just estimate the seasonality and t a MA(10) process.  You never need to do any more model selection than that. ’

This sounded wrong to the head of the Data Analytics group who asks you to clarify precisely what the consultant might be referring to in the actual theory of forecasting. Can you explain, at a suitable level for the target audience, what the consultant might have in mind?

[For Part 1 your written report can not be longer than a single page (i.e. a single side) including any graphs, tables and references that you might use. You should be careful to use references to justify statements that you make, or point to definitions that you use, in the same way that is done in the course notes.  The quality of communication is judged relative to the target audience. ]

2.2    Part 2 [10 Marks]

The head of the group now understands what the consultant means and is interested in the idea.   You now are asked to design and run a Monte Carlo simulation exercise to evaluate how well the method which only uses MA(10) models performs. Suppose that the true model is a zero mean, causal, AR(1) model with mean 1, standard deviation 7 = 2 and auto-regressive parameter 6 = 0.6 and each sampled time series has 50 observations, {zi}i(5)1 . Use a Monte Carlo simulation experiment to compare the forecasting performance of true model – where the model and its parameters are known with the zero mean MA(10) model where you have to estimate the parameters.

Compare the two approaches for forecast periods h =  1, 2 and  10 in terms of bias, average width of 95%-prediction interval and coverage.

[For Part 2 your written report can not be longer than a single page including any graphs, tables and references that you might use.  You need to explain the design of the Monte Carlo experiment and the results that you found.  The communication is judged relative to the target audience. Do not include code here.]

2.3    Part 3 [5 Marks]

Upload a PDF le of the annotated R code that you used to run your Monte Carlo exper- iment.  Do not include any numerical output. You will be evaluated on the correctness of the code and the clarity of the annotation.

2.4    Part 4 [10 Marks]

The head of group tells you that you can have access to a set of historical data see ?3 below that the company has of the commodity prices of the key components that the group wants to make forecasts of.

You are asked to use this resource to design a simple competition which can be used to compare three methods: (a) exponential smoothing, (b) always using a MA(10) model and (c) using the auto .arima function from the library(forecast) to select an ARMA(p, q) model using AIC. You are comparing the methods for forecast periods h = 1, 2 and 10 in terms of bias, average width of 95%-prediction interval and coverage.

In your report you need to explain, at a suitable level for the target audience, how the competition was designed and what were the results that you found.

[For Part 4 you are asked to write a one page summary of your results for the head of the group.  Do not include the code that you used.  The single page limit includes any graphs, table and references that you might use. The quality of communication is judged relative to the target audience.]

 

3    Data

The data can be downloaded from the course’s Learn site and is called projectdata .rds. This is a list of 10 time series of differing lengths. You can load the data into an R session and extract the rst example using

library(forecast)

projectdata  <-  readRDS("projectdata .rds")

ts1  <-  projectdata[[1]]

...

[Note the double bracket [[.]] since projectdata is a list.  The rst line above loads the forecast library which allows you to use the auto .arima( ) function.

Each of these time series have been adjusted to remove any seasonal effects and any linear trends, as in the M competitions. The head of the group assumes they are stationary. You should check this using a formal statistical test for each of the 10 examples.