Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Statistics & Data Analysis

IEOR-4307

Problem Set #1

Fall 2023

Due: BEFORE CLASS September 14, 2023

Ex.  1 (1 pt).

An email inbox has three categories:  A1  = ‘spam’, A2  =‘low priority’, A3  =‘high priority’ .  From previous experience we know that r(A1) = 0.7, r(A2) = 0.2 and r(A3) = 0.1.  Let B the event that the email contains the word ‘free‘. From previous experience, r(B|A1) = 0.9, r(B|A2) = 0.01, r(B|A3) = 0.01. If a new email comes in with the word free’, what is the probability that it is spam?

Ex.  2 (1 pt).

In the last example of Lecture 2 (tossing 5 dice) we proved the result via numerical simulation.  In this exercise, you will prove the same result analytically:  prove that the probability of interest is exactly 0.596708. Show your work to obtain full credit. Hint: in Lecture 2 some examples of valid combinations are provided. For example, what is the probability of ‘1xxxx’? And how many simi- lar combinations are possible? You will have to sum the probabilities of all these valid combinations.

Ex.  3 (1 pt).

Let X be such that r(X = 2) = r(X = 3) = 1/10 and r(X = 5) = 8/10.  Plot the CDF F(x).  Use F to find r(2 < X ≤ 4.8) and r(2 ≤ X ≤ 4.8).

Ex.  4 (1 pt).

Let X1, X2 ,..., Xn  be independent  and identically distributed (i.i.d.)  Normal random variables, each with mean µ = 80 and standard deviation σ = 22.  Answer the following questions

. What is the exact distribution of the random variable defined as Z := Xi?

.  Compute the mean and variance of Z.

. Find the value of the integer n such that r(Z ≤ 849.14) = 0.76.

Ex.  5 (1 pt).

For this exercise you can peek into Lecture 4 to see how to compute mean, standard deviation and covariance of vectors using a software.

Go on Yahoo Finance (→ historical data) or Google Finance and download the Banco Bilbao Vizcaya Argentaria SA (ticker BBVA), and Microsoft (ticker MSFT) daily time series from January 22, 2021 to January 18, 2022 (include both days).  Using your favorite software (one of Sheets, R, or Python), compute the daily Returns using open Prices:  Rt  =  (do this for each of the 2 stocks).  Then show the following:

.  Produce a scatterplot of each Return time series. What do you observe?  Comment on whether they are centered or not, and compare how spread out the graphs are.

.  Produce a histogram of each time return time series.  Does the histogram confirm your findings from the scatterplot?

.  Compute the mean and variance of each return time series.  Do these statistics reflect your perception from the graphs?

.  Compute the covariance and correlation of the two return time series. What do you observe? Can you explain your findings using common arguments?   (for instance the fact that they belong to difference sectors, the fact that the two companies are located in different countries, etc...)