Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Problem Set 2

ECON 2500 B (Fall Semester, 2023)

This problem set will be being gradually updated (it will be additionally announced when the problem set is finally complete). Hence, you can start working on the available problems as far as they appear in the problem set.  The deadline for submitting is late evening December 5 (23:59), 2023.  Can be completed in groups (no more than 3 students in a group). Please, submit your work in easily readable format, and within a single file, in the designated folder on the eClass page of the course.  Works submitted later that the due date will not be graded. Works which are obscurely written (or if there are problems with opening a file) may not be graded as well.  If you work in a group, please clearly indicate all the names (and student numbers).

1.  [Random Variables] Consider a random experiment of rolling a die and tossing two fair coins together.

(a)  Define a random variable, X, that takes a value equal to the number of points appeared on the die multiplied by the total number of “Heads” resulted from coin tosses. For this, specify the support of X and the probability mass function of X .

(b)  Compute E(X) and V (X).

2.  [Random Variables] A problem from the lecture.  Consider a lottery, where a player randomly picks one card from a set of 10 cards with numbers 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.  A player wins a value written on the selected card.

(a)  Define a random variable, X, corresponding to a value the player wins.  Define support and probability mass function for X .

(b) What would be a fair participation fee for this lottery? How does it relate to E(X)?

(c)  Define a centred random variable, Y = X − E(X). What can be the meaning of this variable in our context? Compute E(Y) and V (Y). What is the chance to have Y ∈ [−1, 1]?

(d)  Suppose the lottery is played 10 times (independently).  Associated random variables can be denoted by Y1 , Y2 ,..., Y10 .  Introduce random variable Z which stands for the overall profit (winning amount minus participation fees) of the player after 10 lottery rounds.  Express Z via Y1 , Y2 ,..., Y10 .

(e)  Compute E(Z) and V (Z). Compare it with E(Y) and V (Y), respectively.

3.  [Normal distribution]  Suppose that test scores for some given test are distributed normally with mean 60 and standard deviation 8.

(a) Find the probability that a randomly selected student has a score greater than 80.

(b) Find the probability that a randomly selected student has a score between 60 and 70.

(c) Find the test score that splits the population into the bottom 40% and the top 60% of scores.

(d)  Suppose a student’s score is among the top 5% of all test results.  What will be her minimal test score in this case?

(e) What range of scores constitutes the middle 50% of all scores?

4.  [Sampling distribution, CLT] Let a random (and representative) sample of 314 IT startups is given. According to the survey results, 218 enterpreneurs from the sample reported that inflation rate over the last year critically affected their business.

(a) Find the sample proportionp(ˆ) of IT startups which were critically affected by the inflation rate. (b) Assuming the Central Limit Theorem is applicable, calculate the standard error forp(ˆ).

(c) What is the probability that the sample proportionp(ˆ) of critically affected IT startups is smaller than population proportion p?

(d) How likely is that the population proportion p of critically affected IT startups is less than 0.75? (or, equivalently, but more accurately formulated, what is the probability that the sampling errorp(ˆ) − p is larger than 0.056 (= 0.694 − 0.75)?)

5.  [Confidence Intervals] Suppose we have a randomly selected sample of households with 986 obser-

vations. From the data we know that 768 of households have an access to a broadband internet.

(a)  Calculate the sample proportion of households having an access to a broadband internet, p(ˆ), and construct the 99% confidence interval for the population proportion, p.

(b)  Do the results contradict a claim that 20% households have no access to a broadband internet? Describe how would the obtained confidence interval help you to test this hypothesis?

(c)  Assuming p(ˆ) stays the same, but the sample consists of only 15 observation, what would you change in your analysis?

(d)  Assuming p(ˆ) stays the same, how large must be the sample size for CI0.99 (p) be less than 2% wide?

6.  [Hypothesis  testing, p-value] Let a random sample of 1000 college applications is given.   In this sample, 534 applications were submitted online, while the remaining ones were submitted by post. It is assumed that a half of applications are submitted online.

(a) Using p-value, test this hypothesis (H0  :  p = 0.5) against the two-sided alternative (HA  :  p 0.5) at 5% and 1% significance level.

(b) Using p-value, test the same null against a one-sided alternative (HA  :  p > 0.5) at 5% and 1% significance level.

7.  [Inference with two proportions] Let the samples with college and high school graduates are given with n1  =  120 and n2   = 200 observations, respectively.   According to the data, the number of unemployed individuals in the sample with college graduates is 25, while the number of uneployed among high school graduates is 48.

(a)  Findp(ˆ)1  andp(ˆ)2 – proportions of unemployed individuals for both samples.  Check the “success-failure” condition for each sample.

(b)  Construct 90%, 95% and 99% confidence intervals for d = p1  − p2 .  What can you conclude from this evidence?

(c)  Test hypothesis H0   :   p1   =  p2   against  HA   :   p1   < p2 at 5% significance level (Hint: use p(ˆ)pool = n1(25)n2(48) to construct SEd(ˆ) under the null).

(d) Assuming p(ˆ)1 and p(ˆ)2 remain the same, but n1  and n2  are both proportionally increased to γ · n1 and γ · n2 , respectively (with γ > 1), for what values of γ the null hypothesis is rejected at 5% significance level?

8.  [R  and  R-studio]  For  the  current  exercise you work with the UK  Smoking  Data that can be downloaded from the OpenIntro webpage (here).  Scroll down and download the CSV-file with the

smoking data. In the R-studio, the data can be simply loaded from this file by using command

data <- read.csv("C:\\path_to_the_file\\smoking.csv")

(a)  Get the sample size (n) and construct sample proportion of people who smoke (p(ˆ))

hint: use the following commands

n <- dim(data)[1] [number of rows (observations)]

p_hat <- sum(data$smoke == ’Yes’) / n [divide the number of individuals who smoke by the sample size]

[“<-” is the assignment operator]

(b)  Compute SEp(ˆ) and construct 99% confidence interval for population proportion of people who smoke, p.

(c)  Consider two sub-samples – those individuals who married and others, and denote the sizes of the corresponding sub-samples as n1  and n2 , respectively.  Get n1  and n2 , and then construct

the corresponding sample proportions (p(ˆ)1  andp(ˆ)2 ).

hint: use the following commands

n1 <- sum(data$marital_status == ’Married’)

n2 <- sum(data$marital_status != ’Married’) [or simply n2 <- n - n1]

p1_hat <- sum(data$smoke == ’Yes’ & data$marital_status == ’Married’) / n1 p2_hat <- sum(data$smoke == ’Yes’ & data$marital_status != ’Married’) / n2 d_hat <- p1_hat - p2_hat

(d)  Test the null hypothesis that marital status does not affect proportion of smoking (H0  : p1  = p2 or, equivalently, H0  : d = 0) against the alternative that married people tend to smoke less on average (HA  : p1  < p2 or, equivalently, HA : d < 0) at 1% significance level.