Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Assessed Midterm Coursework

Submit online via QMplus before 23:59 London Time on Monday 13th March 2023

ECOM193 Statistical Machine Learning in Finance

This Assignment carries a maximum of 100 marks. A 20% weighting will be applied to your overall ECOM193 module score for this Assignment.

You are required to submit a typed document in Word or PDF format containing written analysis together with supporting tables and graphics. It is not necessary to show the computer code you  use to undertake your analyses but if you think this will be helpful, you may include a limited  amount of annotated output in a clearly labelled appendix.

The Assignment is a piece of data analysis detailed on the next page. Ideally, your analyses of the data should be in R. However, you are allowed to use any suitable scientific software, e.g. Python or Matlab, provided the output produced tackles the problem appropriately.

You are not restricted in the type of research you undertake to help you complete the Assignment. However, it must be your own work and answers are required in your own words.

Index Tracking

The NDX100.csv datafile contains daily data for roughly two and a half years to the 18-Jun-21 for the Nasdaq 100 index (NDX column 2), three Exchange Traded Funds (ETFs columns 3–5) based on the NDX (QQQ, QLD, PSQ) and the top 21 constituents (columns 6–26) of the NDX by weight in the index at the time. Aside from the dates and NDX (columns 1 and 2), everything is  given in USD.

1.  Undertake a suitable exploratory data analysis of the three ETFs in relation to NDX. Information about the funds themselves can easily be found online or alternatively via Bloomberg.  Show that the ETFs do what is expected of them by undertaking suitable data analyses.  (You may find the supplied tracking error note Sal13.pdf aids your general understanding.) [30 marks]

2.  Now take a look at the 21 individual stock constituents from the NDX. How do they compare? Do the stocks themselves form any obvious groups? Might any sort of dimensionality reduction be possible? [35 marks]

3.  To what extent can the NDX be replicated by the 21 supplied stocks and/or a derived data structure of reduced dimension? What is your assessment of your chosen index replication  method (or methods) over time? [35 marks]