Higher Diploma in Financial Services Analytics


Business Data Analysis

Project (50%)

Semester 3 2022/2023


You are required to carry out two separate analyses on publicly-available datasets of your choice:

• The first analysis should involve building and evaluating a multiple regression or logistic regression model.

• The second analysis should involve building and evaluating a time series model.

A non-exhaustive list of potential sources of data is provided on Moodle.  You may choose a dataset for a source not included in this list.  However, the dataset must be publicly available.

It is strongly advised that you discuss the suitability of your chosen dataset in the context of your objectives with your lecturer prior to embarking on any analysis.

Project Report

You should document your analysis in a project report.  This report should contain the following:

For the multiple linear regression / logistic regression model:

• A description of the sources of the datasets

• A clear statement of the objectives of the analysis including the null hypothesis and the alternative hypothesis;

•  Descriptive statistics for each variable in the dataset;

• A description of the number of independent/dependent variables in the proposed analysis and a description of their levels of measurement;

• A report on the results of preliminary tests to check the assumptions of the technique are not being violated;

• The results of an appropriate analysis performed using R, Python or any other software tool of your choice;

•  Regression diagnostics appropriate to the analysis being carried out;

• A formal report on the results of the analysis; and

• A clear statement of the decisions and conclusions you have come to as a result of the analysis

For the time series model:

• A description of the sources and contents of the datasets;

• Descriptive statistics for the variables of interest;

• A clear statement of the objectives of the analysis, i.e which variable are you trying to predict;

• The results of an appropriate analysis performed using Python or any other suitable software tool of your choice; and

• A report on the results showing comparison between at least three different models.

All relevant output and analysis should be included in the report. Any additional material such as Python code must be uploaded as a code artefact.

Note that there is no recommended word count for the report. Instead the emphasis is on the ability to locate suitable datasets, formulate appropriate hypotheses, conduct relevant statistical tests, to report on the results of the tests and to draw conclusions based on your findings. As such, word counts will vary depending on the data used, and interpretation of findings.

Marking Breakdown

50% of the marks will be awarded for the multiple regression / logistic regression model, broken down as follows:

•  Objectives, null and alternative hypotheses (5%)

•  Description of the sources and contents of the datasets (5%)

•  Descriptive statistics / levels of measurement (5%)

• Analysis (10%)

•  Diagnostics (10%)

• A formal report of the results of the analysis (10%)

•  Decision and conclusion (5%)

50% of the marks will be awarded for the time series model, broken down as follows:

•  Objectives, description of data sources (5%)

• Descriptive statistics (5%)

• Analysis (20% - 10% per model)

• A formal report of the results of the analysis (20%)


Your report (in PDF format only) should be uploaded to the Turnitin link on Moodle by the date shown against the upload link on the Moodle page.

You are also required submit all code used in your analysis as a single zip file. This may be used to verify the results presented in your report.

Failure to submit either the report or the code artefact will result in you being marked as NP (not present) for the assessment.

Academic Integrity

Your analysis and report should be your own work and should not be based upon any analyses or reports found on the Internet.

Any written work created by others must be properly cited and should be paraphrased or summarised where possible, otherwise it should be included in quotes.

Figures not created by you should include an acknowledgement detailing the name(s) of the creator(s).

Code found on the Internet should not be claimed as your own, but instead a comment should be included in the source code indicating where you obtained it.

The use of large language models such as ChatGPT is strictly prohibited.

Students are strongly advised to familiarise themselves with the Guide to Academic Integrity produced by the NCI Library1.

Note: All submissions will be electronically screened for evidence of academic misconduct, e.g. plagiarism, collusion and misrepresentation. Any submission showing evidence of such misconduct will be referred to the college’s academic misconduct committee for disciplinary action.

Your lecturer reserves the right to request a one-to-one viva presentation with any student should this be deemed necessary for any reason.

This content is protected and may not be shared, uploaded or distributed.

Under no circumstances may you upload this assessment or your submission to any internet site, including but not limited to Chegg or CourseHero.