Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit


G53MLE-E1

Question 1: Foundations of Machine Learning


 

(a)     What is the ultimate goal of supervised Machine Learning in terms of prediction accuracy, and how is it different from Pattern Recognition?

(6 marks)

(b)    This question is on linear regression.

 (i)  Give the formula for a multivariate linear regressor with a 3rd degree polynomial and 2 variables, assuming that there are no relations between the two variables [2 marks].

(ii) See the data in the table below of paired values x1 and x2. The goal is predicting x2 from x1. Name the type of linear regressor that should be used here, and give its general formula (you don’t need to find the actual values of any intrinsic parameters) [2 marks].

(iii) Give the formula for the generalised linear basis function [2 marks].

(iv) Explain why one would want to introduce non-linear basis functions in linear classifiers [2 marks]?

x1

x2

0

4

5

59

10

214

15

469

20

824

25

1279

30

1834

(8 marks)

(c)     Consider a Linear Discriminant Analysis classifier with two parameters to learn a weight for – one weight per parameter. Two different ways of learning the parameters of this algorithm

are brute force search and gradient descent. Describe how each works by

(i)  Giving pseudocode and the formula for the update of gradient descent [3 marks]

(ii) Giving pseudocode for brute force search, clearly addressing the range of values tested [3 marks].

(iii) Explain for both gradient descent and brute force search what the biggest drawback is in using them [2 marks].



(iv)Include a sketch illustrating how gradient descent works for a quadratic error function. Include a visualisation of the termination criterion [4 marks].

(12 marks)

(d)     In your own words, explain the following Machine Learning concepts and terminologies, use specific examples and give as much detail as appropriate.

(i)  I: Feature vector and data points [4 marks] 

(ii) II: ross validation and over fitting [4 marks]

(8 marks)

 



Question 2: Kernel Methods and Support Vector Machines [overall 33 marks]

(a)     What is the main practical drawback of deploying a Machine Learning system with Kernel Methods, and how does Support Vector Machines overcome this problem?

(8 marks)

(b)     Give  the  definition  of  the ‘Kernel  Trick’,  and  explain  how  it  overcomes  the  need  tocalculate feature mappings of all data points. Provide a formula illustrating this.

(6 marks)

(c)     Give the formula for a Gaussian Radial Basis Frequency (RBF) kernel.

(4 marks)

(d)     Explain why the RBF kernel maps data to an infinitely dimensional space, and why this doesn’t matter in terms of computation time and storage requirements.


(6 marks)

(e)     This question is on max margin classification.

(i)  Draw a set of 2-dimensional linearly separable data points with binary labels, and clearly indicate the decision boundary found by a maximum-margin classifier, and at least one decision boundary that does not obtain a maximum margin but still represents a perfect classifier [6 marks].


(ii) Explain how it’s possible to obtain such a non-maximum margin solution, using the formal definition of linear separability and the concept of a loss function [3 marks].


(9 marks)