Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit


G53MLE-E1

SCHOOL OF COMPUTER SCIENCE

A LEVEL 3 MODULE, AUTUMN SEMESTER 2017-2018

MACHINE LEARNING (G53MLE)


Question 1: Foundations of Machine Learning [overall 34 marks]

(a)     What is the ultimate goal of supervised Machine Learning in terms of prediction accuracy, and

(6 marks)

(b)    This question is on linear regression.

(ii) See the data in the table below of paired values x1 and x2. The goal is predicting x2

parameters) [2 marks].

(iii) Give the formula for the generalised linear basis function [2 marks].

(iv) Explain why one would want to introduce non-linear basis functions in linear

x1

x2

0

4

5

59

10

214

15

469

20

824

25

1279

30

1834

(8 marks)

(c)     Consider a Linear Discriminant Analysis classifier with two parameters to learn a weight for – one weight per parameter. Two different ways of learning the parameters of this algorithm

are brute force search and gradient descent. Describe how each works by:

(ii) Giving pseudocode for brute force search, clearly addressing the range of values

(iii) Explain for both gradient descent and brute force search what the biggest drawback

(iv)Include a sketch illustrating how gradient descent works for a quadratic error

(12 marks)

(d)     In your own words, explain the following Machine Learning concepts and terminologies, use

(i)  I: Feature vector and data points [4 marks] (ii) II: ross validation and over fitting [4 marks]

(8 marks)

Question 2: Kernel Methods and Support Vector Machines [overall 33 marks]

(a)     What is the main practical drawback of deploying a Machine Learning system with Kernel

(8 marks)

(b)     Give  the  definition  of  the ‘Kernel  Trick’,  and  explain  how  it  overcomes  the  need  to

(6 marks)

(c)     Give the formula for a Gaussian Radial Basis Frequency (RBF) kernel.

(4 marks)

(d)     Explain why the RBF kernel maps data to an infinitely dimensional space, and why this

(6 marks)

(e)     This question is on max margin classification.

(ii) Explain how it’s possible to obtain such a non-maximum margin solution, using the

(9 marks)

 

Question 3: Artificial Neural Networks and Deep Learning [overall 33 marks]

Consider a simple Artificial Neural Network, drawn below, that predicts two regression variables y1  and y2 from a single input variable x (i.e. one-dimensional input data). It has two hidden units with activation function: f(a) = a2 +2a . The numbers on the edges are the initial weights.

(a)     Draw a diagram for the neuron  z , clearly showing all inputs and outputs. Name all

x

y1

y2

2

4

4

4

16

8

Given the dataset consisting of two data points listed in the table above, compute using stochastic

(b)    The gradients and weight updates for each weight for data point 1 in epoch 1

(c)     The gradients and weight updates for each weight for data point 2 in epoch 1

(d)     Given a large set of images, (1) Draw the architecture of a Deep Learning network using

(8 marks)

(e)     Consider a CNN that applies a single channel convolutional layer with a 5x5 kernel to a

(4 marks)