Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit


EEE3032 Computer Vision and Pattern Recognition

 

1.

(a)   The general equation for a parametric cubic curve is given by P (s) = GMQ(s), where G is the geometry matrix comprising 4 column vectors defining the shape of the curve; M is a 4 × 4 blending matrix; and Q(s) = [ s3    s2    s   1 ]T .

(i)    Write down the format of G for the Hermite cubic curve family, and use it to explain how you could construct a piecewise cubic curve with C ←  continuity.

(ii)   Derive the blending matrix M  for the Hermite cubic curve family.   You should perform all steps of the derivation but do not need to calculate M .

(b)   How does the fundamental matrix mathematically relate corresponding points in a pair of images under the epipolar constraint?

(c)   Outline how the fundamental matrix encodes both the intrinsic and the extrinsic parameters within the epipolar geometry. You do not need to derive this from first principles but should show the mathematical relationship in matrix notation.

(d)   Given a set of SIFT descriptors for keypoints in each image, describe how you would create point correspondences between those images.

(e)   Given a set of 8 pairs of corresponding points P and  P' between  two  pho-tographs taken from different viewpoints, such that  and  derive a linear system that could be solved to find the fundamental matrix relating the two camera viewpoints.

(f)    Given a set of 200 pairs of corresponding points (most, but not all, of which are correct) explain how can RANSAC be used in combination with your answer to      part (e) to robustly estimate the fundamental matrix.


2.

(a)   What is the convolution theorem and why is it useful when performing filtering operations on large images?

(b)   Recommend convolution kernel(s) to implement the following filtering operations. Alongside each answer, explain how the frequencies in the image signal are changed under the filtering operation:

(i)    Detecting edges in an image

(ii)   Reducing speckle noise in an image

(iii)  Sharpening detail in an image

(c)   Construct a diagram of, and write down the equation for, an infinitely long 2D line, perpendicular to a ray extended from the origin of length r in direction θ. Suggest how you could evaluate all such possible lines passing through a 2D point (x, y).

(d)   Describe the operation of the Hough transform, and how it may be used to detect such infinitely long lines in an edge detected image in a way that is robust to breaks     and occlusions in the edge.

(e)   Derive the equation for the intersection of a pair of rays p(s) = o ← + sd←  and q(t) = oⅠ + tdⅠ  in 3D.

 

3. You are writing a computer vision system for pedestrian detection td b uSb? in a self-driving car.

(a)   You decide to fit a contour around the pedestrian using a snake (active contour).

Write down the snake energy function and describe the influence that each term has over the final shape of the contour.

(b)   Briefly describe the optimization process by which the snake is fitted to the image.

(c)   Suggest how you could build a statistical model of pedestrian shapes and apply it to improve robustness of the snake fitting.

(d)   Recommend and describe an appropriate shape descriptor to discriminate between

pedestrians and other clutter in the scene that your snake may have fitted to.

(e)   Explain how you could address pedestrian recognition as a supervised classification task.  Describe a suitable classifier using full mathematical detail and explain how

your system would be trained, and how the overall performance of the system could be evaluated.

 

4.

(a)   The Harris corner detector (HCD) is often used to detect image keypoints.  The auto-correlation function used in the HCD is written as:

where I(x, y) is the image, and subscript i indexes the W pixels in a window local to (x, y) . Using this expression as a starting point, derive the 2 × 2 covariance matrix used as the basis for the HCD.

(b)   Describe how the SIFT descriptor can be used to describe texture local to a keypoint e.g. detected by the HCD.

(c)   Using a diagram explain how multiple SIFT features within an image may be aggre- gated into a global image descriptor useful for object recognition or visual search.

(d)   In the context of object recognition, explain how a deep learning approach differs from a shallow learning approach.

(e)   Draw a labelled diagram of the AlexNet network, stating which layers are used where.   Explain with the aid of your diagram, which kinds of visual feature are learned at which stages of the network.

(f)    Rectified Linear Unit (ReLu) is one layer commonly found in a CNN. What operation

does it perform and why is this important to training a deep neural network?