CDS503 – Machine Learning 2019
Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit
Second Semester Examination
2018/2019 Academic Session
CDS503 – Machine Learning
1. (a) Assume you are the owner of a company which sells music (e.g., songs, concert recordings, CD) online.
Anggapkan anda ialah pemilik sebuah syarikat yang menjual muzik (contoh: lagu, rakaman konsert, CD) dalam talian.
(i) Formulate a supervised machine learning problem to help to make your business more successful.
Rumuskan masalah pembelajaran mesin berselia untuk membantu menjadikan perniagaan anda lebih berjaya.
(ii) Formulate an unsupervised machine learning problem to help make
your business more successful.
Rumuskan masalah pembelajaran mesin tidak berselia untuk membantu menjadikan perniagaan anda lebih berjaya.
(4/100)
(b) Consider learning a target function of the form y = f(x) with 3 discrete
values (label space) defined over the two-dimensional plane using the following learning algorithms:
i. Naïve Bayes
ii. K-nearest neighbour (KNN)
iii. Support vector machine (SVM)
Briefly explain (in two or three sentences) how each learning algorithm works in classification and whether it is categorized as a parametric or non-parametric learning algorithm.
Pertimbangkan pembelajaran fungsi sasaran bentuk y = f (x) dengan 3 nilai diskret (ruang label) yang ditakrifkan pada satah dua dimensi dengan menggunakan algoritma pembelajaran berikut:
i. Bayes naif
ii. Kjiran terdekat (KNN)
iii. Mesin vektor sokongan (SVM)
Terangkan secara ringkas (dalam dua atau tiga ayat) bagaimana setiap algoritma pembelajaran berfungsi dalam klasifikasi dan sama ada ia dikategorikan sebagai algoritma pembelajaran berparameter atau bukan berparameter.
(10/100)
(c) Assume we have a set of data from patients who have visited the USM hospital during the year 2018. A set of features (e.g., temperature, height) have been also extracted for each patient. Our goal is to decide whether a new visiting patient has any of diabetes, heart disease, or Alzheimer (a patient can have one or more of these diseases).
Anggapkan kita mempunyai satu set data dari pesakit yang telah melawat hospital USM pada tahun 2018. Satu set ciri (contohnya, suhu, ketinggian)juga telah diekstrak untuk setiap pesakit. Matlamat kita adalah untuk memutuskan sama ada seseorang pesakit baru mempunyai diabetes, penyakitjantung atau Alzheimer (pesakit boleh mempunyai satu atau lebih daripada satu penyakit tersebut).
(i) We have decided to use a support vector machine (SVM) to solve this problem. We have two choices: 1) train a separate binary classifier for each disease (i.e., one binary classifier to identify diabetes, one binary classifier to identify heart disease, and one binary classifier to identify Alzheimer) or 2) train one single multi- class classifier to distinguish the three diseases. Which method is more suitable? Justify your answer.
Kita telah memutuskan untuk menggunakan mesin vektor sokongan (SVM) untuk menyelesaikan masalah ini. Kita mempunyai dua pilihan: 1) melatih pengelas perduaan yang berasingan untuk setiap penyakit (iaitu, satu pengelas perduaan untuk mengenal pasti diabetes, satu pengelas perduaan untuk mengenal pasti penyakit jantung, dan satu pengelas perduaan untuk mengenal pasti Alzheimer) atau 2) melatih satu pengelas berbilang kelas untuk membezakan tiga penyakit tersebut. Kaedah manakah yang lebih sesuai? Jelaskan jawapan anda.
(ii) Some patient features are expensive to collect (e.g., brain scans)
whereas others are not (e.g., temperature). Therefore, we have decided to first ask our classification algorithm to predict whether a patient has a disease, and if the classifier is 80% confident that the patient has a disease, then we will do additional examinations to collect additional patient features. In this case, which classification method do you recommend: k-nearest neighbour, decision tree or naïve Bayes? Justify your answer in one or two sentences.
Sesetengah ciri-ciri pesakit memakan belanja yang banyak untuk dikumpul (contoh: imbasan otak) manakala yang lain tidak (contoh: suhu). Oleh itu, kita telah membuat keputusan untuk meminta algoritma klasifikasi kita untuk meramalkan sama ada pesakit mempunyai penyakit terlebih dahulu, dan jika pengelas adalah 80% yakin bahawa pesakit mempunyai penyakit, maka kita akan melakukan pemeriksaan tambahan untuk mengumpulkan ciri-ciri tambahan daripada pesakit. Dalam kes ini, apa kaedah klasifikasi yang anda cadangkan: k jiran terdekat, pepohon keputusan atau Bayes naif? Jelaskan jawapan anda dalam satu atau dua ayat.
(6/100)
2. (a) Consider the following set of training examples. What is the information gain of A1 and A2 relative to these training examples? Show step-by-step including the intermediate results how you compute the information gain.
(Note that we define 0 log2 0 = 0)
Pertimbangkan satu set contoh latihan berikut. Apakah keuntungan maklumat A1 dan A2 berdasarkan set contoh latihan ini? Tunjukkan langkah demi langkah termasuk keputusan pertengahan bagaimana anda mengira keuntungan maklumat.
(Perhatikan bahawa kami mentakrifkan 0 log2 0 = 0)
Instance |
Class |
A1 |
A2 |
1 |
+ |
T |
T |
2 |
+ |
T |
T |
3 |
- |
F |
F |
4 |
+ |
T |
F |
5 |
- |
F |
T |
6 |
- |
F |
T |
(15/100)
(b) Based on the information gain of A1 and A2 you have computed in 2(a),
which attribute will be used to split the decision tree? Justify your answer.
Berdasarkan keuntungan maklumat A1 dan A2 yang anda telah kira dalam 2(a), apakah ciri yang akan digunakan untuk membahagikan pepohon keputusan? Jelaskan jawapan anda.
(5/100)
(c) Draw the decision tree (full) for the training dataset shown in 2(a) using the information gain criteria.
Lukis pepohon keputusan (penuh) untuk set data latihan yang ditunjukkan dalam 2(a) menggunakan kriteria keuntungan maklumat.
(5/100)
(d) Supposed we have the following validation set.
Andaikan kita mempunyai set pengesahan yang berikut.
Instance |
Class |
A1 |
A2 |
1 |
+ |
F |
T |
2 |
+ |
T |
F |
3 |
- |
F |
F |
4 |
+ |
T |
F |
5 |
- |
T |
T |
(i) What will be the training set error and validation set error of the decision tree in 2(c)? Express your answer as the number of examples that would be misclassified.
Apakah kesilapan set latihan dan kesilapan set pengesahan pepohon keputusan dalam 2(c)? Nyatakan jawapan anda sebagai bilangan contoh yang akan dikelaskan salah.
(ii) What would be the accuracy when the decision tree model in 2(c) is
evaluated on this validation set? Show your confusion matrix and how you compute accuracy.
Apakah ketepatan apabila model pepohon keputusan dalam 2(c) dinilai pada set pengesahan ini? Tunjukkan matriks kekeliruan anda dan bagaimana anda mengira ketepatan.
(5/100)
3. (a) Supposed you have implemented a linear regression to predict housing prices. However, when you test your hypothesis on a new set of houses, you find that it makes unacceptably large errors in its predictions. What should you try next to improve the performance of the learning algorithm? Explain the rationale of the strategy you picked in terms of variance and bias.
Andaikan anda telah melaksanakan regresi linear untuk meramalkan harga rumah. Bagaimanapun, apabila anda menguji hipotesis anda pada satu set rumah baru, anda mendapati bahawa ia membuat kesilapan yang tidak dapat diterima dalam ramalannya. Apakah yang perlu anda cuba untuk memperbaiki prestasi algoritma pembelajaran? Jelaskan rasional strategi yang anda pilih dari segi varians dan bias.
(5/100)
(b) Ensembles use multiple classifiers to make decisions.
Kaedah ensembel menggunakan beberapa pengelas untuk membuat keputusan.
(i) Identify what properties should a set of base classifiers have to form a good ensemble.
Kenal pasti apakah ciri-ciri yang sepatutnya ada pada sekumpulan pengelas asas untuk membentuk ensembel yang baik.
(ii) Ensembles have been quite successful in generating supervised
learning systems which exhibit very high accuracies. Explain why it is better to use a team of diverse base classifiers rather than a single classification algorithm.
Kaedah ensembel telah berjaya menghasilkan sistem pembelajaran berselia yang memperlihatkan ketepatan yang sangat tinggi. Jelaskan mengapa kaedah menggunakan sekumpulan pengelas asas yang pelbagai adalah lebih baik daripada algoritma pengelas tunggal.
(iii) Describe the key idea of boosting in general. Provide two (2)
examples of boosting algorithms.
Terangkan idea utama penggalakan secara umum. Berikan dua (2) contoh algoritma penggalakan.
(10/100)
(c) The algorithm that we use to do association rule mining is the Apriori algorithm.
Algoritma yang kita gunakan untuk perlombongan peraturan sekutuan ialah algoritma Apriori.
(i) The Apriori algorithm is efficient because it relies on and exploits the Apriori principle. Define the Apriori principle.
Algoritma Apriori adalah cekap kerana ia bergantung pada dan mengeksploitasi prinsip Apriori. Takrifkan prinsip Apriori.
(ii) We generally will be more interested in association rules with high
confidence. However, often we will not be interested in association rules that have a confidence of 100%. Explain why.
Then specifically explain why association rules with 99% confidence may be interesting. What might they indicate?
Secara umumnya, kita akan lebih berminat dengan peraturan sekutuan dengan keyakinan yang tinggi. Walau bagaimanapun, kita biasanya tidak akan berminat dengan peraturan sekutuan yang mempunyai keyakinan 100%. Terangkan mengapa.
Kemudianjelaskan mengapa peraturan sekutuan dengan keyakinan 99% mungkin menarik. Apa yang mungkin ditunjukkan oleh peraturan ini?
(10/100)
4. (a) Discuss the basic difference between the agglomerative and divisive hierarchical clustering algorithms.
Bincangkan perbezaan asas antara algoritma pengelompokan hierarki aglomeratif dan pecah belah.
(5/100)
(b) Use complete linkage agglomerative clustering (hierarchical clustering) to
group the data described by the following distance matrix. Show the step- by-step computation using the distance matrix and draw the final dendrogram.
Gunakan pengelompokan aglomeratif pautan lengkap (pengelompokan hierarki) untuk mengelompokkan data yang diterangkan oleh matriks jarak berikut. Tunjukkan pengiraan langkah demi langkah dengan menggunakan matriks jarak dan lukis dendrogram yang muktamad.
Distance matrix
Matriks Jarak
|
A |
B |
C |
D |
E |
A |
0 |
|
|
|
|
B |
9 |
0 |
|
|
|
C |
3 |
7 |
0 |
|
|
D |
6 |
5 |
9 |
0 |
|
E |
11 |
10 |
2 |
8 |
0 |
(20/100)
2022-08-08