data mining: 2. proses data mining -...
TRANSCRIPT
Data Mining:2. Proses Data Mining
Data Mining:2. Proses Data Mining
ABMABM
1
2. Proses Data Mining
1. Pengantar Data Mining
Course Outline
6. Algoritma Asosiasi
5. Algoritma Klastering
4. Algoritma Klasifikasi
3. Persiapan Data
8. Text Mining
7. Algoritma Estimasi dan Forecasting
6. Algoritma Asosiasi
2
1. Sebutkan 5 peran utama data mining!2. Jelaskan perbedaan estimasi dan prediksi!3. Jelaskan perbedaan prediksi dan klasifikasi!4. Jelaskan perbedaan klasifikasi dan klastering!5. Jelaskan perbedaan klastering dan association!6. Jelaskan perbedaan estimasi dan klasifikasi!7. Jelaskan perbedaan estimasi dan klastering!8. Jelaskan perbedaan supervised dan unsupervised
learning!9. Sebutkan tahapan utama proses data mining!
Recap: Latihan
1. Sebutkan 5 peran utama data mining!2. Jelaskan perbedaan estimasi dan prediksi!3. Jelaskan perbedaan prediksi dan klasifikasi!4. Jelaskan perbedaan klasifikasi dan klastering!5. Jelaskan perbedaan klastering dan association!6. Jelaskan perbedaan estimasi dan klasifikasi!7. Jelaskan perbedaan estimasi dan klastering!8. Jelaskan perbedaan supervised dan unsupervised
learning!9. Sebutkan tahapan utama proses data mining!
1. Sebutkan 5 peran utama data mining!2. Jelaskan perbedaan estimasi dan prediksi!3. Jelaskan perbedaan prediksi dan klasifikasi!4. Jelaskan perbedaan klasifikasi dan klastering!5. Jelaskan perbedaan klastering dan association!6. Jelaskan perbedaan estimasi dan klasifikasi!7. Jelaskan perbedaan estimasi dan klastering!8. Jelaskan perbedaan supervised dan unsupervised
learning!9. Sebutkan tahapan utama proses data mining!
3
Recap: Peran Utama Data Mining
1. Estimasi
2. Forecasting5. Asosiasi
4
3. Klasifikasi4. Klastering
2. Proses Data Mining2.1 Proses Data Mining2.2 Tool Aplikasi Data Mining2.3 Penerapan Proses Data Mining (Dataset – Model)2.4 Evaluasi dan Validasi terhadap Model yang Terbentuk2.5 Proses Standard pada Data Mining (CRISP-DM)
2.1 Proses Data Mining2.2 Tool Aplikasi Data Mining2.3 Penerapan Proses Data Mining (Dataset – Model)2.4 Evaluasi dan Validasi terhadap Model yang Terbentuk2.5 Proses Standard pada Data Mining (CRISP-DM)
5
2.1 Proses Data Mining
6
Proses Data Mining
1. HimpunanData
(Pemahaman danPengolahan Data)
2. MetodeData Mining
(Pilih MetodeSesuai Karakter Data)
3. Pengetahuan
(Pola/Model/Rumus/Tree/Rule/Cluster)
4. Evaluation
(Akurasi, AUC,RMSE, Lift Ratio,…)
7
DATA PRE-PROCESSINGData Cleaning
Data IntegrationData Reduction
Data Transformation
EstimationPrediction
ClassificationClustering
Association
• Atribut adalah faktor atau parameter yang menyebabkanclass/label/target terjadi
• Jenis dataset ada dua: Private dan Public• Private Dataset: data set dapat diambil dari organisasi
yang kita jadikan obyek penelitian• Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
• Public Dataset: data set dapat diambil dari repositoripubik yang disepakati oleh para peneliti data mining
• UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)• ACM KDD Cup (http://www.sigkdd.org/kddcup/)• PredictionIO (http://docs.prediction.io/datacollection/sample/)
• Trend penelitian data mining saat ini adalah mengujimetode yang dikembangkan oleh peneliti dengan publicdataset, sehingga penelitian dapat bersifat: comparable,repeatable dan verifiable
1. Himpunan Data (Dataset)• Atribut adalah faktor atau parameter yang menyebabkan
class/label/target terjadi• Jenis dataset ada dua: Private dan Public• Private Dataset: data set dapat diambil dari organisasi
yang kita jadikan obyek penelitian• Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
• Public Dataset: data set dapat diambil dari repositoripubik yang disepakati oleh para peneliti data mining
• UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)• ACM KDD Cup (http://www.sigkdd.org/kddcup/)• PredictionIO (http://docs.prediction.io/datacollection/sample/)
• Trend penelitian data mining saat ini adalah mengujimetode yang dikembangkan oleh peneliti dengan publicdataset, sehingga penelitian dapat bersifat: comparable,repeatable dan verifiable
• Atribut adalah faktor atau parameter yang menyebabkanclass/label/target terjadi
• Jenis dataset ada dua: Private dan Public• Private Dataset: data set dapat diambil dari organisasi
yang kita jadikan obyek penelitian• Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
• Public Dataset: data set dapat diambil dari repositoripubik yang disepakati oleh para peneliti data mining
• UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)• ACM KDD Cup (http://www.sigkdd.org/kddcup/)• PredictionIO (http://docs.prediction.io/datacollection/sample/)
• Trend penelitian data mining saat ini adalah mengujimetode yang dikembangkan oleh peneliti dengan publicdataset, sehingga penelitian dapat bersifat: comparable,repeatable dan verifiable
8
Dataset (Himpunan Data)
Class/Label/TargetAttribute/Feature/Dimension
Record/Object/Sample/Tuple
Record/Object/Sample/Tuple
9
Nominal
Numerik
1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant
Analysis, Logistic Regression, etc
4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
2. Metode Data Mining (DM)
1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant
Analysis, Logistic Regression, etc
4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant
Analysis, Logistic Regression, etc
4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
10
1. Formula/Function (Rumus atau Fungsi Regresi)• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
2. Decision Tree (Pohon Keputusan)
3. Tingkat Korelasi
4. Rule (Aturan)• IF ips3=2.8 THEN lulustepatwaktu
5. Cluster (Klaster)
3. Pengetahuan (Pola/Model)
1. Formula/Function (Rumus atau Fungsi Regresi)• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
2. Decision Tree (Pohon Keputusan)
3. Tingkat Korelasi
4. Rule (Aturan)• IF ips3=2.8 THEN lulustepatwaktu
5. Cluster (Klaster)
1. Formula/Function (Rumus atau Fungsi Regresi)• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
2. Decision Tree (Pohon Keputusan)
3. Tingkat Korelasi
4. Rule (Aturan)• IF ips3=2.8 THEN lulustepatwaktu
5. Cluster (Klaster)
11
1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)
4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,
Fowlkes–Mallows index, Confusion matrix
5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)
4. Evaluasi (Akurasi, Error, etc)
1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)
4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,
Fowlkes–Mallows index, Confusion matrix
5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)
1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)
4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,
Fowlkes–Mallows index, Confusion matrix
5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)
12
1. 0.90 - 1.00 = excellent classification2. 0.80 - 0.90 = good classification3. 0.70 - 0.80 = fair classification4. 0.60 - 0.70 = poor classification5. 0.50 - 0.60 = failure
(Gorunescu, 2011)
Guide for Classifying the AUC
1. 0.90 - 1.00 = excellent classification2. 0.80 - 0.90 = good classification3. 0.70 - 0.80 = fair classification4. 0.60 - 0.70 = poor classification5. 0.50 - 0.60 = failure
(Gorunescu, 2011)
1. 0.90 - 1.00 = excellent classification2. 0.80 - 0.90 = good classification3. 0.70 - 0.80 = fair classification4. 0.60 - 0.70 = poor classification5. 0.50 - 0.60 = failure
(Gorunescu, 2011)
13
1. Akurasi• Ukuran dari seberapa baik model mengkorelasikan antara hasil
dengan atribut dalam data yang telah disediakan• Terdapat berbagai model akurasi, tetapi semua model akurasi
tergantung pada data yang digunakan2. Kehandalan
• Ukuran di mana model data mining diterapkan pada datasetyang berbeda
• Model data mining dapat diandalkan jika menghasilkan polaumum yang sama terlepas dari data testing yang disediakan
3. Kegunaan• Mencakup berbagai metrik yang mengukur apakah model
tersebut memberikan informasi yang berguna
Kriteria Evaluasi dan Validasi Model1. Akurasi
• Ukuran dari seberapa baik model mengkorelasikan antara hasildengan atribut dalam data yang telah disediakan
• Terdapat berbagai model akurasi, tetapi semua model akurasitergantung pada data yang digunakan
2. Kehandalan• Ukuran di mana model data mining diterapkan pada dataset
yang berbeda• Model data mining dapat diandalkan jika menghasilkan pola
umum yang sama terlepas dari data testing yang disediakan3. Kegunaan
• Mencakup berbagai metrik yang mengukur apakah modeltersebut memberikan informasi yang berguna
1. Akurasi• Ukuran dari seberapa baik model mengkorelasikan antara hasil
dengan atribut dalam data yang telah disediakan• Terdapat berbagai model akurasi, tetapi semua model akurasi
tergantung pada data yang digunakan2. Kehandalan
• Ukuran di mana model data mining diterapkan pada datasetyang berbeda
• Model data mining dapat diandalkan jika menghasilkan polaumum yang sama terlepas dari data testing yang disediakan
3. Kegunaan• Mencakup berbagai metrik yang mengukur apakah model
tersebut memberikan informasi yang berguna
14
Keseimbangan diantaranya ketiganya diperlukan karena belum tentu modelyang akurat adalah handal, dan yang handal atau akurat belum tentu berguna
2.2 Tool Aplikasi Data Mining
15
Magic Quadrant for AdvancedAnalytics Platform (Gartner, 2015)
16
Magic Quadrant for AdvancedAnalytics Platform (Gartner, 2016)
17
Big Data Analytics Solution 2015 (The Forrester Wave)
18
• Pengembangan dimulai pada 2001 olehRalf Klinkenberg, Ingo Mierswa, dan SimonFischer di Artificial Intelligence Unit dariUniversity of Dortmund, ditulis dalambahasa Java
• Open source berlisensi AGPL (GNU AfferoGeneral Public License) versi 3
• Meraih penghargaan sebagai softwaredata mining dan data analytics terbaik diberbagai lembaga kajian, termasuk IDC,Gartner, KDnuggets, dsb
Sejarah Rapidminer
• Pengembangan dimulai pada 2001 olehRalf Klinkenberg, Ingo Mierswa, dan SimonFischer di Artificial Intelligence Unit dariUniversity of Dortmund, ditulis dalambahasa Java
• Open source berlisensi AGPL (GNU AfferoGeneral Public License) versi 3
• Meraih penghargaan sebagai softwaredata mining dan data analytics terbaik diberbagai lembaga kajian, termasuk IDC,Gartner, KDnuggets, dsb
• Pengembangan dimulai pada 2001 olehRalf Klinkenberg, Ingo Mierswa, dan SimonFischer di Artificial Intelligence Unit dariUniversity of Dortmund, ditulis dalambahasa Java
• Open source berlisensi AGPL (GNU AfferoGeneral Public License) versi 3
• Meraih penghargaan sebagai softwaredata mining dan data analytics terbaik diberbagai lembaga kajian, termasuk IDC,Gartner, KDnuggets, dsb
19
• Menyediakan prosedur data mining danmachine learning termasuk: ETL (extraction,transformation, loading), data preprocessing,visualisasi, modelling dan evaluasi
• Proses data mining tersusun atas operator-operator yang nestable, dideskripsikandengan XML, dan dibuat dengan GUI
• Mengintegrasikan proyek data mining Wekadan statistika R
Fitur Rapidminer
• Menyediakan prosedur data mining danmachine learning termasuk: ETL (extraction,transformation, loading), data preprocessing,visualisasi, modelling dan evaluasi
• Proses data mining tersusun atas operator-operator yang nestable, dideskripsikandengan XML, dan dibuat dengan GUI
• Mengintegrasikan proyek data mining Wekadan statistika R
• Menyediakan prosedur data mining danmachine learning termasuk: ETL (extraction,transformation, loading), data preprocessing,visualisasi, modelling dan evaluasi
• Proses data mining tersusun atas operator-operator yang nestable, dideskripsikandengan XML, dan dibuat dengan GUI
• Mengintegrasikan proyek data mining Wekadan statistika R
20
1. Atribut: karakteristik atau fitur daridata yang menggambarkan sebuahproses atau situasi• ID, atribut biasa
2. Atribut target: atribut yang menjaditujuan untuk diisi oleh proses datamining• Label, cluster, weight
Atribut Pada Rapidminer
1. Atribut: karakteristik atau fitur daridata yang menggambarkan sebuahproses atau situasi• ID, atribut biasa
2. Atribut target: atribut yang menjaditujuan untuk diisi oleh proses datamining• Label, cluster, weight
1. Atribut: karakteristik atau fitur daridata yang menggambarkan sebuahproses atau situasi• ID, atribut biasa
2. Atribut target: atribut yang menjaditujuan untuk diisi oleh proses datamining• Label, cluster, weight
21
1. nominal: nilai secara kategori2. binominal: nominal dua nilai3. polynominal: nominal lebih dari dua nilai4. numeric: nilai numerik secara umum5. integer: bilangan bulat6. real: bilangan nyata7. text: teks bebas tanpa struktur8. date_time: tanggal dan waktu9. date: hanya tanggal10. time: hanya waktu
Tipe Nilai Atribut pada Rapidminer
1. nominal: nilai secara kategori2. binominal: nominal dua nilai3. polynominal: nominal lebih dari dua nilai4. numeric: nilai numerik secara umum5. integer: bilangan bulat6. real: bilangan nyata7. text: teks bebas tanpa struktur8. date_time: tanggal dan waktu9. date: hanya tanggal10. time: hanya waktu
1. nominal: nilai secara kategori2. binominal: nominal dua nilai3. polynominal: nominal lebih dari dua nilai4. numeric: nilai numerik secara umum5. integer: bilangan bulat6. real: bilangan nyata7. text: teks bebas tanpa struktur8. date_time: tanggal dan waktu9. date: hanya tanggal10. time: hanya waktu
22
• Data menyebutkan obyek-obyek dari sebuahkonsep
• Ditunjukkan sebagai baris dari tabel• Metadata menggambarkan karakteristik dari
konsep tersebut• Ditunjukkan sebagai kolom dari tabel
• Dukungan Format data• Oracle, IBM DB2, Microsoft SQL Server, MySQL,
PostgreSQL, Ingres, Excel, Access, SPSS, CSV filesdan berbagai format lain
Data dan Format Data
• Data menyebutkan obyek-obyek dari sebuahkonsep
• Ditunjukkan sebagai baris dari tabel• Metadata menggambarkan karakteristik dari
konsep tersebut• Ditunjukkan sebagai kolom dari tabel
• Dukungan Format data• Oracle, IBM DB2, Microsoft SQL Server, MySQL,
PostgreSQL, Ingres, Excel, Access, SPSS, CSV filesdan berbagai format lain
• Data menyebutkan obyek-obyek dari sebuahkonsep
• Ditunjukkan sebagai baris dari tabel• Metadata menggambarkan karakteristik dari
konsep tersebut• Ditunjukkan sebagai kolom dari tabel
• Dukungan Format data• Oracle, IBM DB2, Microsoft SQL Server, MySQL,
PostgreSQL, Ingres, Excel, Access, SPSS, CSV filesdan berbagai format lain
23
• Menjalankan RapidMiner untuk pertama kali, akanmenanyakan pembuatan repositori baru
• Repositori ini berfungsi sebagai lokasi penyimpananterpusat untuk data dan proses analisa kita
Repositori
• Menjalankan RapidMiner untuk pertama kali, akanmenanyakan pembuatan repositori baru
• Repositori ini berfungsi sebagai lokasi penyimpananterpusat untuk data dan proses analisa kita
24
Perspektif dan View
1. Perspektif Selamat Datang(Welcome perspective)
2. Perspektif Desain(Design perspective)
3. Perspektif Hasil(Result perspective)
1. Perspektif Selamat Datang(Welcome perspective)
2. Perspektif Desain(Design perspective)
3. Perspektif Hasil(Result perspective)
25
1. Perspektif Selamat Datang(Welcome perspective)
2. Perspektif Desain(Design perspective)
3. Perspektif Hasil(Result perspective)
• Perspektif pusat di manasemua proses analisadibuat dan dimanage
• Pindah ke PerspektifDesain dengan:
• Klik tombol paling kiri• Atau gunakan menu
View → Perspectives → Design
Perspektif Desain
• Perspektif pusat di manasemua proses analisadibuat dan dimanage
• Pindah ke PerspektifDesain dengan:
• Klik tombol paling kiri• Atau gunakan menu
View → Perspectives → Design
• Perspektif pusat di manasemua proses analisadibuat dan dimanage
• Pindah ke PerspektifDesain dengan:
• Klik tombol paling kiri• Atau gunakan menu
View → Perspectives → Design
26
• Process ControlUntuk mengontrol aliran proses, seperti loop atauconditional branch
• UtilityUntuk mengelompokkan subprocess, juga macrodan logger
• Repository AccessUntuk membaca dan menulis repositori
• ImportUntuk membaca data dari berbagai formateksternal
• ExportUntuk menulis data ke berbagai format eksternal
• Data TransformationUntuk transformasi data dan metadata
• ModellingUntuk proses data mining yang sesungguhnyaseperti klasifikasi, regresi, clustering, aturanasosiasi dll
• EvaluationUntuk menghitung kualitas dan perfomansi darimodel
View Operator• Process Control
Untuk mengontrol aliran proses, seperti loop atauconditional branch
• UtilityUntuk mengelompokkan subprocess, juga macrodan logger
• Repository AccessUntuk membaca dan menulis repositori
• ImportUntuk membaca data dari berbagai formateksternal
• ExportUntuk menulis data ke berbagai format eksternal
• Data TransformationUntuk transformasi data dan metadata
• ModellingUntuk proses data mining yang sesungguhnyaseperti klasifikasi, regresi, clustering, aturanasosiasi dll
• EvaluationUntuk menghitung kualitas dan perfomansi darimodel
• Process ControlUntuk mengontrol aliran proses, seperti loop atauconditional branch
• UtilityUntuk mengelompokkan subprocess, juga macrodan logger
• Repository AccessUntuk membaca dan menulis repositori
• ImportUntuk membaca data dari berbagai formateksternal
• ExportUntuk menulis data ke berbagai format eksternal
• Data TransformationUntuk transformasi data dan metadata
• ModellingUntuk proses data mining yang sesungguhnyaseperti klasifikasi, regresi, clustering, aturanasosiasi dll
• EvaluationUntuk menghitung kualitas dan perfomansi darimodel
27
Layanan untuk manajemen proses analisa, baik data,metadata, proses maupun hasil
View RepositoriLayanan untuk manajemen proses analisa, baik data,metadata, proses maupun hasil
28
View Proses
29
• Operator kadang memerlukan parameter untukbisa berfungsi
• Setelah operator dipilih di view Proses,parameternya ditampilkan di view ini
View Parameter• Operator kadang memerlukan parameter untuk
bisa berfungsi• Setelah operator dipilih di view Proses,
parameternya ditampilkan di view ini
30
• View Help menampilkan deskripsi dari operator• View Comment menampilkan komentar yang dapat
diedit terhadap operator
View Help dan View Comment
• View Help menampilkan deskripsi dari operator• View Comment menampilkan komentar yang dapat
diedit terhadap operator
31
View Problems and View Log
32
• Proses data mining pada dasarnya adalahproses analisa yang berisi alur kerja darikomponen data mining
• Komponen dari proses ini disebut operator,yang didefinisikan dengan:
1. Deskripsi input2. Deskripsi output3. Aksi yang dilakukan4. Parameter yang diperlukan
Operator dan Proses
• Proses data mining pada dasarnya adalahproses analisa yang berisi alur kerja darikomponen data mining
• Komponen dari proses ini disebut operator,yang didefinisikan dengan:
1. Deskripsi input2. Deskripsi output3. Aksi yang dilakukan4. Parameter yang diperlukan
• Proses data mining pada dasarnya adalahproses analisa yang berisi alur kerja darikomponen data mining
• Komponen dari proses ini disebut operator,yang didefinisikan dengan:
1. Deskripsi input2. Deskripsi output3. Aksi yang dilakukan4. Parameter yang diperlukan
33
• Sebuah operator bisa disambungkan melalui portmasukan (kiri) dan port keluaran (kanan)
• Indikator status dari operator:• Lampu status: merah (tak tersambung), kuning (lengkap
tetapi belum dijalankan), hijau (sudah behasil dijalankan)• Segitiga warning: bila ada pesan status• Breakpoint: bila ada breakpoint sebelum/sesudahnya• Comment: bila ada komentar• Subprocess: bila mempunyai subprocess
Operator dan Proses
• Sebuah operator bisa disambungkan melalui portmasukan (kiri) dan port keluaran (kanan)
• Indikator status dari operator:• Lampu status: merah (tak tersambung), kuning (lengkap
tetapi belum dijalankan), hijau (sudah behasil dijalankan)• Segitiga warning: bila ada pesan status• Breakpoint: bila ada breakpoint sebelum/sesudahnya• Comment: bila ada komentar• Subprocess: bila mempunyai subprocess
• Sebuah operator bisa disambungkan melalui portmasukan (kiri) dan port keluaran (kanan)
• Indikator status dari operator:• Lampu status: merah (tak tersambung), kuning (lengkap
tetapi belum dijalankan), hijau (sudah behasil dijalankan)• Segitiga warning: bila ada pesan status• Breakpoint: bila ada breakpoint sebelum/sesudahnya• Comment: bila ada komentar• Subprocess: bila mempunyai subprocess
34
Pilih menu File → New
Pilih repositori dan lokasi, lalu beri nama
Membuat Proses Baru Pilih menu File → New
Pilih repositori dan lokasi, lalu beri nama
Pilih menu File → New
Pilih repositori dan lokasi, lalu beri nama
35
• Repositori terstruktur ke dalam proyek-proyek• Masing-masing proyek terstruktur lagi ke dalam
data, processes, dan results
Struktur Repositori• Repositori terstruktur ke dalam proyek-proyek• Masing-masing proyek terstruktur lagi ke dalam
data, processes, dan results
36
Menjalankan Proses
37
Proses dapat dijalankan dengan:• Menekan tombol Play• Memilih menu Process → Run• Menekan kunci F11
Menjalankan Proses
Proses dapat dijalankan dengan:• Menekan tombol Play• Memilih menu Process → Run• Menekan kunci F11
38
Melihat Hasil
39
2.3 Penerapan Proses Data Mining(Dataset – Model)
40
Proses Data Mining
1. HimpunanData
(Pemahaman danPengolahan Data)
2. MetodeData Mining
(Pilih MetodeSesuai Karakter Data)
3. Pengetahuan
(Pola/Model/Rumus/Tree/Rule/Cluster)
4. Evaluation
(Akurasi, AUC,RMSE, Lift Ratio,…)
41
DATA PRE-PROCESSINGData Cleaning
Data IntegrationData Reduction
Data Transformation
EstimationPrediction
ClassificationClustering
Association
• Instal Rapidminer versi 7• Registrasi account di rapidminer.com, dan lakukan dapatkan lisensi
Educational Program untuk mengolah data tanpa batasan record
Instalasi dan Registrasi Lisensi Rapidminer• Instal Rapidminer versi 7• Registrasi account di rapidminer.com, dan lakukan dapatkan lisensi
Educational Program untuk mengolah data tanpa batasan record
42
1. Lakukan training pada data golf (ambildari repositories rapidminer) denganmenggunakan algoritma decision tree
2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yangterbentuk
Latihan: Rekomendasi Main Golf
1. Lakukan training pada data golf (ambildari repositories rapidminer) denganmenggunakan algoritma decision tree
2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yangterbentuk
1. Lakukan training pada data golf (ambildari repositories rapidminer) denganmenggunakan algoritma decision tree
2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yangterbentuk
43
44
45
46
47
48
49
50
51
52
53
1. Lakukan training pada data Bunga Iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma decision tree
2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yang terbentuk
Latihan: Penentuan Jenis Bunga Iris
1. Lakukan training pada data Bunga Iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma decision tree
2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yang terbentuk
54
Latihan: Klastering Jenis Bunga Iris
1. Lakukan training pada data Bunga Iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma k-Means
2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yang terbentuk
3. Tampilkan grafik dari cluster yang terbentuk
1. Lakukan training pada data Bunga Iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma k-Means
2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yang terbentuk
3. Tampilkan grafik dari cluster yang terbentuk
55
1. Lakukan training pada data Sonar (ambil darirepositories rapidminer) dengan menggunakanalgoritma decision tree (C4.5)
2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yang terbentuk
Latihan: Penentuan Mine/Rock
1. Lakukan training pada data Sonar (ambil darirepositories rapidminer) dengan menggunakanalgoritma decision tree (C4.5)
2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yang terbentuk
56
1. Lakukan training pada data Contact Lenses (contact-lenses.xls) dengan menggunakan algoritma decisiontree (http://romisatriawahono.net/lecture/dm/dataset/)
2. Gunakan operator Read Excel atau langsungmenggunakan fitur Add Data
3. Tampilkan himpunan data (dataset) dan pengetahuan(model tree) yang terbentuk
Latihan: Rekomendasi Contact Lenses1. Lakukan training pada data Contact Lenses (contact-
lenses.xls) dengan menggunakan algoritma decisiontree (http://romisatriawahono.net/lecture/dm/dataset/)
2. Gunakan operator Read Excel atau langsungmenggunakan fitur Add Data
3. Tampilkan himpunan data (dataset) dan pengetahuan(model tree) yang terbentuk
57
1. Lakukan training pada data CPU (cpu.xls) denganmenggunakan algoritma linear regression
2. Tampilkan himpunan data (dataset) danpengetahuan (model regresi) yang terbentuk
3. Lakukan pengujian terhadap data baru (cpu-testing.xls), untuk model yang dihasilkan daritahapan 1
Latihan: Estimasi Performance CPU
1. Lakukan training pada data CPU (cpu.xls) denganmenggunakan algoritma linear regression
2. Tampilkan himpunan data (dataset) danpengetahuan (model regresi) yang terbentuk
3. Lakukan pengujian terhadap data baru (cpu-testing.xls), untuk model yang dihasilkan daritahapan 1
58
Rumus Performace dari Data CPU.xlsPerformance CPU = 0.038 * MYCT
+ 0.017 * MMIN+ 0.004 * MMAX+ 0.603 * CACH+ 1.291 * CHMIN+ 0.906 * CHMAX- 43.975
Performance CPU = 0.038 * MYCT+ 0.017 * MMIN+ 0.004 * MMAX+ 0.603 * CACH+ 1.291 * CHMIN+ 0.906 * CHMAX- 43.975
cpu.xls
59cpu-testing.xls
1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan algoritma yangtepat
2. Tentukan tipe data atribut dan class dari“Import Configuration Wizard”
3. Tampilkan himpunan data (dataset) danpengetahuan (pola/model) yang terbentuk
4. Gunakan model yang dihasilkan untukmemprediksi datapemilukpu-testing.xls
Latihan: Prediksi Elektabilitas Caleg
1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan algoritma yangtepat
2. Tentukan tipe data atribut dan class dari“Import Configuration Wizard”
3. Tampilkan himpunan data (dataset) danpengetahuan (pola/model) yang terbentuk
4. Gunakan model yang dihasilkan untukmemprediksi datapemilukpu-testing.xls
1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan algoritma yangtepat
2. Tentukan tipe data atribut dan class dari“Import Configuration Wizard”
3. Tampilkan himpunan data (dataset) danpengetahuan (pola/model) yang terbentuk
4. Gunakan model yang dihasilkan untukmemprediksi datapemilukpu-testing.xls
60
Latihan: Aturan Asosiasi Data Transaksi
1. Lakukan training pada data transaksi(transaksi.xlsx)
2. Pilih metode yang tepat supayamenghasilkan pola
1. Lakukan training pada data transaksi(transaksi.xlsx)
2. Pilih metode yang tepat supayamenghasilkan pola
61
1. Lakukan training pada data konsumsi minyak(HeatingOil.csv)
2. Pilih metode yang tepat supaya menghasilkanmodel
3. Apply model yang dihasilkan ke datapelanggan baru di file HeatingOil-Scoring.csv,supaya kita bisa mengestimasi berapakebutuhan konsumsi minyak mereka, untukmengatur stok penjualan minyak
Latihan: Estimasi Konsumsi Minyak
1. Lakukan training pada data konsumsi minyak(HeatingOil.csv)
2. Pilih metode yang tepat supaya menghasilkanmodel
3. Apply model yang dihasilkan ke datapelanggan baru di file HeatingOil-Scoring.csv,supaya kita bisa mengestimasi berapakebutuhan konsumsi minyak mereka, untukmengatur stok penjualan minyak
1. Lakukan training pada data konsumsi minyak(HeatingOil.csv)
2. Pilih metode yang tepat supaya menghasilkanmodel
3. Apply model yang dihasilkan ke datapelanggan baru di file HeatingOil-Scoring.csv,supaya kita bisa mengestimasi berapakebutuhan konsumsi minyak mereka, untukmengatur stok penjualan minyak
62
1. Lakukan training pada data kankerpayudara (breasttissue.xls)
2. Pilih metode yang tepat supayamenghasilkan pola
Latihan: Deteksi Kanker Payudara
1. Lakukan training pada data kankerpayudara (breasttissue.xls)
2. Pilih metode yang tepat supayamenghasilkan pola
63
1. Lakukan training pada data seranganjaringan (intrusion-training.xls)
2. Pilih metode yang tepat supayamenghasilkan pola
Latihan: Deteksi Serangan Jaringan
1. Lakukan training pada data seranganjaringan (intrusion-training.xls)
2. Pilih metode yang tepat supayamenghasilkan pola
1. Lakukan training pada data seranganjaringan (intrusion-training.xls)
2. Pilih metode yang tepat supayamenghasilkan pola
64
1. Lakukan training pada data resiko kredit(CreditRisk.csv)(http://romisatriawahono.net/lecture/dm/dataset/)
2. Pilih metode yang tepat supayamenghasilkan pola
Latihan: Klasifikasi Resiko Kredit
1. Lakukan training pada data resiko kredit(CreditRisk.csv)(http://romisatriawahono.net/lecture/dm/dataset/)
2. Pilih metode yang tepat supayamenghasilkan pola
65
1. Lakukan training pada data Music Genre(musicgenre-small.csv)(http://romisatriawahono.net/lecture/dm/dataset/)
2. Pilih metode yang tepat supayamenghasilkan pola
Latihan: Klasifikasi Music Genre
1. Lakukan training pada data Music Genre(musicgenre-small.csv)(http://romisatriawahono.net/lecture/dm/dataset/)
2. Pilih metode yang tepat supayamenghasilkan pola
66
1. Lakukan training pada data Harga Saham(hargasaham-training.xls) denganmenggunakan algoritma yang tepat
2. Tampilkan himpunan data (dataset) danpengetahuan (model regresi) yangterbentuk
3. Lakukan pengujian terhadap data baru(hargasaham-testing.xls), untuk modelyang dihasilkan dari tahapan 1
4. Lakukan plot berupa grafik dari data yangterbentuk dengan menggunakan ScatterMultiple
Latihan: Forecasting Harga Saham
1. Lakukan training pada data Harga Saham(hargasaham-training.xls) denganmenggunakan algoritma yang tepat
2. Tampilkan himpunan data (dataset) danpengetahuan (model regresi) yangterbentuk
3. Lakukan pengujian terhadap data baru(hargasaham-testing.xls), untuk modelyang dihasilkan dari tahapan 1
4. Lakukan plot berupa grafik dari data yangterbentuk dengan menggunakan ScatterMultiple
1. Lakukan training pada data Harga Saham(hargasaham-training.xls) denganmenggunakan algoritma yang tepat
2. Tampilkan himpunan data (dataset) danpengetahuan (model regresi) yangterbentuk
3. Lakukan pengujian terhadap data baru(hargasaham-testing.xls), untuk modelyang dihasilkan dari tahapan 1
4. Lakukan plot berupa grafik dari data yangterbentuk dengan menggunakan ScatterMultiple
67
68
1. Dataset – Methods – Knowledge1. Dataset Main Golf2. Dataset Iris (Klasifikasi)3. Dataset Iris (Klastering)4. Dataset CPU5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi8. Dataset Harga Saham9. Dataset Pemilu
Competency Check1. Dataset – Methods – Knowledge
1. Dataset Main Golf2. Dataset Iris (Klasifikasi)3. Dataset Iris (Klastering)4. Dataset CPU5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi8. Dataset Harga Saham9. Dataset Pemilu
1. Dataset – Methods – Knowledge1. Dataset Main Golf2. Dataset Iris (Klasifikasi)3. Dataset Iris (Klastering)4. Dataset CPU5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi8. Dataset Harga Saham9. Dataset Pemilu
69
• Download berbagai dataset yang ada dihttp://romisatriawahono.net/lecture/dm/dataset/
• Gunakan rapidminer untuk mengolahdataset tersebut sehingga menjadipengetahuan
• Pilih algoritma yang sesuai dengan jenis datapada dataset
Tugas: Mencari dan Mengolah Dataset
• Download berbagai dataset yang ada dihttp://romisatriawahono.net/lecture/dm/dataset/
• Gunakan rapidminer untuk mengolahdataset tersebut sehingga menjadipengetahuan
• Pilih algoritma yang sesuai dengan jenis datapada dataset
70
1. Pahami dan kuasai satu metode data mining dari berbagailiterature:1. Naïve Bayes 2. k Nearest Neighbor3. k-Means 4. C4.55. Neural Network 6. Logistic Regression7. FP Growth 8. Fuzzy C-Means9. Self-Organizing Map 0. Support Vector Machine
2. Rangkumkan dengan detail dalam bentuk slide,dengan format:1. Definisi2. Tahapan Algoritma (lengkap dengan formulanya)3. Penerapan Tahapan Algoritma untuk Studi Kasus Dataset Main
Golf, Iris, Transaksi, CPU, dsb(hitung manual (gunakan excel) dan tidak dengan menggunakanrapidminer, harus sinkron dengan tahapan algoritma)
3. Presentasikan di depan kelas pada mata kuliah berikutnyadengan bahasa manusia yang baik dan benar
Tugas: Menguasai Satu Metode DM1. Pahami dan kuasai satu metode data mining dari berbagai
literature:1. Naïve Bayes 2. k Nearest Neighbor3. k-Means 4. C4.55. Neural Network 6. Logistic Regression7. FP Growth 8. Fuzzy C-Means9. Self-Organizing Map 0. Support Vector Machine
2. Rangkumkan dengan detail dalam bentuk slide,dengan format:1. Definisi2. Tahapan Algoritma (lengkap dengan formulanya)3. Penerapan Tahapan Algoritma untuk Studi Kasus Dataset Main
Golf, Iris, Transaksi, CPU, dsb(hitung manual (gunakan excel) dan tidak dengan menggunakanrapidminer, harus sinkron dengan tahapan algoritma)
3. Presentasikan di depan kelas pada mata kuliah berikutnyadengan bahasa manusia yang baik dan benar
1. Pahami dan kuasai satu metode data mining dari berbagailiterature:1. Naïve Bayes 2. k Nearest Neighbor3. k-Means 4. C4.55. Neural Network 6. Logistic Regression7. FP Growth 8. Fuzzy C-Means9. Self-Organizing Map 0. Support Vector Machine
2. Rangkumkan dengan detail dalam bentuk slide,dengan format:1. Definisi2. Tahapan Algoritma (lengkap dengan formulanya)3. Penerapan Tahapan Algoritma untuk Studi Kasus Dataset Main
Golf, Iris, Transaksi, CPU, dsb(hitung manual (gunakan excel) dan tidak dengan menggunakanrapidminer, harus sinkron dengan tahapan algoritma)
3. Presentasikan di depan kelas pada mata kuliah berikutnyadengan bahasa manusia yang baik dan benar
71
1. Kembangkan Java Code dari algoritma yang dipilih2. Gunakan hanya 1 class (file) dan beri nama sesuai
nama algoritma, boleh membuat banyak methoddalam class tersebut
3. Buat account di Trello.Com dan register kehttps://trello.com/b/ZOwroEYg/course-assignment
4. Buat card dengan nama sendiri dan upload semuafile (pptx, xlsx, pdf, etc) laporan ke card tersebut
5. Deadline: sehari sebelum pertemuan berikutnya
Tugas: Kembangkan Code dari Algoritma DM
1. Kembangkan Java Code dari algoritma yang dipilih2. Gunakan hanya 1 class (file) dan beri nama sesuai
nama algoritma, boleh membuat banyak methoddalam class tersebut
3. Buat account di Trello.Com dan register kehttps://trello.com/b/ZOwroEYg/course-assignment
4. Buat card dengan nama sendiri dan upload semuafile (pptx, xlsx, pdf, etc) laporan ke card tersebut
5. Deadline: sehari sebelum pertemuan berikutnya
1. Kembangkan Java Code dari algoritma yang dipilih2. Gunakan hanya 1 class (file) dan beri nama sesuai
nama algoritma, boleh membuat banyak methoddalam class tersebut
3. Buat account di Trello.Com dan register kehttps://trello.com/b/ZOwroEYg/course-assignment
4. Buat card dengan nama sendiri dan upload semuafile (pptx, xlsx, pdf, etc) laporan ke card tersebut
5. Deadline: sehari sebelum pertemuan berikutnya
72
Algoritma k-MeansFormat Template TugasFormat Template Tugas
73
• K-means adalah ..... (John, 2016)
Definisi
• K-means adalah ..... (John, 2016)
74
1. Siapkan dataset
2. Tentukan A dengan rumus A = x + y
3. Tentukan B dengan rumus B = d + e
4. Ulangi proses 1-2-3 sampai tidak ada perubahan
Tahapan Algoritma k-Means
1. Siapkan dataset
2. Tentukan A dengan rumus A = x + y
3. Tentukan B dengan rumus B = d + e
4. Ulangi proses 1-2-3 sampai tidak ada perubahan
1. Siapkan dataset
2. Tentukan A dengan rumus A = x + y
3. Tentukan B dengan rumus B = d + e
4. Ulangi proses 1-2-3 sampai tidak ada perubahan
75
1. Siapkan dataset
76
• blablabla
2. Tentukan A
77
• blablabla
3. Tentukan B
78
• blablabla
4. Iterasi 1
79
• blablabla
4. Iterasi 2 ... dst
80
2.4 Evaluasi dan Validasi terhadapModel yang Terbentuk
81
Proses Data Mining
1. HimpunanData
(Pemahaman danPengolahan Data)
2. MetodeData Mining
(Pilih MetodeSesuai Karakter Data)
3. Pengetahuan
(Pola/Model/Rumus/Tree/Rule/Cluster)
4. Evaluation
(Akurasi, AUC,RMSE, Lift Ratio,…)
82
DATA PRE-PROCESSINGData Cleaning
Data IntegrationData Reduction
Data Transformation
EstimationPrediction
ClassificationClustering
Association
1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)
4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,
Fowlkes–Mallows index, Confusion matrix
5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)
Evaluasi Data Mining
1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)
4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,
Fowlkes–Mallows index, Confusion matrix
5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)
1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)
4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,
Fowlkes–Mallows index, Confusion matrix
5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)
83
• Pembagian dataset:• Dua bagian: data training dan data testing• Tiga bagian: data training, data validation dan data testing
• Data training untuk pembentukan model, dandata testing digunakan untuk pengujian model
• Pemisahan data training dan testing1. Data dipisahkan secara manual2. Data dipisahkan otomatis dengan operator Split Data3. Data dipisahkan otomatis dengan X Validation
Pengujian Model Data Mining• Pembagian dataset:
• Dua bagian: data training dan data testing• Tiga bagian: data training, data validation dan data testing
• Data training untuk pembentukan model, dandata testing digunakan untuk pengujian model
• Pemisahan data training dan testing1. Data dipisahkan secara manual2. Data dipisahkan otomatis dengan operator Split Data3. Data dipisahkan otomatis dengan X Validation
• Pembagian dataset:• Dua bagian: data training dan data testing• Tiga bagian: data training, data validation dan data testing
• Data training untuk pembentukan model, dandata testing digunakan untuk pengujian model
• Pemisahan data training dan testing1. Data dipisahkan secara manual2. Data dipisahkan otomatis dengan operator Split Data3. Data dipisahkan otomatis dengan X Validation
84
1. Pemisahan Data Manual
85
Latihan: Penentuan Kelayakan Kredit• Gunakan dataset di bawah:
• creditapproval-training.xls: untuk membuat model• creditapproval-testing.xls: untuk menguji model
• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)
• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model
• Ukurperformancenya
• Gunakan dataset di bawah:• creditapproval-training.xls: untuk membuat model• creditapproval-testing.xls: untuk menguji model
• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)
• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model
• Ukurperformancenya
86
• Gunakan dataset di bawah:• creditapproval-training.xls: untuk membuat model• creditapproval-testing.xls: untuk menguji model
• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)
• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model
• Ukurperformancenya
Confusion Matrix Accuracy
• pred MACET- true MACET: Jumlah data yang diprediksimacet dan kenyataannya macet (TP)
• pred LANCAR-true LANCAR: Jumlah data yang diprediksilancar dan kenyataannya lancer (TN)
• pred MACET-true LANCAR: Jumlah data yang diprediksimacet tapi kenyataannya lancer (FP)
• pred LANCAR-true MACET: Jumlah data yang diprediksilancar tapi kenyataanya macet (FN)
• pred MACET- true MACET: Jumlah data yang diprediksimacet dan kenyataannya macet (TP)
• pred LANCAR-true LANCAR: Jumlah data yang diprediksilancar dan kenyataannya lancer (TN)
• pred MACET-true LANCAR: Jumlah data yang diprediksimacet tapi kenyataannya lancer (FP)
• pred LANCAR-true MACET: Jumlah data yang diprediksilancar tapi kenyataanya macet (FN)
87
Binary classification should be both sensitive andspecific as much as possible:1. Sensitivity measures the proportion of true
’positives’ that are correctly identified (TruePositive Rate (TP Rate) or Recall)
2. Specificity measures the proportion of true’negatives’ that are correctly identified (FalseNegative Rate (FN Rate or Precision)
Sensitivity and Specificity
Binary classification should be both sensitive andspecific as much as possible:1. Sensitivity measures the proportion of true
’positives’ that are correctly identified (TruePositive Rate (TP Rate) or Recall)
2. Specificity measures the proportion of true’negatives’ that are correctly identified (FalseNegative Rate (FN Rate or Precision)
Binary classification should be both sensitive andspecific as much as possible:1. Sensitivity measures the proportion of true
’positives’ that are correctly identified (TruePositive Rate (TP Rate) or Recall)
2. Specificity measures the proportion of true’negatives’ that are correctly identified (FalseNegative Rate (FN Rate or Precision)
88
We need to know the probability that the classifier willgive the correct diagnosis, but the sensitivity andspecificity do not give us this information
• Positive Predictive Value (PPV) is the proportion of caseswith ’positive’ test results that are correctly diagnosed
• Negative Predictive Value (NPV) is the proportion of caseswith ’negative’ test results that are correctly diagnosed
PPV and NPVWe need to know the probability that the classifier willgive the correct diagnosis, but the sensitivity andspecificity do not give us this information
• Positive Predictive Value (PPV) is the proportion of caseswith ’positive’ test results that are correctly diagnosed
• Negative Predictive Value (NPV) is the proportion of caseswith ’negative’ test results that are correctly diagnosed
We need to know the probability that the classifier willgive the correct diagnosis, but the sensitivity andspecificity do not give us this information
• Positive Predictive Value (PPV) is the proportion of caseswith ’positive’ test results that are correctly diagnosed
• Negative Predictive Value (NPV) is the proportion of caseswith ’negative’ test results that are correctly diagnosed
89
• ROC curves are two-dimensional graphs in which the TP rate isplotted on the Y-axis and the FP rate is plotted on the X-axis
• ROC curve depicts relative trade-offs between benefits (’truepositives’) and costs (’false positives’)
• Two types of ROC curves: discrete and continuous
Kurva ROC - AUC (Area Under Curve)• ROC curves are two-dimensional graphs in which the TP rate is
plotted on the Y-axis and the FP rate is plotted on the X-axis• ROC curve depicts relative trade-offs between benefits (’true
positives’) and costs (’false positives’)• Two types of ROC curves: discrete and continuous
90
Kurva ROC - AUC (Area Under Curve)
91
1. 0.90 - 1.00 = excellent classification2. 0.80 - 0.90 = good classification3. 0.70 - 0.80 = fair classification4. 0.60 - 0.70 = poor classification5. 0.50 - 0.60 = failure
(Gorunescu, 2011)
Guide for Classifying the AUC
1. 0.90 - 1.00 = excellent classification2. 0.80 - 0.90 = good classification3. 0.70 - 0.80 = fair classification4. 0.60 - 0.70 = poor classification5. 0.50 - 0.60 = failure
(Gorunescu, 2011)
1. 0.90 - 1.00 = excellent classification2. 0.80 - 0.90 = good classification3. 0.70 - 0.80 = fair classification4. 0.60 - 0.70 = poor classification5. 0.50 - 0.60 = failure
(Gorunescu, 2011)
92
• Gunakan dataset di bawah:• intrusion-training.xls: untuk membuat model• intrusion-testing.xls: untuk menguji model
• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)
• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model
• Ukur performance(AUC dan Accuracy)
Latihan: Deteksi Serangan Jaringan
• Gunakan dataset di bawah:• intrusion-training.xls: untuk membuat model• intrusion-testing.xls: untuk menguji model
• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)
• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model
• Ukur performance(AUC dan Accuracy)
• Gunakan dataset di bawah:• intrusion-training.xls: untuk membuat model• intrusion-testing.xls: untuk menguji model
• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)
• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model
• Ukur performance(AUC dan Accuracy)
93
• Gunakan dataset di bawah:• hargasaham-training.xls: untuk membuat model• hargasaham-testing.xls: untuk menguji model
• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)
• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model
• Ukur performance
Latihan: Prediksi Harga Saham
• Gunakan dataset di bawah:• hargasaham-training.xls: untuk membuat model• hargasaham-testing.xls: untuk menguji model
• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)
• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model
• Ukur performance
• Gunakan dataset di bawah:• hargasaham-training.xls: untuk membuat model• hargasaham-testing.xls: untuk menguji model
• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)
• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model
• Ukur performance
94
95
• The square root of the mean/average of the square of all ofthe error
• The use of RMSE is very common and it makes an excellentgeneral purpose error metric for numerical predictions
• To construct the RMSE, we first need to determine theresiduals
• Residuals are the difference between the actual values and thepredicted values
• We denoted them by• where is the observed value for the ith observation and• is the predicted value
• They can be positive or negative as the predicted value underor over estimates the actual value
• You then use the RMSE as a measure of the spread of the yvalues about the predicted y value
Root Mean Square Error• The square root of the mean/average of the square of all of
the error
• The use of RMSE is very common and it makes an excellentgeneral purpose error metric for numerical predictions
• To construct the RMSE, we first need to determine theresiduals
• Residuals are the difference between the actual values and thepredicted values
• We denoted them by• where is the observed value for the ith observation and• is the predicted value
• They can be positive or negative as the predicted value underor over estimates the actual value
• You then use the RMSE as a measure of the spread of the yvalues about the predicted y value
• The square root of the mean/average of the square of all ofthe error
• The use of RMSE is very common and it makes an excellentgeneral purpose error metric for numerical predictions
• To construct the RMSE, we first need to determine theresiduals
• Residuals are the difference between the actual values and thepredicted values
• We denoted them by• where is the observed value for the ith observation and• is the predicted value
• They can be positive or negative as the predicted value underor over estimates the actual value
• You then use the RMSE as a measure of the spread of the yvalues about the predicted y value
96
2. Pemisahan Data Otomatis (Split Data)
97
• The Split Data operator takes a dataset as its input anddelivers the subsets of that dataset through its outputports
• The sampling type parameter decides how theexamples should be shuffled in the resultant partitions:
1. Linear sampling: Linear sampling simply divides thedataset into partitions without changing the order ofthe examples• Subsets with consecutive examples are created
2. Shuffled sampling: Shuffled sampling builds randomsubsets of the dataset• Examples are chosen randomly for making subsets
3. Stratified sampling: Stratified sampling builds randomsubsets and ensures that the class distribution in thesubsets is the same as in the whole dataset• In the case of a binominal classification, stratified sampling
builds random subsets so that each subset contains roughly thesame proportions of the two values of the label
Split Data Otomatis
• The Split Data operator takes a dataset as its input anddelivers the subsets of that dataset through its outputports
• The sampling type parameter decides how theexamples should be shuffled in the resultant partitions:
1. Linear sampling: Linear sampling simply divides thedataset into partitions without changing the order ofthe examples• Subsets with consecutive examples are created
2. Shuffled sampling: Shuffled sampling builds randomsubsets of the dataset• Examples are chosen randomly for making subsets
3. Stratified sampling: Stratified sampling builds randomsubsets and ensures that the class distribution in thesubsets is the same as in the whole dataset• In the case of a binominal classification, stratified sampling
builds random subsets so that each subset contains roughly thesame proportions of the two values of the label
• The Split Data operator takes a dataset as its input anddelivers the subsets of that dataset through its outputports
• The sampling type parameter decides how theexamples should be shuffled in the resultant partitions:
1. Linear sampling: Linear sampling simply divides thedataset into partitions without changing the order ofthe examples• Subsets with consecutive examples are created
2. Shuffled sampling: Shuffled sampling builds randomsubsets of the dataset• Examples are chosen randomly for making subsets
3. Stratified sampling: Stratified sampling builds randomsubsets and ensures that the class distribution in thesubsets is the same as in the whole dataset• In the case of a binominal classification, stratified sampling
builds random subsets so that each subset contains roughly thesame proportions of the two values of the label
98
99
1. Dataset: datakelulusanmahasiswa.xls2. Pisahkan data menjadi dua secara otomatis
(Split Data): data testing (10%) dan datatraining (90%)
3. Ujicoba parameter pemisahan data baikmenggunakan Linear Sampling, ShuffledSampling dan Stratified Sampling
4. Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testinguntuk pengujian model
5. Terapkan algoritma yang sesuai dan ukurperformance dari model yang dibentuk
Latihan: Prediksi Kelulusan Mahasiswa
1. Dataset: datakelulusanmahasiswa.xls2. Pisahkan data menjadi dua secara otomatis
(Split Data): data testing (10%) dan datatraining (90%)
3. Ujicoba parameter pemisahan data baikmenggunakan Linear Sampling, ShuffledSampling dan Stratified Sampling
4. Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testinguntuk pengujian model
5. Terapkan algoritma yang sesuai dan ukurperformance dari model yang dibentuk
1. Dataset: datakelulusanmahasiswa.xls2. Pisahkan data menjadi dua secara otomatis
(Split Data): data testing (10%) dan datatraining (90%)
3. Ujicoba parameter pemisahan data baikmenggunakan Linear Sampling, ShuffledSampling dan Stratified Sampling
4. Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testinguntuk pengujian model
5. Terapkan algoritma yang sesuai dan ukurperformance dari model yang dibentuk
100
1. Dataset: HeatingOil.csv2. Pisahkan data menjadi dua secara otomatis
(Split Data): data testing (10%) dan datatraining (90%)
3. Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testinguntuk pengujian model
4. Terapkan algoritma yang sesuai dan ukurperformance dari model yang dibentuk
Latihan: Estimasi Konsumsi Minyak
1. Dataset: HeatingOil.csv2. Pisahkan data menjadi dua secara otomatis
(Split Data): data testing (10%) dan datatraining (90%)
3. Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testinguntuk pengujian model
4. Terapkan algoritma yang sesuai dan ukurperformance dari model yang dibentuk
1. Dataset: HeatingOil.csv2. Pisahkan data menjadi dua secara otomatis
(Split Data): data testing (10%) dan datatraining (90%)
3. Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testinguntuk pengujian model
4. Terapkan algoritma yang sesuai dan ukurperformance dari model yang dibentuk
101
3 Pemisahan Data Otomatis(Cross-Validation)
102
• Metode cross-validation digunakan untukmenghindari overlapping pada data testing
• Tahapan cross-validation:1. Bagi data menjadi k subset yg berukuran sama2. Gunakan setiap subset untuk data testing dan sisanya
untuk data training
• Disebut juga dengan k-fold cross-validation• Seringkali subset dibuat stratified (bertingkat)
sebelum cross-validation dilakukan, karenastratifikasi akan mengurangi variansi dari estimasi
Metode Cross-Validation
• Metode cross-validation digunakan untukmenghindari overlapping pada data testing
• Tahapan cross-validation:1. Bagi data menjadi k subset yg berukuran sama2. Gunakan setiap subset untuk data testing dan sisanya
untuk data training
• Disebut juga dengan k-fold cross-validation• Seringkali subset dibuat stratified (bertingkat)
sebelum cross-validation dilakukan, karenastratifikasi akan mengurangi variansi dari estimasi
• Metode cross-validation digunakan untukmenghindari overlapping pada data testing
• Tahapan cross-validation:1. Bagi data menjadi k subset yg berukuran sama2. Gunakan setiap subset untuk data testing dan sisanya
untuk data training
• Disebut juga dengan k-fold cross-validation• Seringkali subset dibuat stratified (bertingkat)
sebelum cross-validation dilakukan, karenastratifikasi akan mengurangi variansi dari estimasi
103
• Metode evaluasi standard: stratified 10-foldcross-validation
• Mengapa 10? Hasil dari berbagai percobaanyang ekstensif dan pembuktian teoritis,menunjukkan bahwa 10-fold cross-validationadalah pilihan terbaik untuk mendapatkanhasil validasi yang akurat
• 10-fold cross-validation akan mengulangpengujian sebanyak 10 kali dan hasilpengukuran adalah nilai rata-rata dari 10 kalipengujian
10 Fold Cross-Validation
• Metode evaluasi standard: stratified 10-foldcross-validation
• Mengapa 10? Hasil dari berbagai percobaanyang ekstensif dan pembuktian teoritis,menunjukkan bahwa 10-fold cross-validationadalah pilihan terbaik untuk mendapatkanhasil validasi yang akurat
• 10-fold cross-validation akan mengulangpengujian sebanyak 10 kali dan hasilpengukuran adalah nilai rata-rata dari 10 kalipengujian
• Metode evaluasi standard: stratified 10-foldcross-validation
• Mengapa 10? Hasil dari berbagai percobaanyang ekstensif dan pembuktian teoritis,menunjukkan bahwa 10-fold cross-validationadalah pilihan terbaik untuk mendapatkanhasil validasi yang akurat
• 10-fold cross-validation akan mengulangpengujian sebanyak 10 kali dan hasilpengukuran adalah nilai rata-rata dari 10 kalipengujian
104
10 Fold Cross-Validation
Eksperimen Dataset Akurasi1 93%
2 91%2 91%
3 90%
4 93%
5 93%
6 91%
7 94%
Orange: k-subset (data testing)105
8 93%
9 91%
10 90%
Akurasi Rata-Rata 92%
1. Lakukan training pada data pemilu(datapemilukpu.xls)
2. Lakukan pengujian dengan menggunakan 10-fold XValidation
3. Ukur performance-nya dengan confusion matrix danROC Curve
4. Lakukan ujicoba, ubah algoritma menjadi Naive Bayesdan k-NN, analisis mana algoritma yangmenghasilkan model yang lebih baik (akurasi tinggi)
Latihan: Prediksi Elektabilitas Caleg
1. Lakukan training pada data pemilu(datapemilukpu.xls)
2. Lakukan pengujian dengan menggunakan 10-fold XValidation
3. Ukur performance-nya dengan confusion matrix danROC Curve
4. Lakukan ujicoba, ubah algoritma menjadi Naive Bayesdan k-NN, analisis mana algoritma yangmenghasilkan model yang lebih baik (akurasi tinggi)
1. Lakukan training pada data pemilu(datapemilukpu.xls)
2. Lakukan pengujian dengan menggunakan 10-fold XValidation
3. Ukur performance-nya dengan confusion matrix danROC Curve
4. Lakukan ujicoba, ubah algoritma menjadi Naive Bayesdan k-NN, analisis mana algoritma yangmenghasilkan model yang lebih baik (akurasi tinggi)
106
C4.5
Accuracy 92.45%
AUC 0.851
1. Gunakan dataset harga saham(hargasaham-training.xls) untuk membuatmodel
2. Lakukan pengujian dengan menggunakan10-fold X Validation
3. Ukur performance-nya dengan RMSE
Latihan: Prediksi Harga Saham
1. Gunakan dataset harga saham(hargasaham-training.xls) untuk membuatmodel
2. Lakukan pengujian dengan menggunakan10-fold X Validation
3. Ukur performance-nya dengan RMSE
107
Komparasi Algoritma Data Mining
108
1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant
Analysis, Logistic Regression, etc
4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
Metode Data Mining (DM)
1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant
Analysis, Logistic Regression, etc
4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant
Analysis, Logistic Regression, etc
4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
109
1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan menggunakanalgoritma1. Decision Tree (C4.5)2. Naïve Bayes (NB)3. K-Nearest Neighbor (K-NN)
2. Lakukan pengujian dengan menggunakan 10-foldX Validation
Latihan: Prediksi Elektabilitas Caleg
1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan menggunakanalgoritma1. Decision Tree (C4.5)2. Naïve Bayes (NB)3. K-Nearest Neighbor (K-NN)
2. Lakukan pengujian dengan menggunakan 10-foldX Validation
110
C4.5 NB K-NN
Accuracy 92.45% 77.46% 88.72%
AUC 0.851 0.840 0.5
111
1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan menggunakanalgoritma C4.5, NB dan K-NN
2. Lakukan pengujian dengan menggunakan 10-foldX Validation
3. Ukur performance-nya dengan confusion matrixdan ROC Curve
4. Uji beda dengan t-Test untuk mendapatkanmodel terbaik
Latihan: Prediksi Elektabilitas Caleg
1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan menggunakanalgoritma C4.5, NB dan K-NN
2. Lakukan pengujian dengan menggunakan 10-foldX Validation
3. Ukur performance-nya dengan confusion matrixdan ROC Curve
4. Uji beda dengan t-Test untuk mendapatkanmodel terbaik
1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan menggunakanalgoritma C4.5, NB dan K-NN
2. Lakukan pengujian dengan menggunakan 10-foldX Validation
3. Ukur performance-nya dengan confusion matrixdan ROC Curve
4. Uji beda dengan t-Test untuk mendapatkanmodel terbaik
112
113
• Komparasi Accuracy dan AUC
• Uji Beda (t-Test)
• Urutan model terbaik: 1. C4.5 2. NB 3. K-NN
Hasil Prediksi Elektabilitas Caleg
C4.5 NB K-NN
Accuracy 92.45% 77.46% 88.72%
• Komparasi Accuracy dan AUC
• Uji Beda (t-Test)
• Urutan model terbaik: 1. C4.5 2. NB 3. K-NN
Accuracy 92.45% 77.46% 88.72%
AUC 0.851 0.840 0.5
• Komparasi Accuracy dan AUC
• Uji Beda (t-Test)
• Urutan model terbaik: 1. C4.5 2. NB 3. K-NN114
1. Statistik Deskriptif• Nilai mean (rata-rata), standar deviasi,
varians, data maksimal, data minimal, dsb
2. Statistik Inferensi• Perkiraan dan estimasi• Pengujian Hipotesis
Analisis Statistik
1. Statistik Deskriptif• Nilai mean (rata-rata), standar deviasi,
varians, data maksimal, data minimal, dsb
2. Statistik Inferensi• Perkiraan dan estimasi• Pengujian Hipotesis
1. Statistik Deskriptif• Nilai mean (rata-rata), standar deviasi,
varians, data maksimal, data minimal, dsb
2. Statistik Inferensi• Perkiraan dan estimasi• Pengujian Hipotesis
115
Penggunaan Parametrik Non ParametrikDua sampel salingberhubungan(Two Dependent samples)
T TestZ Test
Sign testWilcoxon Signed-RankMc Nemar Change test
Statistik Inferensi
Dua sampel salingberhubungan(Two Dependent samples)
Sign testWilcoxon Signed-RankMc Nemar Change test
Dua sampel tidak berhubungan(Two Independent samples)
T TestZ Test
Mann-Whitney U testMoses Extreme reactionsChi-Square testKolmogorov-Smirnov testWalt-Wolfowitz runs
Beberapa sampel berhubungan(Several Dependent Samples)
Friedman testKendall W testCochran’s Q
Beberapa sampel berhubungan(Several Dependent Samples)
Friedman testKendall W testCochran’s Q
Beberapa sampel tidakBerhubungan(Several Independent Samples)
Anova test (F test) Kruskal-Wallis testChi-Square testMedian test
116
• Metode parametrik dapat dilakukan jikabeberapa persyaratan dipenuhi, yaitu:
• Sampel yang dianalisis haruslah berasal daripopulasi yang berdistribusi normal
• Jumlah data cukup banyak• Jenis data yang dianalisis adalah biasanya
interval atau rasio
Metode Parametrik
• Metode parametrik dapat dilakukan jikabeberapa persyaratan dipenuhi, yaitu:
• Sampel yang dianalisis haruslah berasal daripopulasi yang berdistribusi normal
• Jumlah data cukup banyak• Jenis data yang dianalisis adalah biasanya
interval atau rasio
• Metode parametrik dapat dilakukan jikabeberapa persyaratan dipenuhi, yaitu:
• Sampel yang dianalisis haruslah berasal daripopulasi yang berdistribusi normal
• Jumlah data cukup banyak• Jenis data yang dianalisis adalah biasanya
interval atau rasio
117
• Metode ini dapat dipergunakan secara lebih luas,karena tidak mengharuskan datanya berdistribusinormal
• Dapat dipakai untuk data nominal dan ordinal sehinggasangat berguna bagi para peneliti sosial untuk menelitiperilaku konsumen, sikap manusia, dsb
• Cenderung lebih sederhana dibandingkan dengan metodeparametrik
• Selain keuntungannya, berikut kelemahan metode nonparametrik:
• Tidak adanya sistematika yang jelas seperti metodeparametrik
• Terlalu sederhana sehingga sering meragukan• Memakai tabel-tabel yang lebih bervariasi dibandingkan
dengan tabel-tabel standar pada metode parametrik
Metode Non Parametrik
• Metode ini dapat dipergunakan secara lebih luas,karena tidak mengharuskan datanya berdistribusinormal
• Dapat dipakai untuk data nominal dan ordinal sehinggasangat berguna bagi para peneliti sosial untuk menelitiperilaku konsumen, sikap manusia, dsb
• Cenderung lebih sederhana dibandingkan dengan metodeparametrik
• Selain keuntungannya, berikut kelemahan metode nonparametrik:
• Tidak adanya sistematika yang jelas seperti metodeparametrik
• Terlalu sederhana sehingga sering meragukan• Memakai tabel-tabel yang lebih bervariasi dibandingkan
dengan tabel-tabel standar pada metode parametrik
• Metode ini dapat dipergunakan secara lebih luas,karena tidak mengharuskan datanya berdistribusinormal
• Dapat dipakai untuk data nominal dan ordinal sehinggasangat berguna bagi para peneliti sosial untuk menelitiperilaku konsumen, sikap manusia, dsb
• Cenderung lebih sederhana dibandingkan dengan metodeparametrik
• Selain keuntungannya, berikut kelemahan metode nonparametrik:
• Tidak adanya sistematika yang jelas seperti metodeparametrik
• Terlalu sederhana sehingga sering meragukan• Memakai tabel-tabel yang lebih bervariasi dibandingkan
dengan tabel-tabel standar pada metode parametrik
118
• Ho = tidak ada perbedaan signifikan• Ha = ada perbedaan signifikan
alpha=0.05Bila p < 0.05, maka Ho ditolak
• Contoh: kasus p=0.03, maka dapatditarik kesimpulan?
Interpretasi
• Ho = tidak ada perbedaan signifikan• Ha = ada perbedaan signifikan
alpha=0.05Bila p < 0.05, maka Ho ditolak
• Contoh: kasus p=0.03, maka dapatditarik kesimpulan?
• Ho = tidak ada perbedaan signifikan• Ha = ada perbedaan signifikan
alpha=0.05Bila p < 0.05, maka Ho ditolak
• Contoh: kasus p=0.03, maka dapatditarik kesimpulan?
119
1. Lakukan training pada data mahasiswa(datakelulusanmahasiswa.xls) denganmenggunakan C4.5, NB, K-NN dan LogR
2. Lakukan pengujian dengan menggunakan10-fold X Validation
3. Uji beda dengan t-Test untuk mendapatkanmodel terbaik
Latihan: Prediksi Kelulusan Mahasiswa
1. Lakukan training pada data mahasiswa(datakelulusanmahasiswa.xls) denganmenggunakan C4.5, NB, K-NN dan LogR
2. Lakukan pengujian dengan menggunakan10-fold X Validation
3. Uji beda dengan t-Test untuk mendapatkanmodel terbaik
120
• Komparasi Accuracy dan AUC
• Uji Beda (t-Test)
• Urutan model terbaik: 1. C4.5 2. NB1 2.k-NN 2. LogR
Hasil Prediksi Kelulusan Mahasiswa
C4.5 NB K-NN LogR
Accuracy 91.55% 82.58% 83.63% 77.47%
• Komparasi Accuracy dan AUC
• Uji Beda (t-Test)
• Urutan model terbaik: 1. C4.5 2. NB1 2.k-NN 2. LogR
Accuracy 91.55% 82.58% 83.63% 77.47%
AUC 0.909 0.894 0.5 0.721
• Komparasi Accuracy dan AUC
• Uji Beda (t-Test)
• Urutan model terbaik: 1. C4.5 2. NB1 2.k-NN 2. LogR121
1. Lakukan training pada data cpu (cpu.xls) denganmenggunakan algoritma linear regression, neuralnetwork dan support vector machine
2. Lakukan pengujian dengan XValidation(numerical)
3. Ukur performance-nya dengan menggunakanRMSE (Root Mean Square Error)
4. Urutan model terbaik: 1. LR 2. NN 3. SVM
Latihan: Estimasi Performance CPU
1. Lakukan training pada data cpu (cpu.xls) denganmenggunakan algoritma linear regression, neuralnetwork dan support vector machine
2. Lakukan pengujian dengan XValidation(numerical)
3. Ukur performance-nya dengan menggunakanRMSE (Root Mean Square Error)
4. Urutan model terbaik: 1. LR 2. NN 3. SVM
LR NN SVM
1. Lakukan training pada data cpu (cpu.xls) denganmenggunakan algoritma linear regression, neuralnetwork dan support vector machine
2. Lakukan pengujian dengan XValidation(numerical)
3. Ukur performance-nya dengan menggunakanRMSE (Root Mean Square Error)
4. Urutan model terbaik: 1. LR 2. NN 3. SVM
122
LR NN SVM
RMSE 57.707 61.276 101.559
1. Lakukan training pada data minyak pemanas(HeatingOil.csv) dengan menggunakan algoritmalinear regression, neural network dan supportvector machine
2. Lakukan pengujian dengan XValidation(numerical)
3. Ukur performance-nya dengan menggunakanRMSE (Root Mean Square Error)
4. Urutan model terbaik: 1. 2. 3.
Latihan: Estimasi Konsumsi Minyak
1. Lakukan training pada data minyak pemanas(HeatingOil.csv) dengan menggunakan algoritmalinear regression, neural network dan supportvector machine
2. Lakukan pengujian dengan XValidation(numerical)
3. Ukur performance-nya dengan menggunakanRMSE (Root Mean Square Error)
4. Urutan model terbaik: 1. 2. 3.
1. Lakukan training pada data minyak pemanas(HeatingOil.csv) dengan menggunakan algoritmalinear regression, neural network dan supportvector machine
2. Lakukan pengujian dengan XValidation(numerical)
3. Ukur performance-nya dengan menggunakanRMSE (Root Mean Square Error)
4. Urutan model terbaik: 1. 2. 3.
123
LR NN SVM
RMSE
1. Lakukan training pada data pemilu (datapemilukpu.xls)dengan menggunakan algoritma Naive Bayes,K-Nearest Neighbor, RandomForest, Logistic Regression
2. Lakukan pengujian dengan menggunakan XValidation3. Ukur performance-nya dengan confusion matrix dan
ROC Curve4. Masukkan setiap hasil percobaan ke dalam file Excel
Latihan: Prediksi Elektabilitas Caleg
1. Lakukan training pada data pemilu (datapemilukpu.xls)dengan menggunakan algoritma Naive Bayes,K-Nearest Neighbor, RandomForest, Logistic Regression
2. Lakukan pengujian dengan menggunakan XValidation3. Ukur performance-nya dengan confusion matrix dan
ROC Curve4. Masukkan setiap hasil percobaan ke dalam file Excel
124
DT NB K-NN RF LR LDA
Accuracy 92.21% 76.89% 89.63%
AUC 0.851 0.826 0.5
1. Lakukan training pada data harga saham(hargasaham-training.xls) dengan neural network,linear regression, support vector machine
2. Lakukan pengujian dengan menggunakanXValidation
3. Ukur performance-nya dengan confusion matrix danROC Curve
Latihan: Prediksi Harga Saham
1. Lakukan training pada data harga saham(hargasaham-training.xls) dengan neural network,linear regression, support vector machine
2. Lakukan pengujian dengan menggunakanXValidation
3. Ukur performance-nya dengan confusion matrix danROC Curve
125
LR NN SVM
RMSE
1. Lakukan training pada data iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma clustering k-means
2. Gunakan pilihan nilai untuk k, isikan dengan 3, 4, 5,6, 7
3. Ukur performance-nya dengan Cluster DistancePerformance, dari analisis Davies Bouldin Indeks(DBI), tentukan nilai k yang paling optimal
Latihan: Klastering Jenis Bunga Iris1. Lakukan training pada data iris (ambil dari
repositories rapidminer) dengan menggunakanalgoritma clustering k-means
2. Gunakan pilihan nilai untuk k, isikan dengan 3, 4, 5,6, 7
3. Ukur performance-nya dengan Cluster DistancePerformance, dari analisis Davies Bouldin Indeks(DBI), tentukan nilai k yang paling optimal
126
k=3 k=4 k=5 k=6 k=7DBI 0.666 0.764 0.806 0.910 0.99
• The Davies–Bouldin index (DBI) (introduced by David L. Daviesand Donald W. Bouldin in 1979) is a metric for evaluatingclustering algorithms
• This is an internal evaluation scheme, where the validation ofhow well the clustering has been done is made using quantitiesand features inherent to the dataset
• As a function of the ratio of the within cluster scatter, to thebetween cluster separation, a lower value will mean that theclustering is better
• This affirms the idea that no cluster has to be similar to another,and hence the best clustering scheme essentially minimizes theDavies–Bouldin index
• This index thus defined is an average over all the i clusters, andhence a good measure of deciding how many clusters actuallyexists in the data is to plot it against the number of clusters it iscalculated over
• The number i for which this value is the lowest is a good measureof the number of clusters the data could be ideally classified into
Davies–Bouldin index (DBI)• The Davies–Bouldin index (DBI) (introduced by David L. Davies
and Donald W. Bouldin in 1979) is a metric for evaluatingclustering algorithms
• This is an internal evaluation scheme, where the validation ofhow well the clustering has been done is made using quantitiesand features inherent to the dataset
• As a function of the ratio of the within cluster scatter, to thebetween cluster separation, a lower value will mean that theclustering is better
• This affirms the idea that no cluster has to be similar to another,and hence the best clustering scheme essentially minimizes theDavies–Bouldin index
• This index thus defined is an average over all the i clusters, andhence a good measure of deciding how many clusters actuallyexists in the data is to plot it against the number of clusters it iscalculated over
• The number i for which this value is the lowest is a good measureof the number of clusters the data could be ideally classified into
• The Davies–Bouldin index (DBI) (introduced by David L. Daviesand Donald W. Bouldin in 1979) is a metric for evaluatingclustering algorithms
• This is an internal evaluation scheme, where the validation ofhow well the clustering has been done is made using quantitiesand features inherent to the dataset
• As a function of the ratio of the within cluster scatter, to thebetween cluster separation, a lower value will mean that theclustering is better
• This affirms the idea that no cluster has to be similar to another,and hence the best clustering scheme essentially minimizes theDavies–Bouldin index
• This index thus defined is an average over all the i clusters, andhence a good measure of deciding how many clusters actuallyexists in the data is to plot it against the number of clusters it iscalculated over
• The number i for which this value is the lowest is a good measureof the number of clusters the data could be ideally classified into
127
1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)
4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,
Fowlkes–Mallows index, Confusion matrix
5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)
Evaluasi Data Mining
1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)
4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,
Fowlkes–Mallows index, Confusion matrix
5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)
1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)
4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,
Fowlkes–Mallows index, Confusion matrix
5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)
128
1. Lakukan ujicoba terhadap semua dataset yang ada difolder datasets, dengan menggunakan berbagai metodedata mining yang sesuai (estimasi, prediksi, klasifikasi,clustering, association)
2. Kombinasikan pengujian dengan pemecahan datatraining-testing, dan pengujian dengan menggunakanmetode X validation
3. Ukur performance dari model yang terbentuk denganmenggunakan metode pengukuran sesuai denganmetode data mining yang dipilih
4. Jelaskan secara mendetail tahapan ujicoba yangdilakukan, kemudian lakukan analisis dan sintesis, danbuat laporan dalam bentuk slide
5. Presentasikan di depan kelas
Tugas: Mengolah Semua Dataset1. Lakukan ujicoba terhadap semua dataset yang ada di
folder datasets, dengan menggunakan berbagai metodedata mining yang sesuai (estimasi, prediksi, klasifikasi,clustering, association)
2. Kombinasikan pengujian dengan pemecahan datatraining-testing, dan pengujian dengan menggunakanmetode X validation
3. Ukur performance dari model yang terbentuk denganmenggunakan metode pengukuran sesuai denganmetode data mining yang dipilih
4. Jelaskan secara mendetail tahapan ujicoba yangdilakukan, kemudian lakukan analisis dan sintesis, danbuat laporan dalam bentuk slide
5. Presentasikan di depan kelas
1. Lakukan ujicoba terhadap semua dataset yang ada difolder datasets, dengan menggunakan berbagai metodedata mining yang sesuai (estimasi, prediksi, klasifikasi,clustering, association)
2. Kombinasikan pengujian dengan pemecahan datatraining-testing, dan pengujian dengan menggunakanmetode X validation
3. Ukur performance dari model yang terbentuk denganmenggunakan metode pengukuran sesuai denganmetode data mining yang dipilih
4. Jelaskan secara mendetail tahapan ujicoba yangdilakukan, kemudian lakukan analisis dan sintesis, danbuat laporan dalam bentuk slide
5. Presentasikan di depan kelas129
• Technical Paper:• Judul: Application and Comparison of Classification
Techniques in Controlling Credit Risk• Author: Lan Yu, Guoqing Chen, Andy Koronios, Shiwu
Zhu, and Xunhua Guo• Download:
http://romisatriawahono.net/lecture/dm/paper/
• Baca dan pahami paper di atas dan jelaskan apayang dilakukan peneliti pada paper tersebut:
1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian
Tugas: Mereview Paper
• Technical Paper:• Judul: Application and Comparison of Classification
Techniques in Controlling Credit Risk• Author: Lan Yu, Guoqing Chen, Andy Koronios, Shiwu
Zhu, and Xunhua Guo• Download:
http://romisatriawahono.net/lecture/dm/paper/
• Baca dan pahami paper di atas dan jelaskan apayang dilakukan peneliti pada paper tersebut:
1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian
• Technical Paper:• Judul: Application and Comparison of Classification
Techniques in Controlling Credit Risk• Author: Lan Yu, Guoqing Chen, Andy Koronios, Shiwu
Zhu, and Xunhua Guo• Download:
http://romisatriawahono.net/lecture/dm/paper/
• Baca dan pahami paper di atas dan jelaskan apayang dilakukan peneliti pada paper tersebut:
1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian
130
• Technical Paper:• Judul: A Comparison Framework of Classification Models for
Software Defect Prediction• Author: Romi Satria Wahono, Nanna Suryana Herman,
Sabrina Ahmad• Publications: Adv. Sci. Lett. Vol. 20, No. 10-12, 2014• Download: http://romisatriawahono.net/lecture/dm/paper
• Baca dan pahami paper di atas dan jelaskan apa yangdilakukan peneliti pada paper tersebut:
1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian
Tugas: Mereview Paper
• Technical Paper:• Judul: A Comparison Framework of Classification Models for
Software Defect Prediction• Author: Romi Satria Wahono, Nanna Suryana Herman,
Sabrina Ahmad• Publications: Adv. Sci. Lett. Vol. 20, No. 10-12, 2014• Download: http://romisatriawahono.net/lecture/dm/paper
• Baca dan pahami paper di atas dan jelaskan apa yangdilakukan peneliti pada paper tersebut:
1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian
• Technical Paper:• Judul: A Comparison Framework of Classification Models for
Software Defect Prediction• Author: Romi Satria Wahono, Nanna Suryana Herman,
Sabrina Ahmad• Publications: Adv. Sci. Lett. Vol. 20, No. 10-12, 2014• Download: http://romisatriawahono.net/lecture/dm/paper
• Baca dan pahami paper di atas dan jelaskan apa yangdilakukan peneliti pada paper tersebut:
1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian
131
• Technical Paper:• Judul: An experimental comparison of classification
algorithms for imbalanced credit scoring data sets• Author: Iain Brown and Christophe Mues• Publications: Expert Systems with Applications 39 (2012)
3446–3453• Download: http://romisatriawahono.net/lecture/dm/paper
• Baca dan pahami paper di atas dan jelaskan apa yangdilakukan peneliti pada paper tersebut:
1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian
Tugas Mereview Paper
• Technical Paper:• Judul: An experimental comparison of classification
algorithms for imbalanced credit scoring data sets• Author: Iain Brown and Christophe Mues• Publications: Expert Systems with Applications 39 (2012)
3446–3453• Download: http://romisatriawahono.net/lecture/dm/paper
• Baca dan pahami paper di atas dan jelaskan apa yangdilakukan peneliti pada paper tersebut:
1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian
• Technical Paper:• Judul: An experimental comparison of classification
algorithms for imbalanced credit scoring data sets• Author: Iain Brown and Christophe Mues• Publications: Expert Systems with Applications 39 (2012)
3446–3453• Download: http://romisatriawahono.net/lecture/dm/paper
• Baca dan pahami paper di atas dan jelaskan apa yangdilakukan peneliti pada paper tersebut:
1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian
132
• Cari dataset yang ada di sekitar kita• Lakukan penelitian berupa komparasi dari (minimal)
5 algoritma machine learning untuk meminingknowledge dari dataset tersebut
• Gunakan uji beda (baik parametrik dan nonparametric) untuk analisis dan pembuatan rankingdari algoritma machine learning
• Tulis makalah tentang penelitian yang kita buat• Contoh-contoh makalah komparasi ada di:
http://romisatriawahono.net/lecture/dm/paper/method%20comparison/
• Upload seluruh file laporan ke Card di Trello.Com• Deadline: sehari sebelum mata kuliah berikutnya
Tugas: Menulis Paper Penelitian
• Cari dataset yang ada di sekitar kita• Lakukan penelitian berupa komparasi dari (minimal)
5 algoritma machine learning untuk meminingknowledge dari dataset tersebut
• Gunakan uji beda (baik parametrik dan nonparametric) untuk analisis dan pembuatan rankingdari algoritma machine learning
• Tulis makalah tentang penelitian yang kita buat• Contoh-contoh makalah komparasi ada di:
http://romisatriawahono.net/lecture/dm/paper/method%20comparison/
• Upload seluruh file laporan ke Card di Trello.Com• Deadline: sehari sebelum mata kuliah berikutnya
• Cari dataset yang ada di sekitar kita• Lakukan penelitian berupa komparasi dari (minimal)
5 algoritma machine learning untuk meminingknowledge dari dataset tersebut
• Gunakan uji beda (baik parametrik dan nonparametric) untuk analisis dan pembuatan rankingdari algoritma machine learning
• Tulis makalah tentang penelitian yang kita buat• Contoh-contoh makalah komparasi ada di:
http://romisatriawahono.net/lecture/dm/paper/method%20comparison/
• Upload seluruh file laporan ke Card di Trello.Com• Deadline: sehari sebelum mata kuliah berikutnya
133
• Ikuti template dan contoh paper dari:http://journal.ilmukomputer.org
• Isi paper:• Abstract: Harus berisi obyek-masalah-metode-hasil
• Introduction: Latar belakang masalah penelitian dan struktur paper
• Related Work: Penelitian yang berhubungan
• Theoretical Foundation: Landasan dari berbagai teori yang digunakan
• Proposed Method: Metode yang diusulkan
• Experimental Results: Hasil eksperimen
• Conclusion: Kesimpulan dan future works
Paper Formatting
• Ikuti template dan contoh paper dari:http://journal.ilmukomputer.org
• Isi paper:• Abstract: Harus berisi obyek-masalah-metode-hasil
• Introduction: Latar belakang masalah penelitian dan struktur paper
• Related Work: Penelitian yang berhubungan
• Theoretical Foundation: Landasan dari berbagai teori yang digunakan
• Proposed Method: Metode yang diusulkan
• Experimental Results: Hasil eksperimen
• Conclusion: Kesimpulan dan future works
• Ikuti template dan contoh paper dari:http://journal.ilmukomputer.org
• Isi paper:• Abstract: Harus berisi obyek-masalah-metode-hasil
• Introduction: Latar belakang masalah penelitian dan struktur paper
• Related Work: Penelitian yang berhubungan
• Theoretical Foundation: Landasan dari berbagai teori yang digunakan
• Proposed Method: Metode yang diusulkan
• Experimental Results: Hasil eksperimen
• Conclusion: Kesimpulan dan future works
134
1. Dataset – Methods – Knowledge1. Dataset Main Golf2. Dataset Harga Saham3. Dataset Kelulusan Mahasiswa4. Dataset Pemilu5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi
2. Dataset – Methods – Knowledge – Evaluation1. Manual2. Data Split3. Cross Validation
3. Methods Comparison• Uji t-Test
4. Paper Reading1. Lan Yu (t-Test)2. Wahono (Friedman Test)
Competency Check1. Dataset – Methods – Knowledge
1. Dataset Main Golf2. Dataset Harga Saham3. Dataset Kelulusan Mahasiswa4. Dataset Pemilu5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi
2. Dataset – Methods – Knowledge – Evaluation1. Manual2. Data Split3. Cross Validation
3. Methods Comparison• Uji t-Test
4. Paper Reading1. Lan Yu (t-Test)2. Wahono (Friedman Test)
1. Dataset – Methods – Knowledge1. Dataset Main Golf2. Dataset Harga Saham3. Dataset Kelulusan Mahasiswa4. Dataset Pemilu5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi
2. Dataset – Methods – Knowledge – Evaluation1. Manual2. Data Split3. Cross Validation
3. Methods Comparison• Uji t-Test
4. Paper Reading1. Lan Yu (t-Test)2. Wahono (Friedman Test)
135
2.5 Proses Standard pada Data Mining(CRISP-DM)
136
• A cross-industry standard was clearlyrequired that is industry neutral, tool-neutral, and application-neutral
• The Cross-Industry Standard Process for DataMining (CRISP–DM) was developed in 1996(Chapman, 2000)
• CRISP-DM provides a nonproprietary andfreely available standard process for fittingdata mining into the general problem-solvingstrategy of a business or research unit
Data Mining Standard Process
• A cross-industry standard was clearlyrequired that is industry neutral, tool-neutral, and application-neutral
• The Cross-Industry Standard Process for DataMining (CRISP–DM) was developed in 1996(Chapman, 2000)
• CRISP-DM provides a nonproprietary andfreely available standard process for fittingdata mining into the general problem-solvingstrategy of a business or research unit
• A cross-industry standard was clearlyrequired that is industry neutral, tool-neutral, and application-neutral
• The Cross-Industry Standard Process for DataMining (CRISP–DM) was developed in 1996(Chapman, 2000)
• CRISP-DM provides a nonproprietary andfreely available standard process for fittingdata mining into the general problem-solvingstrategy of a business or research unit
137
CRISP-DM
138
• Enunciate the project objectives andrequirements clearly in terms of the businessor research unit as a whole
• Translate these goals and restrictions intothe formulation of a data mining problemdefinition
• Prepare a preliminary strategy for achievingthese objectives
• Designing what you are going to build
1. Business Understanding
• Enunciate the project objectives andrequirements clearly in terms of the businessor research unit as a whole
• Translate these goals and restrictions intothe formulation of a data mining problemdefinition
• Prepare a preliminary strategy for achievingthese objectives
• Designing what you are going to build
• Enunciate the project objectives andrequirements clearly in terms of the businessor research unit as a whole
• Translate these goals and restrictions intothe formulation of a data mining problemdefinition
• Prepare a preliminary strategy for achievingthese objectives
• Designing what you are going to build
139
• Collect the data• Use exploratory data analysis to familiarize
yourself with the data and discover initialinsights
• Evaluate the quality of the data• If desired, select interesting subsets that may
contain actionable patterns
2. Data Understanding
• Collect the data• Use exploratory data analysis to familiarize
yourself with the data and discover initialinsights
• Evaluate the quality of the data• If desired, select interesting subsets that may
contain actionable patterns
• Collect the data• Use exploratory data analysis to familiarize
yourself with the data and discover initialinsights
• Evaluate the quality of the data• If desired, select interesting subsets that may
contain actionable patterns
140
• Prepare from the initial raw data the finaldata set that is to be used for all subsequentphases
• Select the cases and variables you want toanalyze and that are appropriate for youranalysis
• Perform data cleaning, integration, reductionand transformation, so it is ready for themodeling tools
3. Data Preparation
• Prepare from the initial raw data the finaldata set that is to be used for all subsequentphases
• Select the cases and variables you want toanalyze and that are appropriate for youranalysis
• Perform data cleaning, integration, reductionand transformation, so it is ready for themodeling tools
• Prepare from the initial raw data the finaldata set that is to be used for all subsequentphases
• Select the cases and variables you want toanalyze and that are appropriate for youranalysis
• Perform data cleaning, integration, reductionand transformation, so it is ready for themodeling tools
141
• Select and apply appropriate modelingtechniques
• Calibrate model settings to optimize results• Remember that often, several different
techniques may be used for the same datamining problem
• If necessary, loop back to the datapreparation phase to bring the form of thedata into line with the specific requirementsof a particular data mining technique
4. Modeling
• Select and apply appropriate modelingtechniques
• Calibrate model settings to optimize results• Remember that often, several different
techniques may be used for the same datamining problem
• If necessary, loop back to the datapreparation phase to bring the form of thedata into line with the specific requirementsof a particular data mining technique
• Select and apply appropriate modelingtechniques
• Calibrate model settings to optimize results• Remember that often, several different
techniques may be used for the same datamining problem
• If necessary, loop back to the datapreparation phase to bring the form of thedata into line with the specific requirementsof a particular data mining technique
142
• Evaluate the one or more models delivered inthe modeling phase for quality andeffectiveness before deploying them for use inthe field
• Determine whether the model in fact achievesthe objectives set for it in the first phase
• Establish whether some important facet of thebusiness or research problem has not beenaccounted for sufficiently
• Come to a decision regarding use of the datamining results
5. Evaluation
• Evaluate the one or more models delivered inthe modeling phase for quality andeffectiveness before deploying them for use inthe field
• Determine whether the model in fact achievesthe objectives set for it in the first phase
• Establish whether some important facet of thebusiness or research problem has not beenaccounted for sufficiently
• Come to a decision regarding use of the datamining results
• Evaluate the one or more models delivered inthe modeling phase for quality andeffectiveness before deploying them for use inthe field
• Determine whether the model in fact achievesthe objectives set for it in the first phase
• Establish whether some important facet of thebusiness or research problem has not beenaccounted for sufficiently
• Come to a decision regarding use of the datamining results
143
• Make use of the models created:• model creation does not signify the completion of a
project
• Example of a simple deployment:• Generate a report
• Example of a more complex deployment:• Implement a parallel data mining process in another
department
• For businesses, the customer often carriesout the deployment based on your model
6. Deployment
• Make use of the models created:• model creation does not signify the completion of a
project
• Example of a simple deployment:• Generate a report
• Example of a more complex deployment:• Implement a parallel data mining process in another
department
• For businesses, the customer often carriesout the deployment based on your model
• Make use of the models created:• model creation does not signify the completion of a
project
• Example of a simple deployment:• Generate a report
• Example of a more complex deployment:• Implement a parallel data mining process in another
department
• For businesses, the customer often carriesout the deployment based on your model
144
Studi Kasus CRISP-DM
Heating Oil Consumption – Correlational Methods(Matthew North, Data Mining for the Masses 2nd Edition, 2016,Chapter 4 Correlational Methods, pp. 69-76)Dataset: HeatingOil.csv
Heating Oil Consumption – Correlational Methods(Matthew North, Data Mining for the Masses 2nd Edition, 2016,Chapter 4 Correlational Methods, pp. 69-76)Dataset: HeatingOil.csv
145
CRISP-DM
146
CRISP-DM: Detail Flow
147
• Motivation:• Sarah is a regional sales manager for a nationwide supplier of
fossil fuels for home heating• She feels a need to understand the types of behaviors and
other factors that may influence the demand for heating oil inthe domestic market
• She recognizes that there are many factors that influenceheating oil consumption, and believes that by investigatingthe relationship between a number of those factors, she willbe able to better monitor and respond to heating oil demand
• She has selected correlation as a way to model therelationship between the factors she wishes to investigate.Correlation is a statistical measure of how strong therelationships are between attributes in a data set
• Objective:• To investigate the relationship between a number of factors
that influence heating oil consumption
1. Business Understanding
• Motivation:• Sarah is a regional sales manager for a nationwide supplier of
fossil fuels for home heating• She feels a need to understand the types of behaviors and
other factors that may influence the demand for heating oil inthe domestic market
• She recognizes that there are many factors that influenceheating oil consumption, and believes that by investigatingthe relationship between a number of those factors, she willbe able to better monitor and respond to heating oil demand
• She has selected correlation as a way to model therelationship between the factors she wishes to investigate.Correlation is a statistical measure of how strong therelationships are between attributes in a data set
• Objective:• To investigate the relationship between a number of factors
that influence heating oil consumption
• Motivation:• Sarah is a regional sales manager for a nationwide supplier of
fossil fuels for home heating• She feels a need to understand the types of behaviors and
other factors that may influence the demand for heating oil inthe domestic market
• She recognizes that there are many factors that influenceheating oil consumption, and believes that by investigatingthe relationship between a number of those factors, she willbe able to better monitor and respond to heating oil demand
• She has selected correlation as a way to model therelationship between the factors she wishes to investigate.Correlation is a statistical measure of how strong therelationships are between attributes in a data set
• Objective:• To investigate the relationship between a number of factors
that influence heating oil consumption
148
• In order to investigate her question, Sarah has enlisted ourhelp in creating a correlation matrix of six attributes
• Using employer’s data resources which are primarily drawnfrom the company’s billing database, we create a data setcomprised of the following attributes:
1. Insulation: This is a density rating, ranging from one to ten,indicating the thickness of each home’s insulation. A homewith a density rating of one is poorly insulated, while a homewith a density of ten has excellent insulation
2. Temperature: This is the average outdoor ambienttemperature at each home for the most recent year, measurein degree Fahrenheit
3. Heating_Oil: This is the total number of units of heating oilpurchased by the owner of each home in the most recent year
4. Num_Occupants: This is the total number of occupants livingin each home
5. Avg_Age: This is the average age of those occupants6. Home_Size: This is a rating, on a scale of one to eight, of the
home’s overall size. The higher the number, the larger thehome
2. Data Understanding• In order to investigate her question, Sarah has enlisted our
help in creating a correlation matrix of six attributes• Using employer’s data resources which are primarily drawn
from the company’s billing database, we create a data setcomprised of the following attributes:
1. Insulation: This is a density rating, ranging from one to ten,indicating the thickness of each home’s insulation. A homewith a density rating of one is poorly insulated, while a homewith a density of ten has excellent insulation
2. Temperature: This is the average outdoor ambienttemperature at each home for the most recent year, measurein degree Fahrenheit
3. Heating_Oil: This is the total number of units of heating oilpurchased by the owner of each home in the most recent year
4. Num_Occupants: This is the total number of occupants livingin each home
5. Avg_Age: This is the average age of those occupants6. Home_Size: This is a rating, on a scale of one to eight, of the
home’s overall size. The higher the number, the larger thehome
• In order to investigate her question, Sarah has enlisted ourhelp in creating a correlation matrix of six attributes
• Using employer’s data resources which are primarily drawnfrom the company’s billing database, we create a data setcomprised of the following attributes:
1. Insulation: This is a density rating, ranging from one to ten,indicating the thickness of each home’s insulation. A homewith a density rating of one is poorly insulated, while a homewith a density of ten has excellent insulation
2. Temperature: This is the average outdoor ambienttemperature at each home for the most recent year, measurein degree Fahrenheit
3. Heating_Oil: This is the total number of units of heating oilpurchased by the owner of each home in the most recent year
4. Num_Occupants: This is the total number of occupants livingin each home
5. Avg_Age: This is the average age of those occupants6. Home_Size: This is a rating, on a scale of one to eight, of the
home’s overall size. The higher the number, the larger thehome
149
Data set: HeatingOil.csv3. Data Preparation
150
• Data set appears to be very clean with:• No missing values in any of the six attributes• No inconsistent data apparent in our ranges (Min-Max)
or other descriptive statistics
3. Data Preparation• Data set appears to be very clean with:
• No missing values in any of the six attributes• No inconsistent data apparent in our ranges (Min-Max)
or other descriptive statistics
151
4. Modeling
152
• Hasil correlation matrix berupa tabel• Semakin tinggi nilainya (semakin tebal warna
ungu), semakin tinggi tingkat korelasinya
4. Modeling
• Hasil correlation matrix berupa tabel• Semakin tinggi nilainya (semakin tebal warna
ungu), semakin tinggi tingkat korelasinya
153
5. EvaluationPositiveCorrelation
NegativeCorrelationNegativeCorrelation
154
• Atribut (faktor) yang paling signifikan berpengaruh (hubungan positif)pada konsumsi minyak pemanas (Heating Oil) adalah Average Age (Rata-Rata Umur) penghuni rumah
• Atribut (faktor) kedua yang paling berpengaruh adalah Temperature(hubungan negatif)
• Atribut (faktor) ketiga yang paling berpengaruh adalah Insulation(hubungan positif)
• Atribut Home Size, pengaruhnya sangat kecil, sedangkan Num_Occupantboleh dikatakan tidak ada pengaruh ke konsumsi minyak pemanas
5. Evaluation• Atribut (faktor) yang paling signifikan berpengaruh (hubungan positif)
pada konsumsi minyak pemanas (Heating Oil) adalah Average Age (Rata-Rata Umur) penghuni rumah
• Atribut (faktor) kedua yang paling berpengaruh adalah Temperature(hubungan negatif)
• Atribut (faktor) ketiga yang paling berpengaruh adalah Insulation(hubungan positif)
• Atribut Home Size, pengaruhnya sangat kecil, sedangkan Num_Occupantboleh dikatakan tidak ada pengaruh ke konsumsi minyak pemanas
155
5. Evaluation 1
2
• Grafik menunjukkan bahwa konsumsi minyak memiliki korelasipositif dengan rata-rata usia
• Meskipun ada beberapa anomali juga terjadi:1. Ada beberapa orang yang rata-rata usia tinggi, tapi kebutuhan
minyaknya rendah (warna biru muda di kolom kiri bagian atas)2. Ada beberapa orang yang rata-rata usia rendah, tapi kebutuhan
minyaknya tinggi (warna merah di kolom kanan bagian bawah)156
5. Evaluation 2 dan 3
2 dan 3
1. Grafik menunjukkan hubungan antara temperature dan insulation, dengan warna adalah konsumsi minyak(semakin merah kebutuhan minyak semakin tinggi)
2. Secara umum dapat dikatakan bahwa hubungan temperatur dengan insulation dan konsumsi minyak adalahnegatif. Jadi temperatur semakin rendah, kebutuhan minyak semakin tinggi (kolom kiri bagian atas) ditunjukkandengan banyak yang berwarna kuning dan merah
3. Insulation juga berhubungan negatif dengan temperatur, sehingga makin rendah temperatur, semakin butuhinsulation
4. Beberapa anomali terdapat pada Insulation yang rendah nilainya, ada beberapa yang masih memerlukan minyakyang tinggi
2 dan 3
4
1. Grafik menunjukkan hubungan antara temperature dan insulation, dengan warna adalah konsumsi minyak(semakin merah kebutuhan minyak semakin tinggi)
2. Secara umum dapat dikatakan bahwa hubungan temperatur dengan insulation dan konsumsi minyak adalahnegatif. Jadi temperatur semakin rendah, kebutuhan minyak semakin tinggi (kolom kiri bagian atas) ditunjukkandengan banyak yang berwarna kuning dan merah
3. Insulation juga berhubungan negatif dengan temperatur, sehingga makin rendah temperatur, semakin butuhinsulation
4. Beberapa anomali terdapat pada Insulation yang rendah nilainya, ada beberapa yang masih memerlukan minyakyang tinggi 157
5. Evaluation
4
1. Grafik tiga dimensi menunjukkan hubungan antara temperatur, rata-ratausia dan insulation
2. Warna menunjukkan kebutuhan minyak, semakin memerah makasemakin tinggi
3. Temperatur semakin tinggi semakin tidak butuh minyak (warna biru tua4. Rata-rata usia dan insulation semakin tinggi semakin butuh minyak
2
1. Grafik tiga dimensi menunjukkan hubungan antara temperatur, rata-ratausia dan insulation
2. Warna menunjukkan kebutuhan minyak, semakin memerah makasemakin tinggi
3. Temperatur semakin tinggi semakin tidak butuh minyak (warna biru tua4. Rata-rata usia dan insulation semakin tinggi semakin butuh minyak
158
Dropping the Num_Occupants attribute
• While the number of people living in a home mightlogically seem like a variable that would influenceenergy usage, in our model it did not correlate in anysignificant way with anything else
• Sometimes there are attributes that don’t turn out tobe very interesting
6. DeploymentDropping the Num_Occupants attribute
• While the number of people living in a home mightlogically seem like a variable that would influenceenergy usage, in our model it did not correlate in anysignificant way with anything else
• Sometimes there are attributes that don’t turn out tobe very interesting
159
Adding additional attributes to the data set
• It turned out that the number of occupants in thehome didn’t correlate much with other attributes,but that doesn’t mean that other attributes wouldbe equally uninteresting
• For example, what if Sarah had access to thenumber of furnaces and/or boilers in each home?
• Home_size was slightly correlated with Heating_Oilusage, so perhaps the number of instruments thatconsume heating oil in each home would tell aninteresting story, or at least add to her insight
6. Deployment
Adding additional attributes to the data set
• It turned out that the number of occupants in thehome didn’t correlate much with other attributes,but that doesn’t mean that other attributes wouldbe equally uninteresting
• For example, what if Sarah had access to thenumber of furnaces and/or boilers in each home?
• Home_size was slightly correlated with Heating_Oilusage, so perhaps the number of instruments thatconsume heating oil in each home would tell aninteresting story, or at least add to her insight
Adding additional attributes to the data set
• It turned out that the number of occupants in thehome didn’t correlate much with other attributes,but that doesn’t mean that other attributes wouldbe equally uninteresting
• For example, what if Sarah had access to thenumber of furnaces and/or boilers in each home?
• Home_size was slightly correlated with Heating_Oilusage, so perhaps the number of instruments thatconsume heating oil in each home would tell aninteresting story, or at least add to her insight
160
Investigating the role of home insulation
• The Insulation rating attribute was fairly stronglycorrelated with a number of other attributes
• There may be some opportunity there to partnerwith a company that specializes in adding insulationto existing homes
6. Deployment
Investigating the role of home insulation
• The Insulation rating attribute was fairly stronglycorrelated with a number of other attributes
• There may be some opportunity there to partnerwith a company that specializes in adding insulationto existing homes
161
Focusing the marketing efforts to the city with lowtemperature and high average age of citizen
• The temperature attribute was fairly strongly negativecorrelated with a heating oil consumption
• The average age attribute was strongest positivecorrelated with a heating oil consumption
6. DeploymentFocusing the marketing efforts to the city with lowtemperature and high average age of citizen
• The temperature attribute was fairly strongly negativecorrelated with a heating oil consumption
• The average age attribute was strongest positivecorrelated with a heating oil consumption
Focusing the marketing efforts to the city with lowtemperature and high average age of citizen
• The temperature attribute was fairly strongly negativecorrelated with a heating oil consumption
• The average age attribute was strongest positivecorrelated with a heating oil consumption
162
Adding greater granularity in the data set
• This data set has yielded some interesting results, but it’spretty general
• We have used average yearly temperatures and totalannual number of heating oil units in this model
• But we also know that temperatures fluctuatethroughout the year in most areas of the world, and thusmonthly, or even weekly measures would not only belikely to show more detailed results of demand and usageover time, but the correlations between attributes wouldprobably be more interesting
• From our model, Sarah now knows how certain attributesinteract with one another, but in the day-to-day businessof doing her job, she’ll probably want to know aboutusage over time periods shorter than one year
6. Deployment
Adding greater granularity in the data set
• This data set has yielded some interesting results, but it’spretty general
• We have used average yearly temperatures and totalannual number of heating oil units in this model
• But we also know that temperatures fluctuatethroughout the year in most areas of the world, and thusmonthly, or even weekly measures would not only belikely to show more detailed results of demand and usageover time, but the correlations between attributes wouldprobably be more interesting
• From our model, Sarah now knows how certain attributesinteract with one another, but in the day-to-day businessof doing her job, she’ll probably want to know aboutusage over time periods shorter than one year
Adding greater granularity in the data set
• This data set has yielded some interesting results, but it’spretty general
• We have used average yearly temperatures and totalannual number of heating oil units in this model
• But we also know that temperatures fluctuatethroughout the year in most areas of the world, and thusmonthly, or even weekly measures would not only belikely to show more detailed results of demand and usageover time, but the correlations between attributes wouldprobably be more interesting
• From our model, Sarah now knows how certain attributesinteract with one another, but in the day-to-day businessof doing her job, she’ll probably want to know aboutusage over time periods shorter than one year
163
Studi Kasus CRISP-DM
Heating Oil Consumption – Linear Regression(Matthew North, Data Mining for the Masses 2nd Edition, 2016,Chapter 8 Linear Regression, pp. 159-171)Dataset: HeatingOil.csvDataset: HeatingOil-scoring.csvhttp://romisatriawahono.net/lecture/dm/dataset/
Heating Oil Consumption – Linear Regression(Matthew North, Data Mining for the Masses 2nd Edition, 2016,Chapter 8 Linear Regression, pp. 159-171)Dataset: HeatingOil.csvDataset: HeatingOil-scoring.csvhttp://romisatriawahono.net/lecture/dm/dataset/
164
CRISP-DM
165
CRISP-DM: Detail Flow
166
• Business is booming, her sales team is signing upthousands of new clients, and she wants to be sure thecompany will be able to meet this new level of demand
• Sarah’s new data mining objective is pretty clear: shewants to anticipate demand for a consumable product
• We will use a linear regression model to help her withher desired predictions. She has data, 1,218observations that give an attribute profile for eachhome, along with those homes’ annual heating oilconsumption
• She wants to use this data set as training data topredict the usage that 42,650 new clients will bring toher company
• She knows that these new clients’ homes are similar innature to her existing client base, so the existingcustomers’ usage behavior should serve as a solidgauge for predicting future usage by new customers
1. Business Understanding• Business is booming, her sales team is signing up
thousands of new clients, and she wants to be sure thecompany will be able to meet this new level of demand
• Sarah’s new data mining objective is pretty clear: shewants to anticipate demand for a consumable product
• We will use a linear regression model to help her withher desired predictions. She has data, 1,218observations that give an attribute profile for eachhome, along with those homes’ annual heating oilconsumption
• She wants to use this data set as training data topredict the usage that 42,650 new clients will bring toher company
• She knows that these new clients’ homes are similar innature to her existing client base, so the existingcustomers’ usage behavior should serve as a solidgauge for predicting future usage by new customers
• Business is booming, her sales team is signing upthousands of new clients, and she wants to be sure thecompany will be able to meet this new level of demand
• Sarah’s new data mining objective is pretty clear: shewants to anticipate demand for a consumable product
• We will use a linear regression model to help her withher desired predictions. She has data, 1,218observations that give an attribute profile for eachhome, along with those homes’ annual heating oilconsumption
• She wants to use this data set as training data topredict the usage that 42,650 new clients will bring toher company
• She knows that these new clients’ homes are similar innature to her existing client base, so the existingcustomers’ usage behavior should serve as a solidgauge for predicting future usage by new customers
167
• Sarah has assembled separate Comma Separated Values filecontaining all of these same attributes, for her 42,650 newclients
• She has provided this data set to us to use as the scoringdata set in our model
• Data set comprised of the following attributes:• Insulation: This is a density rating, ranging from one to ten,
indicating the thickness of each home’s insulation. A home witha density rating of one is poorly insulated, while a home with adensity of ten has excellent insulation
• Temperature: This is the average outdoor ambient temperatureat each home for the most recent year, measure in degreeFahrenheit
• Heating_Oil: This is the total number of units of heating oilpurchased by the owner of each home in the most recent year
• Num_Occupants: This is the total number of occupants living ineach home
• Avg_Age: This is the average age of those occupants• Home_Size: This is a rating, on a scale of one to eight, of the
home’s overall size. The higher the number, the larger the home
2. Data Understanding• Sarah has assembled separate Comma Separated Values file
containing all of these same attributes, for her 42,650 newclients
• She has provided this data set to us to use as the scoringdata set in our model
• Data set comprised of the following attributes:• Insulation: This is a density rating, ranging from one to ten,
indicating the thickness of each home’s insulation. A home witha density rating of one is poorly insulated, while a home with adensity of ten has excellent insulation
• Temperature: This is the average outdoor ambient temperatureat each home for the most recent year, measure in degreeFahrenheit
• Heating_Oil: This is the total number of units of heating oilpurchased by the owner of each home in the most recent year
• Num_Occupants: This is the total number of occupants living ineach home
• Avg_Age: This is the average age of those occupants• Home_Size: This is a rating, on a scale of one to eight, of the
home’s overall size. The higher the number, the larger the home
• Sarah has assembled separate Comma Separated Values filecontaining all of these same attributes, for her 42,650 newclients
• She has provided this data set to us to use as the scoringdata set in our model
• Data set comprised of the following attributes:• Insulation: This is a density rating, ranging from one to ten,
indicating the thickness of each home’s insulation. A home witha density rating of one is poorly insulated, while a home with adensity of ten has excellent insulation
• Temperature: This is the average outdoor ambient temperatureat each home for the most recent year, measure in degreeFahrenheit
• Heating_Oil: This is the total number of units of heating oilpurchased by the owner of each home in the most recent year
• Num_Occupants: This is the total number of occupants living ineach home
• Avg_Age: This is the average age of those occupants• Home_Size: This is a rating, on a scale of one to eight, of the
home’s overall size. The higher the number, the larger the home168
• Filter Examples: attribute value filter or custom filter• Avg_Age>=15.1• Avg_Age<=72.2
• Deleted Records= 42650-42042 = 508
3. Data Preparation• Filter Examples: attribute value filter or custom filter
• Avg_Age>=15.1• Avg_Age<=72.2
• Deleted Records= 42650-42042 = 508
• Filter Examples: attribute value filter or custom filter• Avg_Age>=15.1• Avg_Age<=72.2
• Deleted Records= 42650-42042 = 508
169
170
3. Modeling
171
4. Evaluation
172
5. Deployment
173
• Karena bantuan data mining sebelumnya, Sarah akhirnya mendapatkanpromosi menjadi VP marketing, yang mengelola ratusan marketer
• Sarah ingin para marketer dapat memprediksi pelanggan potensialmereka masing-masing secara mandiri. Masalahnya, dataHeatingOil.csv hanya boleh diakses oleh level VP (Sarah), dan tidakdiperbolehkan diakses oleh marketer secara langsung
• Sarah ingin masing-masing marketer membuat proses yang dapatmengestimasi kebutuhan konsumsi minyak dari client yang merekaapproach, dengan menggunakan model yang sebelumnya dihasilkanoleh Sarah, meskipun tanpa mengakses data training (HeatingOil.csv)
• Asumsikan bahwa data HeatingOil-Marketing.csv adalah data calonpelanggan yang berhasil di approach oleh salah satu marketingnya
• Yang harus dilakukan Sarah adalah membuat proses untuk:1. Mengkomparasi algoritma yang menghasilkan model yang memiliki akurasi
tertinggi (LR, NN, SVM), gunakan 10 Fold X Validation2. Menyimpan model ke dalam suatu file (operator Write Model)
• Yang harus dilakukan Marketer adalah membuat proses untuk:1. Membaca model yang dihasilkan Sarah (operator Read Model)2. Menerapkannya di data HeatingOil-Marketing.csv yang mereka miliki
• Mari kita bantu Sarah dan Marketer membuat dua proses tersebut
Latihan• Karena bantuan data mining sebelumnya, Sarah akhirnya mendapatkan
promosi menjadi VP marketing, yang mengelola ratusan marketer• Sarah ingin para marketer dapat memprediksi pelanggan potensial
mereka masing-masing secara mandiri. Masalahnya, dataHeatingOil.csv hanya boleh diakses oleh level VP (Sarah), dan tidakdiperbolehkan diakses oleh marketer secara langsung
• Sarah ingin masing-masing marketer membuat proses yang dapatmengestimasi kebutuhan konsumsi minyak dari client yang merekaapproach, dengan menggunakan model yang sebelumnya dihasilkanoleh Sarah, meskipun tanpa mengakses data training (HeatingOil.csv)
• Asumsikan bahwa data HeatingOil-Marketing.csv adalah data calonpelanggan yang berhasil di approach oleh salah satu marketingnya
• Yang harus dilakukan Sarah adalah membuat proses untuk:1. Mengkomparasi algoritma yang menghasilkan model yang memiliki akurasi
tertinggi (LR, NN, SVM), gunakan 10 Fold X Validation2. Menyimpan model ke dalam suatu file (operator Write Model)
• Yang harus dilakukan Marketer adalah membuat proses untuk:1. Membaca model yang dihasilkan Sarah (operator Read Model)2. Menerapkannya di data HeatingOil-Marketing.csv yang mereka miliki
• Mari kita bantu Sarah dan Marketer membuat dua proses tersebut
• Karena bantuan data mining sebelumnya, Sarah akhirnya mendapatkanpromosi menjadi VP marketing, yang mengelola ratusan marketer
• Sarah ingin para marketer dapat memprediksi pelanggan potensialmereka masing-masing secara mandiri. Masalahnya, dataHeatingOil.csv hanya boleh diakses oleh level VP (Sarah), dan tidakdiperbolehkan diakses oleh marketer secara langsung
• Sarah ingin masing-masing marketer membuat proses yang dapatmengestimasi kebutuhan konsumsi minyak dari client yang merekaapproach, dengan menggunakan model yang sebelumnya dihasilkanoleh Sarah, meskipun tanpa mengakses data training (HeatingOil.csv)
• Asumsikan bahwa data HeatingOil-Marketing.csv adalah data calonpelanggan yang berhasil di approach oleh salah satu marketingnya
• Yang harus dilakukan Sarah adalah membuat proses untuk:1. Mengkomparasi algoritma yang menghasilkan model yang memiliki akurasi
tertinggi (LR, NN, SVM), gunakan 10 Fold X Validation2. Menyimpan model ke dalam suatu file (operator Write Model)
• Yang harus dilakukan Marketer adalah membuat proses untuk:1. Membaca model yang dihasilkan Sarah (operator Read Model)2. Menerapkannya di data HeatingOil-Marketing.csv yang mereka miliki
• Mari kita bantu Sarah dan Marketer membuat dua proses tersebut174
Proses Komparasi Algoritma (Sarah)
175
Proses Pengujian Data (Marketer)
176
• Pahami dan lakukan eksperimen berdasarkanseluruh studi kasus yang ada di buku DataMining for the Masses (Matthew North)
• Pahami bahwa metode CRISP-DM membantukita memahami penggunaan metode datamining yang lebih sesuai dengan kebutuhanorganisasi
Latihan
• Pahami dan lakukan eksperimen berdasarkanseluruh studi kasus yang ada di buku DataMining for the Masses (Matthew North)
• Pahami bahwa metode CRISP-DM membantukita memahami penggunaan metode datamining yang lebih sesuai dengan kebutuhanorganisasi
• Pahami dan lakukan eksperimen berdasarkanseluruh studi kasus yang ada di buku DataMining for the Masses (Matthew North)
• Pahami bahwa metode CRISP-DM membantukita memahami penggunaan metode datamining yang lebih sesuai dengan kebutuhanorganisasi
177
• Analisis masalah dan kebutuhan yang ada di organisasilingkungan sekitar anda
• Kumpulkan dan review dataset yang tersedia, danhubungkan masalah dan kebutuhan tadi dengan datayang tersedia (analisis dari 5 peran data mining). Bilamemungkinkan pilih beberapa peran untuk mengolahdata tersebut, misalnya: lakukan association (analisisfaktor), sekaligus estimation.
• Lakukan proses menggunakan CRISP-DM untukmenyelesaikan masalah yang ada di organisasi andasesuai dengan data yang didapatkan
• Pada proses data preparation, lakukan data cleaning (replacemissing value, replace, filter attribute) sehingga data siapdimodelkan
• Lakukan juga komparasi algoritma untuk memilih algoritmaterbaik
• Rangkumkan dalam bentuk slide (lihat contoh di slide02-proses)
Tugas• Analisis masalah dan kebutuhan yang ada di organisasi
lingkungan sekitar anda• Kumpulkan dan review dataset yang tersedia, dan
hubungkan masalah dan kebutuhan tadi dengan datayang tersedia (analisis dari 5 peran data mining). Bilamemungkinkan pilih beberapa peran untuk mengolahdata tersebut, misalnya: lakukan association (analisisfaktor), sekaligus estimation.
• Lakukan proses menggunakan CRISP-DM untukmenyelesaikan masalah yang ada di organisasi andasesuai dengan data yang didapatkan
• Pada proses data preparation, lakukan data cleaning (replacemissing value, replace, filter attribute) sehingga data siapdimodelkan
• Lakukan juga komparasi algoritma untuk memilih algoritmaterbaik
• Rangkumkan dalam bentuk slide (lihat contoh di slide02-proses)
• Analisis masalah dan kebutuhan yang ada di organisasilingkungan sekitar anda
• Kumpulkan dan review dataset yang tersedia, danhubungkan masalah dan kebutuhan tadi dengan datayang tersedia (analisis dari 5 peran data mining). Bilamemungkinkan pilih beberapa peran untuk mengolahdata tersebut, misalnya: lakukan association (analisisfaktor), sekaligus estimation.
• Lakukan proses menggunakan CRISP-DM untukmenyelesaikan masalah yang ada di organisasi andasesuai dengan data yang didapatkan
• Pada proses data preparation, lakukan data cleaning (replacemissing value, replace, filter attribute) sehingga data siapdimodelkan
• Lakukan juga komparasi algoritma untuk memilih algoritmaterbaik
• Rangkumkan dalam bentuk slide (lihat contoh di slide02-proses)
178
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts andTechniques Third Edition, Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: PracticalMachine Learning Tools and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data MiningUse Cases and Business Analytics Applications, CRC Press Taylor &Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introductionto Data Mining, John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MITPress, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models andTechniques, Springer, 2011
7. Oded Maimon and Lior Rokach, Data Mining and KnowledgeDiscovery Handbook Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advancesin Data Mining of Enterprise Data: Algorithms and Applications,World Scientific, 2007
Referensi1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and
Techniques Third Edition, Elsevier, 20122. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical
Machine Learning Tools and Techniques 3rd Edition, Elsevier, 20113. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining
Use Cases and Business Analytics Applications, CRC Press Taylor &Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introductionto Data Mining, John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MITPress, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models andTechniques, Springer, 2011
7. Oded Maimon and Lior Rokach, Data Mining and KnowledgeDiscovery Handbook Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advancesin Data Mining of Enterprise Data: Algorithms and Applications,World Scientific, 2007
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts andTechniques Third Edition, Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: PracticalMachine Learning Tools and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data MiningUse Cases and Business Analytics Applications, CRC Press Taylor &Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introductionto Data Mining, John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MITPress, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models andTechniques, Springer, 2011
7. Oded Maimon and Lior Rokach, Data Mining and KnowledgeDiscovery Handbook Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advancesin Data Mining of Enterprise Data: Algorithms and Applications,World Scientific, 2007
179