accuracy measure - jurusan informatika · setiap sampel dari training set memiliki atribut dan klas...
TRANSCRIPT
Accuracy MeasureAccuracy MeasurePrecision, Recall & FPrecision, Recall & F--MeasureMeasure
Dr. Taufik Fuadi Abidin, S.Si., M.Tech
Program Studi Teknik InformatikaFMIPA Universitas Syiah Kuala
www.informatika.unsyiah.ac.id/tfa
Bahan Kuliah Data Mining
Outline Pertemuan
Perhitungan Akurasi untuk Kasus Klasifikasi
Confusion Matriks
Definisi: Precision, Recall
F-Measure
Perhitungan Akurasi Menggunakan Perangkat Lunak Weka: Contoh Kasus Pima-Diabetes
Klasifikasi Perlu Training Set
Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning)
Untuk melakukan klasifikasi, dibutuhkan training set sebagai data pembelajaran
Setiap sampel dari training set memiliki atribut dan klas label. Contoh klas label:
Usulan kredit : diterima atau ditolak
Kelulusan : pujian, sangat memuaskan, memuaskan
Contoh Kasus KlasifikasiSebuah perusahaan kartu kredit (credit card) menerima ribuan aplikasi baru setiap hari untuk mengajukan kartu kredit baru. Setiap aplikasi memiliki informasi tentang peserta, misalnya:
UmurStatus perkawinanPendapatan per tahundan lain-lain
Problem: menentukan aplikasi mana yang dapat disetujui dan aplikasi mana yang harus ditolak
Mengukur Hasil Klasifikasi
Bagaimana cara mengukur sebuah metode klasifikasi (yang digunakan untuk menentukan klas label dari sampel baru) memiliki akurasi yang tinggi?
Atau, dalam memilih metode klasifikasi terbaik, apa sebenarnya yang diukur dan dibandingkan?
Bagaimana cara mengukur akurasi?
Dua Tahapan Klasifikasi
Learning (training): Pembelajaran menggunakan data training
Testing: Menguji metode atau model menggunakan data testing
diuji yang testingsampel Total
benar secara asidiklasifik yangJumlah =Akurasi
Sumber: Bing Liu, Web Data Mining
Asumsi Saat Pembelajaran
Distribusi dari training sample diasumsikan sama dengan distribusi dari testing sampel termasuk distribusi dari data baru (unclassified sample) yang ingin diduga klas labelnya
Untuk mendapat akurasi yang baik saat mengklasifikasi testing data maka training set harus mampu merepresentasikan keadaan dari data tes
Jika tidak, maka akurasi biasanya rendah (kurang baik)
Confusion Matriks
. .FNTP
TP r
FPTP
TPp
+=
+=
Sumber: Bing Liu, Web Data Mining
Precision (p) = jumlah sampel berkategori positif diklasifikasi benar dibagi dengan total sampel yang diklasifikasi sebagai sample positif
Recall (r) = jumlah sampel diklasifikasi positif dibagi total sampel dalam testing set berkategori positif
ContohSumber: Bing Liu, Web Data Mining
precision p = 100%
recall r = 1%
Mengapa? Karena kita hanya berhasil mengklasifikasi satu sampel positif secara benar dan semua sampel negatif benar
F-Measure (F1-Score)
F-Measure (F1) adalah harmonic mean dari precision dan recall
Range dari nilai F-Measure adalah 0 sd 1.
Hitung Precision, Recall dan F-Measure
Sumber: Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques