PEMILIHAN PRODUK ASURANSI BERDASARKAN PROFIL NASABAHMENGGUNAKAN KLASIFIKASI NAÏVE BAYES
(Skripsi)
Oleh
ARIF KURNIAWAN
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAMUNIVERSITAS LAMPUNG
BANDAR LAMPUNG2019
ABSTRACT
SELECTING PRODUCT OF INSURANSE BASED ON PROFILECLIENT USING NAÏVE BAYES CLASSIFICATION
By
Arif Kurniawan
Naïve Bayes Classification (NBC), is a classification method combining statisticmethod and data mining. The purpose of this study is to determine which NBCmodel whose highest accuracy in predicting the right product for the clients. Theresult shows that 90% data training and 10% data testing has the highest accuracycompare to other data with mean of the accuracy 95.7%. This indicates that NaïveBayes Classification capable to predict the right product for the clients.
Key words: Naïve Bayes Classification, Data Training, Data Testing,Accuracy
ABSTRAK
PEMILIHAN PRODUK ASURANSI BERDASARKAN PROFILNASABAH MENGGUNAKAN KLASIFIKASI NAÏVE BAYES
Oleh
Arif Kurniawan
Klasifikasi Naïve Bayes (KNB) adalah metode pengklasifikasian denganmenggabunngkan metode statistik dengan data mining. Tujuan dari penelitian iniadalah untuk menentukan model KNB yang memiliki akurasi paling tinggisehingga mampu memprediksi produk asuransi yang tepat bagi nasabah. Hasil daripenelitian ini menunjukkan bahwa akurasi tertinggi pada 90% data training dan10% data testing dengan rata-rata nilai akurasi 95.7%. Klasifikasi Naïve Bayesmampu memprediksi produk asuransi yang tepat berdasarkan profil nasabahasuransi.
Kata kunci: Klasifikasi Naïve Bayes, Data Training, DataTesting, KNB, Akurasi
PEMILIHAN PRODUK ASURANSI BERDASARKAN PROFIL NASABAH
MENGGUNAKAN KLASIFIKASI NAÏVE BAYES
Oleh
ARIF KURNIAWAN
Skripsi
Sebagai Salah Satu Syarat Untuk Memperoleh Gelar
SARJANA SAINS
pada
Jurusan Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS LAMPUNG
BANDAR LAMPUNG
2019
RIWAYAT HIDUP
Penulis bernama lengkap Arif Kurniawan, anak bungsu dari Bapak
Nazaruddin Wahab dan Ibu Murni Serapa serta adik dari Lisna Utami.
Penulis lahir di Bandar Lampung pada tanggal 16 November 1996.
Penulis menempuh pendidikan dasar di SDN 2 Palapa dari tahun 2002 –
2008. Kemudian melanjutkan pendidikan di SMPN 25 Bandar Lampung
dan lulus pada tahun 2011. Kemudian menempuh pendidikan di SMAN 3
Bandar Lampung dan lulus pada tahun 2014.
Pada tahun 2014 penulis diterima sebagai mahasiswa di Jurusan Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung
melalui jalur Seleksi Nasional Masuk Perguruan Tinggi Negeri (SNMPTN).
Pada tahun 2017 penulis melakukan Kerja Praktik di Kantor PT. Asuransi
Jiwasraya Kantor Cabang Bandar Lampung dan melaksanakan Kuliah Kerja
Nyata di Desa Gunung Sugih, Kecamatan Kedondong, Kabupaten
Pesawaran. Selain di bidang akademik penulis juga aktif dalam organisasasi,
pada tahun 2015-2016 penulis menjadi salah satu anggota dari organisasi
HIMATIKA Universitas Lampung selama 2 periode dengan menjabat
sebagai anggota bidang eksternal.
KATA INSPIRASI
Guide Us To The Straight Path
(Al Fatihah: 6)
Everyone must choose one of the two pains: the
pain of discipline or the pain of regret
(unknown)
Your IQ means nothing when you affraid to start
(Arif Kurniawan)
PERSEMBAHAN
Karyaku yang kecil dan sederhana ini ku persembahkan kepada:
Ayah dan Ibu
Terima kasih kepada Ayah dan Ibu yang senantiasa sabar membimbing,memberikan semangat, dukungan moril dan materil serta do’a dan kasih sayang
yang tiada henti.
Kakakku Lisna Utami
Terima kasih kepada kakakku Ami yang selalu memberikan do’a,motivasi, semangat, dan candaan penghibur selama ini.
Pak Rudi, Bu Netti dan Pak mustofa
Orangtua akademikku, tenaga pengajar yang telah membimbing,memberi nasihat juga menjadi inspirasi.
Sahabat-sahabatku
Terima kasih sahabatku terutama sahabat sedari SMA yang telah memberimotivasi, semangat, saran dan doa. Serta pengalaman yang berharga.
Almamater dan Negeriku
SANWACANA
Puji syukur kehadirat Allah SWT yang telah memberikan limpahan rahmat, taufik
serta hidayah-Nya, sehingga penulis dapat menyelesaikan skripsi ini, dengan judul
Pemilihan Produk Asuransi Berdasarkan Profil Nasabah Menggunakan Naïve
Bayes. Penulis menyadari bahwa skripsi ini tidak akan terwujud tanpa adanya
dukungan bimbingan, bantuan, saran, serta do’a dari berbagai pihak sehingga
skripsi ini dapat terselesaikan. Oleh karena itu, dalam kesempatan ini penulis
menyampaikan terima kasih kepada:
1. Bapak Drs. Rudi Ruswandi, M.Si., selaku dosen pembimbing satu dan
sekaligus pembimbing akademik yang telah memberikan motivasi,
pengarahan, dan saran kepada penulis dalam menyelesaikan skripsi ini.
2. Ibu Ir. Netti Herawati, M.Sc., Ph.D., selaku pembimbing dua yang
telah memberikan saran serta pembelajaran yang sangat bermanfaat
dalam menyelesaikan skripsi.
3. Prof. Drs. Mustofa Usman, M.A., Ph.D., selaku pembahas dan penguji
skripsi yang telah memberikan evaluasi, arahan, dan saran demi perbaikan
skripsi.
4. Ibu Prof. Dra. Wamiliana, M.A., Ph.D., selaku Ketua Jurusan Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung.
5. Seluruh dosen, Jurusan Matematika Fakultas Matematika dan Ilmu
Pengetahuan Alam Universitas Lampung.
6. Ayah, Ibu, dan Kakak tercinta yang selalu memberi semangat, dukungan dan
berdo’a demi kesuksesan penulis.
7. Sahabat seperjuangan Redi, Rama, Raka, Aldo, Rara, Linda, terima
kasih atas segala dukungan, motivasi, saran, semangat, candaan, dan
pembelajaran yang sangat berarti.
8. Sahabat-sahabat FIM Fadjar, Yudandi, Zulfi, Kiki, Ecy, Syafa, Wika, Yola,
Magdalena, Fransiska, Caroline, Ananda, Dea, Maget, Pule, Manda, yang
selalu berbagi cerita dan canda sejak awal dan akhir perkuliahan.
9. Annisaul, Kiki, Abror, Anin, Nanda, Fadil, Rafika, Fara, Tewe, Ratna,
Kurdes, Bang Young, Bang Mus, Yunda Della, Yunda Yucky, Yunda
Eno, yang telah membagi keceriaan dan kebahagiaan bagi penulis.
10. Abdul Kodir, Wahyu Hidayat, Arisca, Arum, Yunda Shintia, yang
menyempatkan waktu mengajarkan beberapa materi perkuliahan.
11. Teman-teman mahasiswa Jurusan Matematika angkatan 2014.
Akhir kata, penulis menyadari bahwa masih ada kekurangan dari skripsi ini,
akan tetapi besar harapan semoga skripsi ini dapat bermanfaat bagi kita semua.
Sekian Terima Kasih
Bandar Lampung, 19 Juli 2019
Penulis
Arif Kurniawan
DAFTAR ISI
Halaman
DAFTAR TABEL ................................................................................................xv
I. PENDAHULUAN ............................................................................................1
1.1 Latar Belakang dan Masalah .....................................................................11.2 Tujuan Penelitian.......................................................................................21.3 Manfaat Penelitian.....................................................................................2
II. TINJAUAN PUSTAKA ...................................................................................3
2.1 Konsep Peluang ........................................................................................ 32.2 Peluang Bersyarat ..................................................................................... 42.3 Peluang Saling Bebas ............................................................................... 42.4 Data Mining...............................................................................................52.5 Analisis Prediktif Pengklasifikasian......................................................... 62.6 Distribusi Binomial....................................................................................62.7 Distribusi Multinomial...............................................................................72.8 Teorema Bayes..........................................................................................72.9 Klasifikasi Naïve Bayes.............................................................................92.10 Evaluasi Tingkat Akurasi .........................................................................12
III. METODOLOGI PENELITIAN ...................................................................15
3.1 Waktu dan Tempat Penelitian .................................................................153.2 Data Penelitian ........................................................................................153.3 Metode Penelitian ....................................................................................16
IV. HASIL DAN PEMBAHASAN ......................................................................18
4.1 Hasil Simulasi dan Deskripsi Data……..................................................184.2 Klasifikasi Naïve Bayes...........................................................................19
4.2.1 Tahap Training..............................................................................194.2.2 Tahap Klasifikasi..........................................................................22
4.3 Akurasi Model………................................................................................24
V. KESIMPULAN ..............................................................................................26
DAFTAR PUSTAKA ............................................................................................27
LAMPIRAN
DAFTAR TABEL
Tabel Halaman
1. Model Confussion Matrix……..…….......................................................... 13
2. Struktur Data Bangkitan .................................................................. 16
3. Klasifikasi Awal........................................................................................... 18
4. Struktur Data Berdasarkan Variabel Prediktor dengan VariabelRespon......................................................................................................... 19
5. Data Training 90%....................................................................................... 20
6. Peluang Prior Yj........................................................................................... 21
7. Peluang Kondisional Xi di proporsi data training 90%................................ 21
8. Hasil Perhitungan pada Data Testing 10%.................................................. 22
9. Klasifikasi pada Data Testing 10%.............................................................. 23
10. Confussion Matrix pada Data Training 90%dan Data Testing 10%............ 24
11. Akurasi Model............................................................................................ 25
xv
I. PENDAHULUAN
1.1 Latar Belakang dan Masalah
Menurut Gordon (1999), subjek dari klasifikasi adalah meneliti hubungan antara
sekumpulan variabel yang bertujuan menentukan valid atau tidaknya data dapat
dilambangkan dengan beberapa kelas berkaitan dengan variabel tersebut.
Masalah terjadi jika jumlah data yang ada sangatlah banyak, kompleks, dan
mengandung informasi penting. Dalam dunia bisnis, data menjadi aset yang
penting dalam pengambilan strategi.
Klasifikasi adalah salah satu dari metode data mining yang dapat mencari pola
atau informasi dari sekumpulan data yang sangat banyak berbasis komputer.
Komputer memainkan peran penting dalam metode data mining, pada prakteknya
informasi yang sangat kompleks dan berjumlah banyak dapat diolah dengan baik
oleh komputer.
Klasifikasi Naïve Bayes merupakan metode klasifikasi berdasarkan Teorema
Bayes dengan asumsi setiap kelas tidak saling tergantung (independen). Metode
ini menggabungkan teknik statistika dengan data mining untuk mecari informasi
2
pada data yang kompleks guna mengklasifikasi kelas berdasarkan informasi
tambahan dengan akurasi yang sangat tinggi. Berdasarkan hal tersebut, tingkat
akurasi metode Klasifikasi Naïve Bayes akan diuji menggunakan data bangkitan.
1.2 Tujuan Penelitian
Adapun tujuan dari penelitian ini adalah:
1. Merekomendasikan produk asuransi yang tepat sesuai dengan profil
menggunakan metode klasifikasi Naïve Bayes.
2. Menentukan model klasifikasi yang cocok berdasarkan tingkat akurasi model
KNB yang paling tinggi.
1.3 Manfaat Penelitian
Adapun manfaat dari penelitian ini adalah menambah pengetahuan bagi penulis
dan memberi masukkan kepada para peneliti dan pembaca tentang metode
klasifikasi Naïve Bayes.
II. TINJAUAN PUSTAKA
2.1 Konsep Peluang
Menurut Lyman and Longnecker (2010), ruang sampel S adalah himpunan semua
hasil dari suatu percobaan. Kejadian E adalah himpunan bagian dari ruang sampel.
Peluang sutau kejadian P(E) adalah rasio dari banyaknya titik kejadian dan ruang
sampel ditulis:
( ) = ( )( ) (2.1)dimana ( ) dan ( ) berturut-turut adalah banyaknya titik kejadian dan ruang
sampel. Berikut adalah aksioma dan sifat peluang:
1. 0 ≤ ( ) ≤ 12. ({}) = 03. ( ) = 14. Untuk kejadian X dan Y( ∪ ) = ( ) + ( ) − ( ∩ )5. Jika kejadian X dan Y saling asing maka ( ∩ ) = 06. Kejadian X dan Y dikaitkan saling bebas jika ( ∩ ) = ( ). ( )7. Peluang bersyarat ( | ) = ( ∩ )( ) ; ( ) > 0
4
2.2 Peluang Bersyarat
Pada suatu percobaan akan menghasilkan dua atau lebih kemungkinan peristiwa
yang akan terjadi. Peluang akan terjadinya peristiwa Y dengan syarat peristiwa X
telah terjadi terlebih dahulu adalah:
( | ) = ( ∩ )( ) (2.2)yang menyatakan bahwa:( | ) = peluang peristiwa Y tejadi dengan syarat peristiwa X terjadi lebih
dulu( | ) = peluang peristiwa X dan peristiwa Y terjadi bersamaan( ) = peluang terjadinya peristiwa X
2.3 Peluang Saling Bebas
Menurut Lyman and Longnecker (2010), peluang bebas secara statistik jika
peristiwa X dikatakan bebas dari peristiwa Y jika salah satu peristiwa tidak
dipengaruhi oleh peristiwa lainnya. Dua peristiwa saling bebas dinyatakan dalam
hubungan X dan Y atau secara notasi himpunan ∩ adalah perkalian antara
kedua peluang tersebut. Secara simbolik:( ) = ( ∩ ) = ( ). ( ) (2.3)
5
2.4 Data Mining
Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan
pengetahuan di dalam database. Data mining adalah proses yang menggunakan
teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk
mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan
yang terakit dari berbagai database besar (Turban, 2005).
Menurut Gartner Group data mining adalah suatu proses menemukan hubungan
yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan
besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik
pengenalan pola seperti teknik statistik dan matematika (Larose and Daniel,
2005).
Dapat disimpulkan dari definisi diatas bahwa data mining adalah keseluruhan
proses dari bidang ilmu statistik, matematika, kecerdasan buatan untuk mencari
dan menemukan informasi dan pola dari data yang sangat banyak sekali.
Database yang akan digunakan dalam data mining dibagi menjadi dua yaitu data
training dan data testing. Data training adalah data yang digunakan untuk
menghasilkan model klasifikasi. Sedangkan data testing adalah data yang
digunakan untuk mengevaluasi model. Untuk menentukan banyak komposisi data
training dan data testing digunakan Teknik Cross-Validation atau yang sering
disebut estimasi rotasi. Dalam cross-validation proporsi data training dan data
testing dapat ditentukan dengan aturan komposisi data training lebih besar dari
data testing (Han and Kamber, 2012).
6
2.5 Analisis Prediktif Pengklasifikasian
Klasifikasi adalah proses untuk menemukan model atau fungsi yang
mendeskripsikan dan membedakan kelas data. Model diperoleh berdasarkan
analisis pada kumpulan data training, data training adalah sekumpulan objek data
yang dimana label kelas diketahui. Model yang didapat digunakan untuk
memprediksi kelas dari objek yang tidak diketahui label kelasnya (Han and
Kamber, 2012). Model yang didapat dari data training diuji menggunakan data
testing, data testing adalah objek data yang diketahui kelasnya dan akan dicari
hasil prediksi atau label kelas menggunakan model yang telah didapat sehingga
error pada model terlihat (Kantardzic, 2011).
2.6 Distribusi Binomial
Peubah acak X dikatakan berdistribusi binomial, jika dan hanya jika fungsi
peluangnya berbentuk:( ) = ( = ) = (1 − ) ; = 0,1,2, … , (2.4)
penulisan notasi dari peubah acak X yang berdistribusi binomial adalah ( ; , ),artinya peubah acak X berdistribusi binomial dengan banyak pengulangan
eksperimen sampai n kali, peluang terjadi peristiwa sukses sebesar p, dan banyak
peristiwa suskes terjadi ada x (Herrhyanto, 2011).
7
2.7 Distribusi Multinomial
Distribusi multinomial merupakan distribusi variabel acak diskrit dimana suatu
percobaan dapat menghasilkan beberapa kejadian. Jika suatu eksperimen
dilakukan dengan n percobaan, kita asumsikan:
1. Setiap hasil dari percobaan diklasifikasikan kedalam satu dari k kelas.
2. Peluang setiap percobaan yang bernilai akhir di kelas 1, kelas 2,…, kelas k
adalah konstan disemua percobaan setara dengan p1, p2,… ,pk.
3. Independen disetiap percobaan.
Random variabel , , … , menyatakan jumlah percobaan yang hasilnya
dinyatakan kedalam kelas 1, kelas 2, …, kelas k. secara berurutan, berdistribusi
multinomial dan distribusi peluangnya adalah
( = , = ,… , = ) = !!. !… ! . … (2.5)
untuk + +⋯+ = dan + +⋯+ = 1 (Douglass and George,
2003)
2.8 Teorema Bayes
Menurut Kenneth (2011), teorema bayes diadopsi dari nama penemunya yaitu
Thomas Bayes sekitar tahun 1950. Teorema bayes adalah sebuah teori, kondisi
probabilitas yang memperhitungkan probabilitas sebuah kejadian (hipotesis)
bergantung pada kejadian lain (fakta). Pada dasarnya, teorema tersebut
8
mengatakan bahwa suatu kejadian yang terjadi di masa depan atau yang belum
terjadi dapat diprediksi dengan syarat kejadian sebelumnya yang telah terjadi.
Teorema bayes adalah sebuah metode yang digunakan untuk menangani masalah
ketidakpastian data dan melakukan analisis dalam pengambilan keputusan terbaik
dari sejumlah alternatif dengan tujuan menghasilkan perolehan yang optimal.
Teorema bayes menyediakan beberapa rumusan untuk menarik kesimpulan
berdasarkan fakta (evidance) dan hipotesis. Berdasarkan persamaan (2.2) rumus
peluang bersyarat adalah
( | ) = ( ∩ )( )dengan mengalikan setiap sisi persamaan (2.2) dengan ( ) menghasilkan aturan
peluang saling bebas (2.3)
( ∩ ) = ( ). ( )( ∩ ) = ( ) ( | ) (2.6)
jika , … , partisi di ruang sampel, maka
( ) = ( ∩ ) = ( ) ( | ) (2.7)untuk menghitung ( | ) ketika ( ) dan ( | ) telah didapat maka
digabungkan ketiga persamaan (2.2), (2.6) dan (2.7) sehingga diperoleh Teorema
Bayes untuk fakta tunggal dan hipotesis tunggal sebagai berikut:
( | ) = ( ) ( | )( ) (2.8)
9
dengan:
P(Y|X) = probabilitas hipotesis Y terjadi jika fakta X terjadi
P(X|Y) = probabilitas munculnya fakta X, jika hipotesis Y terjadi
P(X) = probabilitas fakta X tanpa memandang hipotesis apapun
P(Y) = probabilitas hipotesis Y tanpa memandang fakta apapun
2.9 Klasifikasi Naive Bayes
Metode klasifikasi bayesian atau yang sering disebut merupakan metode
pengklasifikasian secara statistika yang memprediksi peluang anggota kelas
tertentu berdasarkan database yang memenuhi syarat keanggotaan kelas tersebut.
Naive Bayes dibangun berdasarkan Teorema Bayes.
Berdasarkan Teorema Bayes dan banyaknya penelitian dalam membandingkan
algoritma pengklasifikasi, sehingga ditemukanlah Klasifikasi Bayesian yang
dikenal dengan Klasifikasi Naïve Bayes dengan kinerja yang sederhana dan
mempunyai kecepatan serta tingkat akurasi yang tinggi sebanding dengan metode
pengklasifikasi lain tak terkecuali pada database yang besar. Ciri utama klasifikasi
Naive Bayes adalah asumsi akan independensi dari masing-masing atribut
terhadap kelas yang ada. Rumus Naive Bayes diturunkan dari hukum peluang
total:
10
Misalkan ruang sample S dipartisi menjadi himpunan-himpunan kejadian, = 1,2, … , dengan ( ) ≠ 0. Dapat ditulis,
= , (2.9)Dimana ⋂ = ∅ untuk ≠ dan , = 1,2, … , . Jika ⊂ maka,
= ( ∩ ) ∪ ( ∩ ) ∪ …∪ ( ∩ ) (2.10)= ( ∩ ) (2.11)
dengan demikian sesuai aksioma ke-3 peluang ditulis,
( ) = ( ∩ ) (2.12)dua kejadian tersebut dikatakan saling bebas jika, ( | ) ( ) = ( ) atau( | ) ( ) = ( ) sehingga,
( ∩ ) = ( | ) ( ) = ( ). ( ) (2.13)Misalkan { , , … , } adalah partisi dari ruang sampel dan misalkan adalah
kejadian yang terobservasi di dan ≠ 0 untuk j = 1, 2, ... maka peluang
kejadian bersyarat adalah:
= ( ⋂ )∑ ( ⋂ )= ( )∑ ( ⋂ )
11
= . , … , , … ,( ) (2.14)= ∏ , … , , , … ,( ) (2.15)
Naïve Bayes adalah penyederhanaan dari Teorema Bayes dengan mengasumsikan
secara kondisional independen di { , … , } bersyarat . Maka didapat
rumus Naïve Bayes
= ( ) ∏ ( | )( ) (2.16)dengan,
Probabilitas Y, P(Yj) =( )( ) (2.17)
Probabilitas Xi, ( ) =( )( ) , ( )( ) , ( )( ) , … , ( )
(2.18)
k = atribut pada Xi
Untuk menghitung P(Xi|Yj) terdapat dua aturan
a. Jika data dari atribut X merupakan data kategorik maka nilai P(Xi|Yj) adalah
nilai Xi yang terdapat pada kelas Yj dibagi dengan jumlah dari nilai Yj.
( | ) = (2.19)= ( ⋂ )( ) (2.20)
b. Jika data kontinu maka untuk mencari nilai P(Xi|Yj) diasumsikan mengikuti
distribusi Normal dengan parameter mean ( ) dan standar deviasi ( )
12
g (x, , ) = exp − ( )P(Xi|Yj) = g (x, , )
Pada Klasifikasi Naive Bayes hasil klasifikasi ditentukan dengan melihat nilai
P(Yj|X) paling besar dari setiap variabel Y (Han and Kamber, 2012).
2.10 Evaluasi Tingkat Akurasi
Menurut Han and Kamber (2012), Confusion Matrix merupakan sebuah metode
untuk evaluasi yang menggunakan tabel matrix seperti pada tabel. Pada tabel
dapat dilihat bahwa jika data terdiri dari dua kelas, kelas yang satu dianggap
sebagai positif dan yang lainnya negative. Evaluasi dengan confusion matrix
menghasilkan nilai akurasi, dan recall.
Nilai akurasi merupakan persentase jumlah record data yang diklasifikasikan
secara benar oleh sebuah algoritma dapat membuat klasifikasi setelah dilakukan
pengujian pada hasil klasifikasi tersebut. Sedangkan nilai dari recall atau
sensitifitas merupakan proporsi jumlah kasus positif yang sebenarnya yang
diprediksi positif secara benar.
13
Tabel 1. Model Confusion Matrix
Correct
Classification
Classification as
+ -
+ True positive False negative
- False posivite True negative
dengan:
True Positive = Jumlah record positif yang diklasifikasikan sebagai positif
False Positive = Jumlah record negatif yang diklasifikasikan sebagai positif
False Negative = Jumlah record positif yang diklasifikasikan sebagai negatif
True Negative = Jumlah record negatif yang diklasifikasikan sebagai negatif
Untuk mencari akurasi maka data uji kemudian dimasukkan ke dalam confusion
matrix, sehingga akan diperoleh jumlah sensitivity (recall positive), Specifity
(recall negative), dan akurasi. Sensitivity digunakan untuk membandingkan
jumlah True Positive (TP) terhadap jumlah record yang positif sedangkan
Specifity adalah perbandingan jumlah True Negative (TN) terhadap jumlah record
yang negatif. Untuk menghitung digunakan persamaan dibawah ini,
Sensitivity (Recall,True Positive Rate) = =Specifity (Recall,True Negative Rate) = =
14
Hal ini dapat menunjukkan bahwa akurasi adalah fungsi sensitivity dan specifity:
= ( + ) + ( + )= ++= × 100% (2.22)
dengan:
TP = jumlah true positif
TN = jumlah true negatif
P = jumlah data positif
N = jumlah data negatif
III. METODOLOGI PENELITIAN
3.1 Waktu dan Tempat Penelitian
Penelitian ini dilakukan pada semester genap tahun akademik 2017/2018
bertempat di Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas
Lampung.
3.2 Data Penelitian
Data yang digunakan adalah data yang dibangkitkan menggunakan software R
dengan jumlah n = 1000. Pembangkitan data sebanyak empat variabel bebas X1 ~Binomial, X2 ~Multinomial, X3 ~ Binomial, X4 ~ Binomial. Data bangkitan
memiliki struktur data seperti tabel berikut.
16
Tabel 2. Struktur Data Bangkitan
Variabel Prediktor (X) (Y1) (Y2) (Y3) (Y4) Jumlah
(X1)
X1=1 n(X11, Y1) n(X11, Y2) n(X11, Y3) n(X11, Y4) n(X11)
X1=2 n(X12, Y1) n(X12, Y2) n(X13, Y3) n(X14, Y4) n(X12)
Total n(Y1) n(Y2) n(Y3) n(Y4) N
(X2)X2=1 n(X21, Y1) n(X21, Y2) n(X21, Y3) n(X21, Y4) n(X21)
X2=2 n(X22, Y1) n(X22, Y2) n(X22, Y3) n(X22, Y4) n(X22)
X2=3 n(X23, Y1) n(X23, Y2) n(X23, Y3) n(X23, Y4) n(X23)
Total n(Y1) n(Y2) n(Y3) n(Y4) N
(X3)X3=1 n(X31, Y1) n(X31, Y2) n(X31, Y3) n(X31, Y4) n(X31)
X3=2 n(X32, Y1) n(X32, Y2) n(X32, Y3) n(X32, Y4) n(X32)
Total n(Y1) n(Y2) n(Y3) n(Y4) N
(X4)
X4=1 n(X41, Y1) n(X41, Y2) n(X41, Y3) n(X41, Y4) n(X41)
X4=2 n(X42, Y1) n(X42, Y2) n(X42, Y3) n(X41, Y4 ) n(X42)
Total n(Y1) n(Y2) n(Y3) n(Y4) N
3.3 Metode Penelitian
Langkah-langkah yang dilakukan pada penelitian ini adalah sebagai berikut:
1. Melakukan bangkitan data dengan bantuan software R dengan banyaknya data
sampel yang dibangkitkan n = 1000.
2. Tahap awal pengklasifikasian, data dibagi menjadi dalam empat kelas produk
asuransi dengan nama produk Maesro Link Plus (MLP), Super Protection Plus
(SPP), Smart Kidz (SK), dan Maestro Hospital Plan (MHP).
3. Menentukan struktur data awal data
4. Tahap Klasifikasi Naïve Bayes yaitu data awal menjadi data training dan data
testing. Selanjutnya melakukan proses terdiri dari dua tahap.
17
a. Tahap training yaitu mencari peluang prior dan mencari peluang kondisional
di X untuk mendapatkan nilai Likelihood
b. Tahap klasifikasi yaitu mengklasifikasi data menggunakan peluang posterior
dengan informasi tambahan pada tahap training sebelumnya
kemudian diterapkan pada data testing.
5. Pengujian tingkat akurasi
Menghitung rata-rata tingkat akurasi dari metode KNB menggunakan tabel
confussion-matrix
V. KESIMPULAN
Berdasarkan hasil-hasil yang telah didapat, dapat disimpulkan sebagai berikut.
1. Hasil pengujian tingkat akurasi didapatkan nilai akurasi tertinggi pada proporsi
data training 90% dan data testing 10% dengan rata- rata akurasi sebesar
95.7%. Maka model tersebut dipilih untuk pengklasifikasian nasabah asuransi.
2. Banyaknya data training tidak membuat akurasi menjadi lebih baik.
3. Klasifikasi Naïve Bayes mampu mengklasifikasi dengan akurasi tinggi dengan
data training yang sedikit.
DAFTAR PUSTAKA
Douglas, C. M., and George, C. R. 2003. Applied Statistics and Probability forEngineers. John Wiley & Sons, Inc., New York.
Han, J., Kamber, M., and Jian,P. 2012. Data Mining Concepts and Techniques,Third Edition. Morgan Kaufman, California.
Herrhyanto, N., dan Tuti, G. 2011. Pengantar Statistika Matematis. YramaWidya, Bandung.
Kenneth, T. 2011. Bayessian Design of Experiments for Complex ChemicalSystems. Disertasi. Massachusetts Institue of Technology, Cambridge.
Larose., and Daniel, T. 2005. Discovering Knowledge in Data: An introductionto Data Mining. John Willey & Sons, Inc., New Jersey.
Lyman, R., and Longnecker, M. 2010. Introduction to Statistical Method andData Analysis. Cengange, Belmont.
Kantardzic, M. 2011. Data Mining. John Willey & Sons, Inc., New Jersey.
Saptono, R., Wiranto., dan Suryono, W. 2016. Sistem Klasifikasi Keluhan diUPT TIK UNS Menggunakan Algoritma Naïve Bayes Classifier, hlm 641.Prosiding Seminar Nasional Teknologi Informasi dan Komunikasi,Yogyakarta.
Turban, E., dkk. 2005. Decicion Support Systems and Intelligent Systems. AndiOffset, Yogyakata.