pemilihan produk asuransi berdasarkan profil …digilib.unila.ac.id/58130/3/skripsi tanpa bab...

33
PEMILIHAN PRODUK ASURANSI BERDASARKAN PROFIL NASABAH MENGGUNAKAN KLASIFIKASI NAÏVE BAYES (Skripsi) Oleh ARIF KURNIAWAN FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS LAMPUNG BANDAR LAMPUNG 2019

Upload: others

Post on 29-Jan-2020

13 views

Category:

Documents


0 download

TRANSCRIPT

PEMILIHAN PRODUK ASURANSI BERDASARKAN PROFIL NASABAHMENGGUNAKAN KLASIFIKASI NAÏVE BAYES

(Skripsi)

Oleh

ARIF KURNIAWAN

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAMUNIVERSITAS LAMPUNG

BANDAR LAMPUNG2019

ABSTRACT

SELECTING PRODUCT OF INSURANSE BASED ON PROFILECLIENT USING NAÏVE BAYES CLASSIFICATION

By

Arif Kurniawan

Naïve Bayes Classification (NBC), is a classification method combining statisticmethod and data mining. The purpose of this study is to determine which NBCmodel whose highest accuracy in predicting the right product for the clients. Theresult shows that 90% data training and 10% data testing has the highest accuracycompare to other data with mean of the accuracy 95.7%. This indicates that NaïveBayes Classification capable to predict the right product for the clients.

Key words: Naïve Bayes Classification, Data Training, Data Testing,Accuracy

ABSTRAK

PEMILIHAN PRODUK ASURANSI BERDASARKAN PROFILNASABAH MENGGUNAKAN KLASIFIKASI NAÏVE BAYES

Oleh

Arif Kurniawan

Klasifikasi Naïve Bayes (KNB) adalah metode pengklasifikasian denganmenggabunngkan metode statistik dengan data mining. Tujuan dari penelitian iniadalah untuk menentukan model KNB yang memiliki akurasi paling tinggisehingga mampu memprediksi produk asuransi yang tepat bagi nasabah. Hasil daripenelitian ini menunjukkan bahwa akurasi tertinggi pada 90% data training dan10% data testing dengan rata-rata nilai akurasi 95.7%. Klasifikasi Naïve Bayesmampu memprediksi produk asuransi yang tepat berdasarkan profil nasabahasuransi.

Kata kunci: Klasifikasi Naïve Bayes, Data Training, DataTesting, KNB, Akurasi

PEMILIHAN PRODUK ASURANSI BERDASARKAN PROFIL NASABAH

MENGGUNAKAN KLASIFIKASI NAÏVE BAYES

Oleh

ARIF KURNIAWAN

Skripsi

Sebagai Salah Satu Syarat Untuk Memperoleh Gelar

SARJANA SAINS

pada

Jurusan Matematika

Fakultas Matematika dan Ilmu Pengetahuan Alam

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS LAMPUNG

BANDAR LAMPUNG

2019

RIWAYAT HIDUP

Penulis bernama lengkap Arif Kurniawan, anak bungsu dari Bapak

Nazaruddin Wahab dan Ibu Murni Serapa serta adik dari Lisna Utami.

Penulis lahir di Bandar Lampung pada tanggal 16 November 1996.

Penulis menempuh pendidikan dasar di SDN 2 Palapa dari tahun 2002 –

2008. Kemudian melanjutkan pendidikan di SMPN 25 Bandar Lampung

dan lulus pada tahun 2011. Kemudian menempuh pendidikan di SMAN 3

Bandar Lampung dan lulus pada tahun 2014.

Pada tahun 2014 penulis diterima sebagai mahasiswa di Jurusan Matematika

Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung

melalui jalur Seleksi Nasional Masuk Perguruan Tinggi Negeri (SNMPTN).

Pada tahun 2017 penulis melakukan Kerja Praktik di Kantor PT. Asuransi

Jiwasraya Kantor Cabang Bandar Lampung dan melaksanakan Kuliah Kerja

Nyata di Desa Gunung Sugih, Kecamatan Kedondong, Kabupaten

Pesawaran. Selain di bidang akademik penulis juga aktif dalam organisasasi,

pada tahun 2015-2016 penulis menjadi salah satu anggota dari organisasi

HIMATIKA Universitas Lampung selama 2 periode dengan menjabat

sebagai anggota bidang eksternal.

KATA INSPIRASI

Guide Us To The Straight Path

(Al Fatihah: 6)

Everyone must choose one of the two pains: the

pain of discipline or the pain of regret

(unknown)

Your IQ means nothing when you affraid to start

(Arif Kurniawan)

PERSEMBAHAN

Karyaku yang kecil dan sederhana ini ku persembahkan kepada:

Ayah dan Ibu

Terima kasih kepada Ayah dan Ibu yang senantiasa sabar membimbing,memberikan semangat, dukungan moril dan materil serta do’a dan kasih sayang

yang tiada henti.

Kakakku Lisna Utami

Terima kasih kepada kakakku Ami yang selalu memberikan do’a,motivasi, semangat, dan candaan penghibur selama ini.

Pak Rudi, Bu Netti dan Pak mustofa

Orangtua akademikku, tenaga pengajar yang telah membimbing,memberi nasihat juga menjadi inspirasi.

Sahabat-sahabatku

Terima kasih sahabatku terutama sahabat sedari SMA yang telah memberimotivasi, semangat, saran dan doa. Serta pengalaman yang berharga.

Almamater dan Negeriku

SANWACANA

Puji syukur kehadirat Allah SWT yang telah memberikan limpahan rahmat, taufik

serta hidayah-Nya, sehingga penulis dapat menyelesaikan skripsi ini, dengan judul

Pemilihan Produk Asuransi Berdasarkan Profil Nasabah Menggunakan Naïve

Bayes. Penulis menyadari bahwa skripsi ini tidak akan terwujud tanpa adanya

dukungan bimbingan, bantuan, saran, serta do’a dari berbagai pihak sehingga

skripsi ini dapat terselesaikan. Oleh karena itu, dalam kesempatan ini penulis

menyampaikan terima kasih kepada:

1. Bapak Drs. Rudi Ruswandi, M.Si., selaku dosen pembimbing satu dan

sekaligus pembimbing akademik yang telah memberikan motivasi,

pengarahan, dan saran kepada penulis dalam menyelesaikan skripsi ini.

2. Ibu Ir. Netti Herawati, M.Sc., Ph.D., selaku pembimbing dua yang

telah memberikan saran serta pembelajaran yang sangat bermanfaat

dalam menyelesaikan skripsi.

3. Prof. Drs. Mustofa Usman, M.A., Ph.D., selaku pembahas dan penguji

skripsi yang telah memberikan evaluasi, arahan, dan saran demi perbaikan

skripsi.

4. Ibu Prof. Dra. Wamiliana, M.A., Ph.D., selaku Ketua Jurusan Matematika

Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung.

5. Seluruh dosen, Jurusan Matematika Fakultas Matematika dan Ilmu

Pengetahuan Alam Universitas Lampung.

6. Ayah, Ibu, dan Kakak tercinta yang selalu memberi semangat, dukungan dan

berdo’a demi kesuksesan penulis.

7. Sahabat seperjuangan Redi, Rama, Raka, Aldo, Rara, Linda, terima

kasih atas segala dukungan, motivasi, saran, semangat, candaan, dan

pembelajaran yang sangat berarti.

8. Sahabat-sahabat FIM Fadjar, Yudandi, Zulfi, Kiki, Ecy, Syafa, Wika, Yola,

Magdalena, Fransiska, Caroline, Ananda, Dea, Maget, Pule, Manda, yang

selalu berbagi cerita dan canda sejak awal dan akhir perkuliahan.

9. Annisaul, Kiki, Abror, Anin, Nanda, Fadil, Rafika, Fara, Tewe, Ratna,

Kurdes, Bang Young, Bang Mus, Yunda Della, Yunda Yucky, Yunda

Eno, yang telah membagi keceriaan dan kebahagiaan bagi penulis.

10. Abdul Kodir, Wahyu Hidayat, Arisca, Arum, Yunda Shintia, yang

menyempatkan waktu mengajarkan beberapa materi perkuliahan.

11. Teman-teman mahasiswa Jurusan Matematika angkatan 2014.

Akhir kata, penulis menyadari bahwa masih ada kekurangan dari skripsi ini,

akan tetapi besar harapan semoga skripsi ini dapat bermanfaat bagi kita semua.

Sekian Terima Kasih

Bandar Lampung, 19 Juli 2019

Penulis

Arif Kurniawan

DAFTAR ISI

Halaman

DAFTAR TABEL ................................................................................................xv

I. PENDAHULUAN ............................................................................................1

1.1 Latar Belakang dan Masalah .....................................................................11.2 Tujuan Penelitian.......................................................................................21.3 Manfaat Penelitian.....................................................................................2

II. TINJAUAN PUSTAKA ...................................................................................3

2.1 Konsep Peluang ........................................................................................ 32.2 Peluang Bersyarat ..................................................................................... 42.3 Peluang Saling Bebas ............................................................................... 42.4 Data Mining...............................................................................................52.5 Analisis Prediktif Pengklasifikasian......................................................... 62.6 Distribusi Binomial....................................................................................62.7 Distribusi Multinomial...............................................................................72.8 Teorema Bayes..........................................................................................72.9 Klasifikasi Naïve Bayes.............................................................................92.10 Evaluasi Tingkat Akurasi .........................................................................12

III. METODOLOGI PENELITIAN ...................................................................15

3.1 Waktu dan Tempat Penelitian .................................................................153.2 Data Penelitian ........................................................................................153.3 Metode Penelitian ....................................................................................16

IV. HASIL DAN PEMBAHASAN ......................................................................18

4.1 Hasil Simulasi dan Deskripsi Data……..................................................184.2 Klasifikasi Naïve Bayes...........................................................................19

4.2.1 Tahap Training..............................................................................194.2.2 Tahap Klasifikasi..........................................................................22

4.3 Akurasi Model………................................................................................24

V. KESIMPULAN ..............................................................................................26

DAFTAR PUSTAKA ............................................................................................27

LAMPIRAN

DAFTAR TABEL

Tabel Halaman

1. Model Confussion Matrix……..…….......................................................... 13

2. Struktur Data Bangkitan .................................................................. 16

3. Klasifikasi Awal........................................................................................... 18

4. Struktur Data Berdasarkan Variabel Prediktor dengan VariabelRespon......................................................................................................... 19

5. Data Training 90%....................................................................................... 20

6. Peluang Prior Yj........................................................................................... 21

7. Peluang Kondisional Xi di proporsi data training 90%................................ 21

8. Hasil Perhitungan pada Data Testing 10%.................................................. 22

9. Klasifikasi pada Data Testing 10%.............................................................. 23

10. Confussion Matrix pada Data Training 90%dan Data Testing 10%............ 24

11. Akurasi Model............................................................................................ 25

xv

I. PENDAHULUAN

1.1 Latar Belakang dan Masalah

Menurut Gordon (1999), subjek dari klasifikasi adalah meneliti hubungan antara

sekumpulan variabel yang bertujuan menentukan valid atau tidaknya data dapat

dilambangkan dengan beberapa kelas berkaitan dengan variabel tersebut.

Masalah terjadi jika jumlah data yang ada sangatlah banyak, kompleks, dan

mengandung informasi penting. Dalam dunia bisnis, data menjadi aset yang

penting dalam pengambilan strategi.

Klasifikasi adalah salah satu dari metode data mining yang dapat mencari pola

atau informasi dari sekumpulan data yang sangat banyak berbasis komputer.

Komputer memainkan peran penting dalam metode data mining, pada prakteknya

informasi yang sangat kompleks dan berjumlah banyak dapat diolah dengan baik

oleh komputer.

Klasifikasi Naïve Bayes merupakan metode klasifikasi berdasarkan Teorema

Bayes dengan asumsi setiap kelas tidak saling tergantung (independen). Metode

ini menggabungkan teknik statistika dengan data mining untuk mecari informasi

2

pada data yang kompleks guna mengklasifikasi kelas berdasarkan informasi

tambahan dengan akurasi yang sangat tinggi. Berdasarkan hal tersebut, tingkat

akurasi metode Klasifikasi Naïve Bayes akan diuji menggunakan data bangkitan.

1.2 Tujuan Penelitian

Adapun tujuan dari penelitian ini adalah:

1. Merekomendasikan produk asuransi yang tepat sesuai dengan profil

menggunakan metode klasifikasi Naïve Bayes.

2. Menentukan model klasifikasi yang cocok berdasarkan tingkat akurasi model

KNB yang paling tinggi.

1.3 Manfaat Penelitian

Adapun manfaat dari penelitian ini adalah menambah pengetahuan bagi penulis

dan memberi masukkan kepada para peneliti dan pembaca tentang metode

klasifikasi Naïve Bayes.

II. TINJAUAN PUSTAKA

2.1 Konsep Peluang

Menurut Lyman and Longnecker (2010), ruang sampel S adalah himpunan semua

hasil dari suatu percobaan. Kejadian E adalah himpunan bagian dari ruang sampel.

Peluang sutau kejadian P(E) adalah rasio dari banyaknya titik kejadian dan ruang

sampel ditulis:

( ) = ( )( ) (2.1)dimana ( ) dan ( ) berturut-turut adalah banyaknya titik kejadian dan ruang

sampel. Berikut adalah aksioma dan sifat peluang:

1. 0 ≤ ( ) ≤ 12. ({}) = 03. ( ) = 14. Untuk kejadian X dan Y( ∪ ) = ( ) + ( ) − ( ∩ )5. Jika kejadian X dan Y saling asing maka ( ∩ ) = 06. Kejadian X dan Y dikaitkan saling bebas jika ( ∩ ) = ( ). ( )7. Peluang bersyarat ( | ) = ( ∩ )( ) ; ( ) > 0

4

2.2 Peluang Bersyarat

Pada suatu percobaan akan menghasilkan dua atau lebih kemungkinan peristiwa

yang akan terjadi. Peluang akan terjadinya peristiwa Y dengan syarat peristiwa X

telah terjadi terlebih dahulu adalah:

( | ) = ( ∩ )( ) (2.2)yang menyatakan bahwa:( | ) = peluang peristiwa Y tejadi dengan syarat peristiwa X terjadi lebih

dulu( | ) = peluang peristiwa X dan peristiwa Y terjadi bersamaan( ) = peluang terjadinya peristiwa X

2.3 Peluang Saling Bebas

Menurut Lyman and Longnecker (2010), peluang bebas secara statistik jika

peristiwa X dikatakan bebas dari peristiwa Y jika salah satu peristiwa tidak

dipengaruhi oleh peristiwa lainnya. Dua peristiwa saling bebas dinyatakan dalam

hubungan X dan Y atau secara notasi himpunan ∩ adalah perkalian antara

kedua peluang tersebut. Secara simbolik:( ) = ( ∩ ) = ( ). ( ) (2.3)

5

2.4 Data Mining

Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan

pengetahuan di dalam database. Data mining adalah proses yang menggunakan

teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk

mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan

yang terakit dari berbagai database besar (Turban, 2005).

Menurut Gartner Group data mining adalah suatu proses menemukan hubungan

yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan

besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik

pengenalan pola seperti teknik statistik dan matematika (Larose and Daniel,

2005).

Dapat disimpulkan dari definisi diatas bahwa data mining adalah keseluruhan

proses dari bidang ilmu statistik, matematika, kecerdasan buatan untuk mencari

dan menemukan informasi dan pola dari data yang sangat banyak sekali.

Database yang akan digunakan dalam data mining dibagi menjadi dua yaitu data

training dan data testing. Data training adalah data yang digunakan untuk

menghasilkan model klasifikasi. Sedangkan data testing adalah data yang

digunakan untuk mengevaluasi model. Untuk menentukan banyak komposisi data

training dan data testing digunakan Teknik Cross-Validation atau yang sering

disebut estimasi rotasi. Dalam cross-validation proporsi data training dan data

testing dapat ditentukan dengan aturan komposisi data training lebih besar dari

data testing (Han and Kamber, 2012).

6

2.5 Analisis Prediktif Pengklasifikasian

Klasifikasi adalah proses untuk menemukan model atau fungsi yang

mendeskripsikan dan membedakan kelas data. Model diperoleh berdasarkan

analisis pada kumpulan data training, data training adalah sekumpulan objek data

yang dimana label kelas diketahui. Model yang didapat digunakan untuk

memprediksi kelas dari objek yang tidak diketahui label kelasnya (Han and

Kamber, 2012). Model yang didapat dari data training diuji menggunakan data

testing, data testing adalah objek data yang diketahui kelasnya dan akan dicari

hasil prediksi atau label kelas menggunakan model yang telah didapat sehingga

error pada model terlihat (Kantardzic, 2011).

2.6 Distribusi Binomial

Peubah acak X dikatakan berdistribusi binomial, jika dan hanya jika fungsi

peluangnya berbentuk:( ) = ( = ) = (1 − ) ; = 0,1,2, … , (2.4)

penulisan notasi dari peubah acak X yang berdistribusi binomial adalah ( ; , ),artinya peubah acak X berdistribusi binomial dengan banyak pengulangan

eksperimen sampai n kali, peluang terjadi peristiwa sukses sebesar p, dan banyak

peristiwa suskes terjadi ada x (Herrhyanto, 2011).

7

2.7 Distribusi Multinomial

Distribusi multinomial merupakan distribusi variabel acak diskrit dimana suatu

percobaan dapat menghasilkan beberapa kejadian. Jika suatu eksperimen

dilakukan dengan n percobaan, kita asumsikan:

1. Setiap hasil dari percobaan diklasifikasikan kedalam satu dari k kelas.

2. Peluang setiap percobaan yang bernilai akhir di kelas 1, kelas 2,…, kelas k

adalah konstan disemua percobaan setara dengan p1, p2,… ,pk.

3. Independen disetiap percobaan.

Random variabel , , … , menyatakan jumlah percobaan yang hasilnya

dinyatakan kedalam kelas 1, kelas 2, …, kelas k. secara berurutan, berdistribusi

multinomial dan distribusi peluangnya adalah

( = , = ,… , = ) = !!. !… ! . … (2.5)

untuk + +⋯+ = dan + +⋯+ = 1 (Douglass and George,

2003)

2.8 Teorema Bayes

Menurut Kenneth (2011), teorema bayes diadopsi dari nama penemunya yaitu

Thomas Bayes sekitar tahun 1950. Teorema bayes adalah sebuah teori, kondisi

probabilitas yang memperhitungkan probabilitas sebuah kejadian (hipotesis)

bergantung pada kejadian lain (fakta). Pada dasarnya, teorema tersebut

8

mengatakan bahwa suatu kejadian yang terjadi di masa depan atau yang belum

terjadi dapat diprediksi dengan syarat kejadian sebelumnya yang telah terjadi.

Teorema bayes adalah sebuah metode yang digunakan untuk menangani masalah

ketidakpastian data dan melakukan analisis dalam pengambilan keputusan terbaik

dari sejumlah alternatif dengan tujuan menghasilkan perolehan yang optimal.

Teorema bayes menyediakan beberapa rumusan untuk menarik kesimpulan

berdasarkan fakta (evidance) dan hipotesis. Berdasarkan persamaan (2.2) rumus

peluang bersyarat adalah

( | ) = ( ∩ )( )dengan mengalikan setiap sisi persamaan (2.2) dengan ( ) menghasilkan aturan

peluang saling bebas (2.3)

( ∩ ) = ( ). ( )( ∩ ) = ( ) ( | ) (2.6)

jika , … , partisi di ruang sampel, maka

( ) = ( ∩ ) = ( ) ( | ) (2.7)untuk menghitung ( | ) ketika ( ) dan ( | ) telah didapat maka

digabungkan ketiga persamaan (2.2), (2.6) dan (2.7) sehingga diperoleh Teorema

Bayes untuk fakta tunggal dan hipotesis tunggal sebagai berikut:

( | ) = ( ) ( | )( ) (2.8)

9

dengan:

P(Y|X) = probabilitas hipotesis Y terjadi jika fakta X terjadi

P(X|Y) = probabilitas munculnya fakta X, jika hipotesis Y terjadi

P(X) = probabilitas fakta X tanpa memandang hipotesis apapun

P(Y) = probabilitas hipotesis Y tanpa memandang fakta apapun

2.9 Klasifikasi Naive Bayes

Metode klasifikasi bayesian atau yang sering disebut merupakan metode

pengklasifikasian secara statistika yang memprediksi peluang anggota kelas

tertentu berdasarkan database yang memenuhi syarat keanggotaan kelas tersebut.

Naive Bayes dibangun berdasarkan Teorema Bayes.

Berdasarkan Teorema Bayes dan banyaknya penelitian dalam membandingkan

algoritma pengklasifikasi, sehingga ditemukanlah Klasifikasi Bayesian yang

dikenal dengan Klasifikasi Naïve Bayes dengan kinerja yang sederhana dan

mempunyai kecepatan serta tingkat akurasi yang tinggi sebanding dengan metode

pengklasifikasi lain tak terkecuali pada database yang besar. Ciri utama klasifikasi

Naive Bayes adalah asumsi akan independensi dari masing-masing atribut

terhadap kelas yang ada. Rumus Naive Bayes diturunkan dari hukum peluang

total:

10

Misalkan ruang sample S dipartisi menjadi himpunan-himpunan kejadian, = 1,2, … , dengan ( ) ≠ 0. Dapat ditulis,

= , (2.9)Dimana ⋂ = ∅ untuk ≠ dan , = 1,2, … , . Jika ⊂ maka,

= ( ∩ ) ∪ ( ∩ ) ∪ …∪ ( ∩ ) (2.10)= ( ∩ ) (2.11)

dengan demikian sesuai aksioma ke-3 peluang ditulis,

( ) = ( ∩ ) (2.12)dua kejadian tersebut dikatakan saling bebas jika, ( | ) ( ) = ( ) atau( | ) ( ) = ( ) sehingga,

( ∩ ) = ( | ) ( ) = ( ). ( ) (2.13)Misalkan { , , … , } adalah partisi dari ruang sampel dan misalkan adalah

kejadian yang terobservasi di dan ≠ 0 untuk j = 1, 2, ... maka peluang

kejadian bersyarat adalah:

= ( ⋂ )∑ ( ⋂ )= ( )∑ ( ⋂ )

11

= . , … , , … ,( ) (2.14)= ∏ , … , , , … ,( ) (2.15)

Naïve Bayes adalah penyederhanaan dari Teorema Bayes dengan mengasumsikan

secara kondisional independen di { , … , } bersyarat . Maka didapat

rumus Naïve Bayes

= ( ) ∏ ( | )( ) (2.16)dengan,

Probabilitas Y, P(Yj) =( )( ) (2.17)

Probabilitas Xi, ( ) =( )( ) , ( )( ) , ( )( ) , … , ( )

(2.18)

k = atribut pada Xi

Untuk menghitung P(Xi|Yj) terdapat dua aturan

a. Jika data dari atribut X merupakan data kategorik maka nilai P(Xi|Yj) adalah

nilai Xi yang terdapat pada kelas Yj dibagi dengan jumlah dari nilai Yj.

( | ) = (2.19)= ( ⋂ )( ) (2.20)

b. Jika data kontinu maka untuk mencari nilai P(Xi|Yj) diasumsikan mengikuti

distribusi Normal dengan parameter mean ( ) dan standar deviasi ( )

12

g (x, , ) = exp − ( )P(Xi|Yj) = g (x, , )

Pada Klasifikasi Naive Bayes hasil klasifikasi ditentukan dengan melihat nilai

P(Yj|X) paling besar dari setiap variabel Y (Han and Kamber, 2012).

2.10 Evaluasi Tingkat Akurasi

Menurut Han and Kamber (2012), Confusion Matrix merupakan sebuah metode

untuk evaluasi yang menggunakan tabel matrix seperti pada tabel. Pada tabel

dapat dilihat bahwa jika data terdiri dari dua kelas, kelas yang satu dianggap

sebagai positif dan yang lainnya negative. Evaluasi dengan confusion matrix

menghasilkan nilai akurasi, dan recall.

Nilai akurasi merupakan persentase jumlah record data yang diklasifikasikan

secara benar oleh sebuah algoritma dapat membuat klasifikasi setelah dilakukan

pengujian pada hasil klasifikasi tersebut. Sedangkan nilai dari recall atau

sensitifitas merupakan proporsi jumlah kasus positif yang sebenarnya yang

diprediksi positif secara benar.

13

Tabel 1. Model Confusion Matrix

Correct

Classification

Classification as

+ -

+ True positive False negative

- False posivite True negative

dengan:

True Positive = Jumlah record positif yang diklasifikasikan sebagai positif

False Positive = Jumlah record negatif yang diklasifikasikan sebagai positif

False Negative = Jumlah record positif yang diklasifikasikan sebagai negatif

True Negative = Jumlah record negatif yang diklasifikasikan sebagai negatif

Untuk mencari akurasi maka data uji kemudian dimasukkan ke dalam confusion

matrix, sehingga akan diperoleh jumlah sensitivity (recall positive), Specifity

(recall negative), dan akurasi. Sensitivity digunakan untuk membandingkan

jumlah True Positive (TP) terhadap jumlah record yang positif sedangkan

Specifity adalah perbandingan jumlah True Negative (TN) terhadap jumlah record

yang negatif. Untuk menghitung digunakan persamaan dibawah ini,

Sensitivity (Recall,True Positive Rate) = =Specifity (Recall,True Negative Rate) = =

14

Hal ini dapat menunjukkan bahwa akurasi adalah fungsi sensitivity dan specifity:

= ( + ) + ( + )= ++= × 100% (2.22)

dengan:

TP = jumlah true positif

TN = jumlah true negatif

P = jumlah data positif

N = jumlah data negatif

III. METODOLOGI PENELITIAN

3.1 Waktu dan Tempat Penelitian

Penelitian ini dilakukan pada semester genap tahun akademik 2017/2018

bertempat di Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas

Lampung.

3.2 Data Penelitian

Data yang digunakan adalah data yang dibangkitkan menggunakan software R

dengan jumlah n = 1000. Pembangkitan data sebanyak empat variabel bebas X1 ~Binomial, X2 ~Multinomial, X3 ~ Binomial, X4 ~ Binomial. Data bangkitan

memiliki struktur data seperti tabel berikut.

16

Tabel 2. Struktur Data Bangkitan

Variabel Prediktor (X) (Y1) (Y2) (Y3) (Y4) Jumlah

(X1)

X1=1 n(X11, Y1) n(X11, Y2) n(X11, Y3) n(X11, Y4) n(X11)

X1=2 n(X12, Y1) n(X12, Y2) n(X13, Y3) n(X14, Y4) n(X12)

Total n(Y1) n(Y2) n(Y3) n(Y4) N

(X2)X2=1 n(X21, Y1) n(X21, Y2) n(X21, Y3) n(X21, Y4) n(X21)

X2=2 n(X22, Y1) n(X22, Y2) n(X22, Y3) n(X22, Y4) n(X22)

X2=3 n(X23, Y1) n(X23, Y2) n(X23, Y3) n(X23, Y4) n(X23)

Total n(Y1) n(Y2) n(Y3) n(Y4) N

(X3)X3=1 n(X31, Y1) n(X31, Y2) n(X31, Y3) n(X31, Y4) n(X31)

X3=2 n(X32, Y1) n(X32, Y2) n(X32, Y3) n(X32, Y4) n(X32)

Total n(Y1) n(Y2) n(Y3) n(Y4) N

(X4)

X4=1 n(X41, Y1) n(X41, Y2) n(X41, Y3) n(X41, Y4) n(X41)

X4=2 n(X42, Y1) n(X42, Y2) n(X42, Y3) n(X41, Y4 ) n(X42)

Total n(Y1) n(Y2) n(Y3) n(Y4) N

3.3 Metode Penelitian

Langkah-langkah yang dilakukan pada penelitian ini adalah sebagai berikut:

1. Melakukan bangkitan data dengan bantuan software R dengan banyaknya data

sampel yang dibangkitkan n = 1000.

2. Tahap awal pengklasifikasian, data dibagi menjadi dalam empat kelas produk

asuransi dengan nama produk Maesro Link Plus (MLP), Super Protection Plus

(SPP), Smart Kidz (SK), dan Maestro Hospital Plan (MHP).

3. Menentukan struktur data awal data

4. Tahap Klasifikasi Naïve Bayes yaitu data awal menjadi data training dan data

testing. Selanjutnya melakukan proses terdiri dari dua tahap.

17

a. Tahap training yaitu mencari peluang prior dan mencari peluang kondisional

di X untuk mendapatkan nilai Likelihood

b. Tahap klasifikasi yaitu mengklasifikasi data menggunakan peluang posterior

dengan informasi tambahan pada tahap training sebelumnya

kemudian diterapkan pada data testing.

5. Pengujian tingkat akurasi

Menghitung rata-rata tingkat akurasi dari metode KNB menggunakan tabel

confussion-matrix

V. KESIMPULAN

Berdasarkan hasil-hasil yang telah didapat, dapat disimpulkan sebagai berikut.

1. Hasil pengujian tingkat akurasi didapatkan nilai akurasi tertinggi pada proporsi

data training 90% dan data testing 10% dengan rata- rata akurasi sebesar

95.7%. Maka model tersebut dipilih untuk pengklasifikasian nasabah asuransi.

2. Banyaknya data training tidak membuat akurasi menjadi lebih baik.

3. Klasifikasi Naïve Bayes mampu mengklasifikasi dengan akurasi tinggi dengan

data training yang sedikit.

DAFTAR PUSTAKA

Douglas, C. M., and George, C. R. 2003. Applied Statistics and Probability forEngineers. John Wiley & Sons, Inc., New York.

Han, J., Kamber, M., and Jian,P. 2012. Data Mining Concepts and Techniques,Third Edition. Morgan Kaufman, California.

Herrhyanto, N., dan Tuti, G. 2011. Pengantar Statistika Matematis. YramaWidya, Bandung.

Kenneth, T. 2011. Bayessian Design of Experiments for Complex ChemicalSystems. Disertasi. Massachusetts Institue of Technology, Cambridge.

Larose., and Daniel, T. 2005. Discovering Knowledge in Data: An introductionto Data Mining. John Willey & Sons, Inc., New Jersey.

Lyman, R., and Longnecker, M. 2010. Introduction to Statistical Method andData Analysis. Cengange, Belmont.

Kantardzic, M. 2011. Data Mining. John Willey & Sons, Inc., New Jersey.

Saptono, R., Wiranto., dan Suryono, W. 2016. Sistem Klasifikasi Keluhan diUPT TIK UNS Menggunakan Algoritma Naïve Bayes Classifier, hlm 641.Prosiding Seminar Nasional Teknologi Informasi dan Komunikasi,Yogyakarta.

Turban, E., dkk. 2005. Decicion Support Systems and Intelligent Systems. AndiOffset, Yogyakata.