implementasi data mining dengan naive bayes …if.binadarma.ac.id/sipi/jurnal/jurnal-jurnal deny...
TRANSCRIPT
J u r n a l | 1
IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES
CLASSIFIER UNTUK MENDUKUNG STRATEGI PROMOSI
(Studi kasus Universitas Bina Darma Palembang)
Deny Wahyudi1, A.Haidar Mirza,S.T.,M.Kom.2, Merrieayu P.H.,M.Kom.3
1Mahasiswa Universitas Bina Darma, 2,3Dosen Universitas Bina Darma
Email: [email protected] , [email protected] , [email protected]
Universitas Bina Darma Palembang
Jl. A Yani No. 12 Plaju, Palembang 30624
ABSTRACK : Data mining is the process of finding new patterns in the data by filtering large
quantities. search pattern data mining uses pattern recognition technology that is similar to
the statistical techniques and mathematical techniques. Found pattern is expected to provide
useful information to produce economic benefits, effectiveness and efficiency. One method is
the classification of data mining is data mining techniques have the capability classification
which aims to make decisions predict a case, based on the classification results obtained.
Naive Bayes classifier algorithm can be used to predict interest in studies based on the
evidence provided. Naive Bayes classifier algorithm is one of data mining methods that can
be used to support the promotion of effective strategies and efficient. The results of this
research is the application of data mining algorithms are built using a Naive Bayes classifier
that can provide vital information such as the results predicted interest in the study of
students that can be used to help the marketing team Universitas Bina Darma Palembang.
The data used is enrollment the previous year. Prediction results obtained, is expected to help
to support the promotion strategies that have an impact on the effectiveness and efficiency of
the promotion and increase the number of new students who enroll.
Keywords: Data Mining, Naive Bayes, Classification.
ABSTRAK: Data mining adalah proses untuk menemukan pola-pola baru dalam data dengan
menyaring jumlah besar. pola pencarian data mining menggunakan teknologi pengenalan
pola yang mirip dengan teknik statistik dan teknik matematika. Pola yang ditemukan
diharapkan dapat memberikan informasi yang berguna untuk menghasilkan manfaat
ekonomi, efektivitas dan efisiensi. Salah satu metode data mining adalah klasifikasi adalah
J u r n a l | 2
teknik data mining yang memiliki kemampuan klasifikasi yang bertujuan mengambil
keputusan dengan memprediksikan suatu kasus, berdasarkan hasil klasifikasi yang diperoleh.
Algoritma Naive Bayes Classifier dapat digunakan untuk memprediksi minat studi
berdasarkan bukti yang diberikan. Algoritma Naive Bayes Classifier merupakan salah satu
metode data mining yang dapat digunakan untuk mendukung strategi promosi yang efektif
dan efisien. Hasil dari penelitian ini adalah penerapan algoritma data mining yang dibangun
menggunakan Naive Bayes Classifier yang dapat memberikan informasi penting seperti hasil
prediksi yang menarik dalam studi mahasiswa yang dapat digunakan untuk membantu Tim
Pemasaran Universitas Bina Darma Palembang. Data yang digunakan adalah pendaftaran
siswa tahun sebelumnya. Prediksi hasil yang diperoleh, diharapkan dapat membantu untuk
mendukung strategi promosi yang berdampak pada efektivitas dan efisiensi promosi dan
meningkatkan jumlah mahasiswa baru yang mendaftar.
Kata Kunci : Data Mining, Naive Bayes, Klasifikasi.
1. PENDAHULUAN
Dalam hal perencanaan kegiatan
promosi guna peningkatan minat calon
mahasiswa untuk mendaftar, Unit
Pemasaran Universitas Bina Darma
membutuhkan masukan – masukan guna
meningkatkan minat lulusan Sekolah
Menengah Atas (SMA) atau setara yang
ada di kota Palembang pada khususnya
dan di Sumatera Selatan pada umumnya
untuk mejadi Mahasiswa Universitas Bina
Darma, hal ini dikarenakan kegiatan
promosi yang terdiri dari kegiatan
pemasangan iklan, penyebaran brosur dan
promosi dengan mengundang sekolah
masih belum menyebar luas kedaerah-
daerah yang tingkat peminatnya masih
rendah sehingga masyarakat yang ada
didaerah atau dipedesaan masih belum
banyak yang mengetahui tentang
Universitas Bina Darma. Dengan
demikian, Unit Pemasaran Universitas
Bina Darma Palembang perlu untuk
menggali atau mencari informasi dari data
pendaftaran tahun-tahun sebelumnya
sebagai bahan evaluasi dan analisa untuk
mendukung strategi promosi tahun
berikutnya. Konsep bayesian classification
ditujukan untuk memprediksi probabilitas
di masa depan berdasarkan pengalaman di
masa sebelumnya.
2. DATA MINING
Analisis Data Mining
Yang akan digunakan pada proses
data mining menggunakan Algoritma
Naïve Bayes merupakan data mahasiswa
Penerimaan Mahasiswa Baru (PMB) untuk
J u r n a l | 3
tahun 2014, 2015 dan 2016 yang
merupakan gambaran secara nyata
mengenai keadaan penerimaan mahasiswa
baru untuk seluruh yang ada di lingkungan
Universitas Bina Darma. Setelah data di
dapat dari Unit Pelaksana Teknis – Sistem
Informasi Manajemen (UPT-SIM)
Universitas Bina Darma, maka data akan
di standarisasi mengikuti proses tahapan
data mining agar data tersebut layak dan
dapat diolah menggunakan software
pengolahan data mining RapidMiner .
dengan menggunakan algoritma Naïve
Bayes.
Proses Data Mining Knowledge
Discovery in Database (KDD)
1) Data Selection
Pada tahap ini data yang digunakan
akan diseleksi dengan cara melihat
kecenderungan data / kesesuaian data
dengan topik/ judul penelitian yang
akan diteliti oleh penulis, dalam hal
ini data yang di peroleh oleh penulis
dari UPT-SIM sudah memiliki
kesesuain format data yang terdiri dari
atribut tahun_pmb, nama, alamat,
asal_sekolah, progdi dan status.
Gambar 3.1. Data Penerimaan
Mahasiswa Baru (PMB) Tahun 2014
Gambar 3.2. Data Penerimaan
Mahasiswa Baru (PMB) Tahun 2015
Gambar 3.3. Data Penerimaan
Mahasiswa Baru (PMB) Tahun 2016
2) Data Preprocessing Atau Data Cleaning
Pada tahap ini data yang kosong harus
di hilangkan.
Gambar 3.4. Proses Data Cleaning Pada
Atribut Asal_Sekolah
J u r n a l | 4
Gambar 3.5. Proses Data Cleaning Pada
Atribut Alamat dan Asal_Sekolah
3) Data Integration
Tahap integrasi data adalah tahap
penggabungan data dari berbagai
sumber. Dataset mahasiswa
Penerimaan Mahasiswa Baru (PMB)
Universitas Bina Darma berasal dari
satu sumber yaitu Unit Pelaksana
Teknis – Sistem Informasi
Manajemen (UPT-SIM), dan dari data
yang ada tersebut dapat digunakan
untuk proses pengolahan data mining
dengan menggunakan metode Naïve
Bayes. Data ini terdiri dari data PMB
untuk tahun 2014, 2015 dan 2016
yang kemudian digabungkan kedalam
satu dataset untuk di ubah ke format
CSV dengan menggunakan Ms. Excel
yang nantinya akan di Import ke
dalam Database Mysql untuk proses
Data Manipulation.
Gambar 3.6. Gabungan Data PMB
tahun 2014-2016
4) Data Transformasi
Ada pun pada tahap ini data akan
diubah menjadi bentuk yang sesuai
untuk proses data mining. Karena
dalam penelitian ini akan dilakukan
uji coba secara teoritis dan
mengunakan software data mining
yaitu RapidMiner, maka data yang
telah melalui proses sebelumnya akan
di transformasi agar dapat sesuai
dengan algoritma yang dipakai yaitu
algoritma Naïve Bayes.
Pada tahapan ini atribut yang di pakai
akan diberi label mengikuti kondisi
data - data pada atribut tersebut :
1. Klasifikasi Atribut Alamat
Berdasarkan hasil data set yang siap
untuk di olah terdapat 135 daerah asal
dari calon mahasiswa yang mendaftar
di Universitas Bina Darma pada tahun
2014 – 2016.
Gambar 3.7. Tampilan Data Alamat Per
Daerah
2. Klasifikasi Atribut Asal Sekolah
J u r n a l | 5
Dikelompokan berdasarkan SMA,
SMK, MADRASAH
Gambar 3.8. Klasifikasi Data Asal
Sekolah
3. Label status
Terdapat 4 kriteria status seperti pada
gambar dibawah
Gambar 3.11. Klasifikasi Data Status
Yaitu LULUS, TIDAK LULUS,
REGISTRASI dan DAFTAR. Pada lebel
status akan di jadikan sebagai proses untuk
melakukan proses eksekusi pada program
rapidminer sehingga harus di golongkan
menjadi 2 kriteria yaitu REGISTRASI dan
TIDAK REGISTRASI. Pada status
LULUS dan REGISTRASI akan dilabel
sebagai status REGISTRASI dan pada
status TIDAK LULUS dan DAFTAR akan
dilabel sebagai status TIDAK
REGISTRASI .
Gambar 3.12. Query Perubahan
Klasifikasi Atribut Status
Sehingga menjadi sebagai berikut :
Gambar 3.13. Hasil Perubahan
Klasifikasi Atribut Status
Berikut tampilan hasil klasifikasi pada
masing – masing atribut pada Mysql :
Gambar 3.14. Hasil dari Proses Klasifikasi Pada
Masing – Masing Atribut
Setelah hasil proses klasifikasi
tersebut, maka langkah selanjutnya yaitu
mengubah format data hasil klasifikasi
menjadi format CSV agar dapat di olah
dengan menggunakan software data
mining yaitu RapidMiner. Data yang sudah
di dilakukan pada proses tahapan diatas ini
J u r n a l | 6
adalah data yang sudah siap atau sudah
bersih dari data yang redundancy dan data
yang loss (Kosong) sehingga data tersebut
bisa dilakukan proses data mining dengan
naive bayes seperti pada proses tahap hasil
selanjutnya. Berikut gambar dibawah yang
siap untuk dilakukan proses data mining
dengan naive bayes.
Gambar 3.15. Data SET Format CSV
3. HASIL DAN PEMBAHASAN
Hasil Dari tahapan proses Knowledge
Discovery in Database (KDD) seperti,
Data selection, data preprocessing atau
cleaning, data integration, data
transformasi, dan tahapan selanjutnya data
mining dengan Naive Bayes yang akan
menentukan hasil, yang pertama
perhitungan data mining secara teoritis
atau manual dan yang kedua perhitungan
dengan menggunkan software Rapidminer.
Data Mining Dengan Rapidminer
Rapidminer merupakan salah satu
software data mining pengolahan data set
untuk mencari pola data sesuai dengan
tujuan dari pengolahan data tersebut, tidak
semua algoritma yang ada dapat sesuai
atau dapat mengolah data set yang ada,
harus dilakukan penyesuaian pola data dan
sesuai dengan tujuan dari pengolahan data
tersebut.
Dalam rangkaian proses data
mining menggunakan rapidminer ini data
yang digunakan adalah data yang telah di
transformasi kedalam format Microsoft
Excel 2007 (.CSV). Selanjutnya proses
data mining dilakukan dengan
menggunakan operator Read CSV dapat
dilihat pada tampilan dibawah.
Gambar 4.8. Open File Read CSV
Model Naïve Bayes Pada Rapidminer.
Setelah proses Open File pada
Opeator Read CSV maka langkah
selanjutnya membuat model algoritma
naïve bayes. Adapun bentuk dari model
naïve bayes yang akan digunakan dapat di
lihat pada Gambar dibawah :
J u r n a l | 7
Gambar 4.9. Model Utama Naïve Bayes
dengan RapidMinier
Gambar 4.10. Model Sub Proses Pada
Cross Validation Rapid Miner
Adapun hasil Accuracy dari
performance vector sebesar 93.44% untuk
proses yang di laksanakan pada model
diatas dapat dilihat :
Gambar 4.11. Hasil Performance Vector
Berdasarkan hasil dari perhitungan
dengan rapidminer dengan model naive
bayes maka nilai dari simple distribution
yang didapat adalah seperti pada gambar
di bawah, yang hasilnya nilai class TIDAK
REGISTRASI 0,058 dan nilai class
REGISTRASI 0,942. Dimana perhitungan
manual dengan perhitungan pada
rapidminer hasilnya sama.
Gambar 4.12. Hasil Simple Distribution
Pada gambar grafik dibawah dapat
menunjukkan hasil dari tingkat rendah dan
tingginya pendaftar di Universitas Bina
Darma Palembang berdasarkan Alamat,
Asal Sekolah dan Program Studi.
Gambar 4.13. Grafik Berdasarkan
Alamat
Gambar 4.14. Grafik Berdasarkan Asal
Sekolah
J u r n a l | 8
Gambar 4.15. Grafik Berdasarkan
Progdi
4. KESIMPULAN DAN SARAN
Kesimpulan
Adapun kesimpulan dari penelitian
mengenai Implementasi data mining
dengan Naïve Bayes Classifier dalam
mendukung strategi promosi Universitas
Bina Darma dalam memprediksi proses
REGISTRASI dan TIDAK REGISTRASI
mahasiswa menggunakan data set yang
sudah melalui tahap awal Knowledge
Dciscovery in Database (KDD) sebanyak
6495 record yang diambil dari data
penerimaan mahasiswa baru tahun 2014,
2015 dan 2016 sebagai berikut :
1. Proses pengolahan data mining
menggunakan atribut alamat dengan
klasifikasi berdasarkan nama kota /
nama kabupaten, atribut asal sekolah
yang di klasifikasi berdasarkan
pendidikan SMA, SMK dan
MADRASAH, atribut progdi yang
diklasifikasikan berdasakan program
studi dari masing – masing fakultas
yang ada dilingkungan Universitas
Bina Darma dan atribut status sebagai
label dalam proses pengolahan data
mining dengan klasifikasi
REGISTRASI DAN TIDAK
REGISTRASI.
2. Model data mining di buat
menggunakan software pengolahan
data mining yaitu Rapidminer, dengan
hasil nilai Probalitas untuk
REGISTRASI yaitu 0.942 dengan
pembulatan nilai menjadi 0.94 dan
nilai probabilitas untuk TIDAK
REGISTRASI yaitu 0.057 dengan
pembulatan nilai menjadi 0.058
3. Model data mining yang di hasilkan
pada Rapidminer dapat memprediksi
hasil dengan beberapa kriteria
klasifikasi berdasarkan klasifikasi
yang dibuat menurut atribut masing –
masing mampu menilai seorang calon
Mahasiswa Baru.
4. Dengan menggunakan metode Naïve
Bayes Classifier mampu menunjukkan
informasi yang tersembunyi pada data
atribut – atribut yang digunakan dalam
proses pengolahan data mahasiswa
pada proses Penerimaan Mahasiswa
Baru (PMB) di Universitas Bina
Darma serta memberikan solusi untuk
membuat strategi promosi dengan
melihat alamat, asal sekolah, dan
progdi pilihan dari calon mahasiswa
baru tersebut.
J u r n a l | 9
Saran
Berdasarkan hasil dan kesimpulan
yang telah diuraikan diatas, maka ada
beberapa saran yang ingin disampaikan
yaitu:
1. Dengan penerapan data mining yang
telah dihasilkan, Universitas Bina
Darma dapat memanfaatkan informasi
dari hasil penerapan data mining
dalam memprediksi calon mahasiswa
yang akan REGISTRASI atau TIDAK
REGISTRASI.
2. Pada penelitian selanjutnya dapat
mencoba menggunakan data – data
pada dengan kondisi data yang
berbeda dan dengan jumlah data
yang lebih besar lagi sehingga nilai
data selanjutnya yang dihasilkan
dapat menghasilkan tingkat akurasi
yang lebih tinggi.
3. Selain penerapan secara teoritis dan
aplikatif, pada penelitian berikutnya
dapat dicoba untuk membuat suatu
aplikasi dengan teknik dan algoritma
data mining yang berbeda sehingga
dapat menghasilkan informasi yang
berpariasi.
4. Penelitian ini disarankan dapat
menjadi bahan referensi yang
dipergunakan dan dikembangkan
untuk penenlitian selanjutnya.
DAFTAR PUSTAKA
Budi, Santoso, 2007, Data Mining : Teknik
Pemanfaatan Data untuk Keperluan
Bisnis, Graha Ilmu, Yogyakarta
Burhan Alfironi Muktamar.2013.
Implementasi Data Mining Dengan
Naive Bayes Classifier Untuk
Mendukung Strategi Pemasaran Di
Bagian Humas STMIK AMIKOM
Yogyakarta
Dennis Aprilla C, Donny Aji Baskoro, Lia
Ambarwati, and I Wayan Simri
Wicaksana, 2013. Belajar Data
Mining Dengan RapidMiner. Jakarta
Dewanti, Retno, 2008. Kewirausahaan,
Mitra Wacana Media, Jakarta.
Han, Jiawei dan Kamber, Micheline.
(2006), Data Mining : Concept and
Techniques Second Edition,
Morgan Kaufmann Publishers.
Kotler, Philip dan Armstrong, Gary. 2012.
Principles of Marketing. New
Jersey: Prentice Hall.
Kusrini dan Luthfi. E.
Taufiq.(2009).Algoritma Data
Mining. Yogyakarta: Andi.
Laksana, Fajar. 2008. Manajemen
Pemasasaran : Pendekatan Praktis.
Edisi Pertama. Cetakan Pertama.
Graha Ilmu. Yogyakarta.
Masud Karim dan Rashedur M.
Rahman.2012. Decision Tree dan
J u r n a l | 10
Algoritma Naive Bayes untuk
Klasifikasi dan Generasi
Pengetahuan ditindak lanjuti untuk
Pemasaran Langsung
Prasetyo,Eko.(2012).Data Mining Konsep
dan Aplikasi Menggunakan
Matlbab.Yogyakarta: Andi.
Sugiyono. 2012. Metode Penelitian
Kuantitatif Kualitatif dan R&D.
Bandung: Alfabeta.
Tri Utami Putri.2014. Penerapan Data
Mining Untuk Menentukan Strategi
Penjualan Pada Toko Buku
Gramedia Palembang Menggunakan
Metode Clustering
Turban, E., dkk, 2005, Decicion Support
Systems and Intelligent Systems,
Andi Offse
www.binadarma.ac.id , website Universitas
Bina Darma Palembang pada
tanggal 29-05-2016