implementasi data mining algoritma c4.5 untuk memprediksi...

15
IMPLEMENTASI DATA MINING ALGORITMA C4.5 UNTUK MEMPREDIKSI PEMBAYARAN PINJAMAN PADA KOPERASI SIMPAN PINJAM PRIMKOVERI BINA BAKTI PEMALANG NASKAH PUBLIKASI diajukan oleh Rezki Badriza 11.11.5436 kepada JURUSAN TEKNIK INFORMATIKA SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER AMIKOM YOGYAKARTA YOGYAKARTA 2014

Upload: hanhi

Post on 31-Mar-2019

221 views

Category:

Documents


0 download

TRANSCRIPT

IMPLEMENTASI DATA MINING ALGORITMA C4.5 UNTUK MEMPREDIKSI PEMBAYARAN PINJAMAN PADA

KOPERASI SIMPAN PINJAM PRIMKOVERI BINA BAKTI PEMALANG

NASKAH PUBLIKASI

diajukan oleh

Rezki Badriza

11.11.5436

kepada JURUSAN TEKNIK INFORMATIKA

SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER AMIKOM YOGYAKARTA

YOGYAKARTA 2014

iii

IMPLEMENTATION OF DATA MINING ALGORITHM C4.5 TO PREDICT COOPERATIVE LOAN PAYMENT ON

CREDIT UNION PRIMKOVERI BINA BAKTI PEMALANG

IMPLEMENTASI DATA MINING ALGORITMA C4.5 UNTUK

MEMPREDIKSI PEMBAYARAN PINJAMAN PADA KOPERASI SIMPAN PINJAM PRIMKOVERI

BINA BAKTI PEMALANG

Rezki Badriza Kusrini

Jurusan Teknik Informatika STMIK AMIKOM YOGYAKARTA

ABSTRACT

Along with the rapid development of the era and the rapid advancement of science and technology, it is also rapidly emerging institutions be it in business, healthcare, insurance, corporate, banking, or government agencies. No exception with the agency that is engaged in the economy such as credit unions.

Cooperative is an organization to join and strive together for the deficiency that occurs in economic activity can be overcome. Besides, the cooperative is also a tool for the economically weak to help themselves so as to meet the needs and improve their lives. Therefore encourage each technological advancement agencies in the world economy is to improve the quality of service to members in order to more efficiently and effectively.

Data mining is the solution in the world of technology to solve the problems facing cooperatives in providing timely and accurate information and efficient to those who need such information, where the information contained in the data storage medium that is specially prepared. Research using the C4.5 decision tree algorithm is used to classify the data with decision tree form.

Keyword : Data mining, D4.5, Cooperative

1

1. Pendahuluan

Seiring dengan perkembangan jaman dan teknologi pada saat ini sangat pesat, di

perkirakan akan ada banyaknya peminjaman uang pada sebuah bank atau koperasi

simpan pinjam. Dengan banyaknya peminjaman itu dapat menimbulkan masalah jika bank

atau koperasi tidak dapat memanajemen pihak peminjam.

Primkoveri Bina Bakti Comal Pemalang merupakan salah satu koperasi simpan

pinjam yang sukses menarik banyak nasabah tiap tahunnya, terbukti dengan

meningkatnya jumlah nasabah baru tiap tahunnya. Maka dengan peningkatan ini pihak

koperasi juga harus meningkatkan kualitas dan kenyamanan bagi nasabah dalam

melakukan transaksi.

Namun pihak koperasi simpan pinjam sering kerepotan akan hal pembayaran

karena banyaknya orang yang terlambat bahkan terlalu melewati jadwal dalam

pembayarannya. Kebanyakan koperasi simpan pinjam hanya melihat dari aspek gaji untuk

menentukan kelancaran pembayaran, sedangkan kita tidak selalu tahu kebutuhan

seseorang sehingga dapat terjadi kekeliruan. Data Mining merupakan algoritma yang di

gunakan untuk membentuk pohon keputusan. Pohon Keputusan merupakan metode

klasifikasi dan prediksi yang sangat kuat dan terkenal. Pohon keputusan juga berguna utuk

mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variable

input dengan sebuah variable target. Dengan melihat beberapa factor dan

meperhitungkannya akan bisa diambil keputusan atau prediksi yang lebih akurat.

Oleh karena itu di perlukan sebuah sistem yang dapat membantu pihak Koperasi

simpan pinjam (Primkoveri Bina Bakti) Pemalang dalam menentukan perilaku pembayaran

nasabah. Untuk itu penulis membuat “Implementasi Data Mining Algoritma C4.5 Untuk

Memprediksi Pembayaran Pinjaman Pada Koperasi Simpan Pinjam Primkoveri Bina Bakti”.

2. Landasan Teori

2.1 Pengertian Data Mining

Data Mining merupakan analisis dari peninjauan kumpulan data untuk menemukan

hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan

sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik data. (Larose, 2005 dalam

Kusrini, 2009: 4)

Data mining juga disebut sebagai serangkaian proses untuk menggali nilai tambah

dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara

manual. (Pramudiono, 2006 dalam Kusrini, 2009: 3)

2

2.2 Pohon Keputusan

Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan

terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon

keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan

Bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk Bahasa basis data

seperti Structured Query Language untuk mencari record pada kategori tertentu. (Kusrini,

2009)

Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan

hubungan tersembunyi antara sejumlah calon variable input dengan sebuah variable

target. (Kusrini, 2009)

Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai

berikut. (Kusrini, 2009)

a. Pilih atribut sebagai akar.

b. Buat cabang untuk tiap-tiap nilai.

c. Bagi kasus dalam cabang.

d. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki

kelas yang sama.

Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-

atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam

persamaan berikut. (Kusrini, 2009)

𝐺𝑎𝑖𝑛 (𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑|𝑆𝑖|

|𝑆|

n

i=0

∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖)

Keterangan:

S : himpunan kasus

A : atribut

n : jumlah partisi atribut A

|Si| : jumlah kasus pada partisi ke-i

|S| : jumlah kasus dalam S

Sementara itu, perhitungan nilai entropi dapat dilihat pada persamaan 2 berikut.

(Kusrini, 2009)

3

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = ∑ −

𝑛

𝑖=1

𝑝𝑖 ∗ 𝑙𝑜𝑔2 𝑝𝑖

S : himpunan kasus

A : fitur

n : jumlah partisi S

pi ∶ proporsi dari Si terhadap S

2.3 Data Flow Diagram

Data Flow Diagram (DFD) adalah suatu model logika data atau proses yang dibuat

untuk menggambarkan asal data dan tujuan data yang keluar dari sistem, tempat

penyimpanan data, proses apa yang menghasilkan data tersebut, serta interaksi antara

data yang tersimpan dan proses yang dikenakan pada data tersebut. (Kusrini, 2007)

DFD ini adalah salah satu alat pembuatan model yang sering digunakan,

khususnya bila fungsi-fungsi sistem merupakan bagian yang lebih penting dan kompleks

daripada data yang dimanipulasi oleh sistem. Dengan kata lain, DFD adalah alat

pembuatan model yang memberikan penekanan hanya pada fungsi sistem.

2.4 MySQL

MySQL merupakan software yang tergolong sebagai DBMS

(DatabaseManagement system) yang bersifat open source. MySQL termasuk

sebagai database server (server yang melayani permintaan terhadap database) yang

andal, dapat menangani database yang besar dengan kecepatan tinggi, mendukung

banyak sekali fungsi untuk mengakses database, dan sekaligus mudah untuk

digunakan. (Abdul, 2008)

3. Analisis dan Perancangan Sistem

3.1 Analisis Sistem

Analisis sistem dapat didefinisikan sebagai “Penguraian dari suatu sistem

informasi yang utuh ke dalam bagian – bagian komponennya dengan maksud untuk

mengidentifikasi dan mengevaluasi permasalahan-permasalahan, kesempatan dan

hambatan yang terjadi dan kebutuhan-kebutuhan yang diharapkan sehingga dapat

diusulkan perbaikannya. (Jogiyanto, 2005)

4

Analisis sistem merupakan salah satu tahapan pada pengembangan sistem.

Tahap analisis merupakan tahap yang kritis dan sangat penting, karena kesalahan di

dalam tahap ini juga akan menyebabkan kesalahan di tahap selanjutnya. Tahap analisis

dilakukan setelah tahap perancangan sistem dan sebelum tahap desain sistem.

3.2 Analisis Data

Tidak semua data nasabah akan dicari hubungannya dengan data pembayaran,

hanya beberapa aktribut yang kira-kira berguna dan datanya tidak terlalu acak. Karena

data yang acak akan membuat proses mining memakan waktu yang lama dan tingkat

hubungannya pun rendah. Data nasabah akan dicari hubungannya meliputi proses

Penghasilan, Pinjaman, Status Pernikahan, dan Status Rumah.

Adapun variabel yang akan diproses mining meliputi :

1. Penghasilan

Dalam memberikan pinjaman tentu saja kita harus melihat dari aspek

penghasilan, karena tingkat pembayaran dapat kita perhitungkan. Jika kita

memberikan pinjaman yang besar sedangkan penghasilan peminjam terlalu

kecil sangat memungkinkan akan timbulnya keterlambatan pembayaran yang

dapat mengakibatkan kerugian. Variable ini berasal dari buku data anggota

karena sistem mereka masih manual.

2. Pinjaman

Setelah melihat besarnya penghasilan nasabah kita tentu saja perlu melihat

besar pinjaman yang ingin di pinjam oleh nasabah. Jika nasabah meminta

peminjaman yang terlalu besar sedangkan kemampuannya dalam membayar

tidak memadai sangat tidak layak untuk memberikan pinjaman pada nasabah

tersebut. Variable ini berasal dari buku angsuran anggota karena sistem

mereka masih manual.

3. Status Pernikahan

Tingkat kebutuhan setiap orang pasti berbeda tapi jelas tingkat kebutuhan

antara orang yang sudah menikah dengan yang belum menikah pasti berbeda.

Kebutuhan orang yang memiliki keluarga yang harus diberi nafkah dapat

mengurangi penghasilan sehingga dapat mengganggu dalam pembayarannya

jika nasabah yang berkeluarga hendak meminta pinjaman. Variable ini berasal

dari buku data anggota karena sistem mereka masih manual.

4. Status Rumah

Jika dilihat dari besarnya kebutuhan kehidupan sekarang tentu saja tempat

tinggal mempengaruhi biaya hidup terutama bagi mereka yang sudah berubah

tangga. Biaya sewa rumah sekarang tidak murah, belum lagi biaya listrik, air,

5

dan lainnya. Sehingga sangat besar kemungkinan nasabah yang masih belum

memiliki rumah pribadi dapat mengalami keterlambatan dalam pembayaran.

Variable ini berasal dari buku data anggota karena sistem mereka masih

manual.

3.3 Analisis Model

Kebutuhan masukan dari sistem adalah berupa atribut yang dimiliki oleh sebuah

data nilai atribut dan nilai kemungkinannya yang dibuat kedalam sebuah data tabel. Data

tabel yang dimaksud adalah data yang mempunyai minimal dua kolom atribut. Satu kolom

sebagai kolom atribut masukan dan satu kolom sebagai kolom atribut target.

Ketentuan lain yang harus dipenuhi agar masukan dapat diproses dengan lancar

adalah peletakan kolom target harus berada pada posisi terakhir dari kolom pada tabel

masukan. Sistem akan membaca masukan dengan atribut target berada pada kolom

terakhir dari tabel, maka dari itu selain kolom terakhir sistem akan mengenalinya sebagai

atribut masukan dari sistem. Berikut adalah data untuk menentukan apakah nasabah layak

diberi pinjaman atau tidak dengan nilai kemungkinannya.

Berikut ini adalah penjelasan lebih terperinci mengenai tiap-tiap langkah dalam

pembentukan pohon keputusan dengan menggunakan algoritma C4.5 menyelesaikan

permasalahan dalam skripsi. Salah satu proses kalkulasi dari entropy adalah proses

kalkulasi nilai entropy kelancaran yaitu dengan jumlah sampel 132 data.

6

Tabel 1 Perhitungan Node 1

node

Jml

Kasus

(S)

Ya

(S1)

Tidak

(S2)

Entropy

Gain

1 kelancaran 132 114 18 0.574636

pinjaman 0.042313

<3jt 38 36 2 0.297472

3jt-4jt 62 55 7 0.508611

>4jt 32 23 9 0.857148

penghasilan 0.138512

>=4jt 62 62 0 0

<4jt 70 52 18 0.822404

status 0.13529

menikah 71 53 18 0.816811

belum

menikah 61 61 0 0

rumah 0.055398

pribadi 95 88 7 0.379524

sewa 37 26 11 0.877962

Dari tabel hasil kalkulasi di atas dapat kita lihat hasil entropy dan gain yang

diperoleh dari masing-masing atribut. Dan dapat kita lihat juga hasil pohon keputusan

berdasarkan kolom node yang dihasilkan. Pada node pertama dihasilkan variable

penghasilan sebagai pohon pertama. Pohon pertama ditentukan dari melihat hasil gain

terbesar.

Setelah itu untuk menentukan hasil keputusan akhir dapat dilihat dari hasil entropy

yang hasilnya nol. Apabila telah di dapat hasil entropy nol maka selanjutnya kita lihat hasil

variable keputusan yang paling banyak nilainya. Sehingga terbentuklah decision tree

seperti berikut.

7

Gambar 1 Hasil Akhir Pohon Keputusan

4. Implementasi dan Pembahasan

Tahapan implementasi dilakukan dengan menerapkan hasil rancangan pada

bagian sebelumnya dengan pembuatan kode source code agar dapat dijalankan komputer.

Setelah melakukan analisis dan perancangan sistem, programmer melakukan

pemrograman yang merupakan aktivitas membuat program atau sederetan instruksi yang

digunakan untuk mengatur program agar bekerja dan berjalan sesuai dengan maksud dari

instruksi yang diketik.

Tahapan implementasi dilakukan ketika sistem telah selesai dan telah melalui

tahap pengujian program sehingga sistem tersebut siap digunakan. Pengujian sistem

dilakukan untuk mengetahui apakah program telah bebas dari kesalahan-kesalahan

sebelum diterapkan. Kesalahan program yang mungkin terjadi adalah kesalahan bahasa

penghasilan

status

pinjaman

Ya

Ya

>=4jt

menikah belum menikah

<3jt 3jt-4jt >4jt

pribadi sewa

rumah Tidak Tidak

Tidak Ya

<4jt

8

(syntax) yakni kesalahan pada penulisan source code program, serta kesalahan pada saat

program sedang berjalan (runtime), yaitu kesalahan pada saat execubatle program dijalan.

4.1 Uji Coba Program dan Hasilnya

Pengujian program dilakukan pada form prediksi dan pohon keputusan dilihat dari hasil

yang diperoleh dari program dengan hasil manual. Untuk proses pengujian program

digunakan data yang sama seperti pada perhitungan manual yaitu 132 data.

Sebagian dari data yang digunakan adalah sebagai berikut.

Gambar 2 Sebagian Data yang Digunakan

Berikut ini pengujian berdasarkan masing-masing form.

1. Form Pohon Keputusan

Pengujian dilakukan dengan menampilkan pohon keputusan yang

terbentuk dari hasil olah data sistem.

9

Berikut ini adalah hasil pohon keputusan yang terbentuk dari program.

Gambar 3 Pohon Keputusan

2. Form Prediksi

Pengujian dilakukan dengan cara menginputkan nilai variabel yang dimiliki

oleh calon anggota baru. Apabila nilai-nilai tersebut setelah diproses, maka sistem

akan menampilkan output berupa prediksi kelancaran pembayaran pinjaman sang

calon anggota baru. Pengujian ini menggunakan contoh calon anggota yang

memiliki kasus sebagai berikut.

1. Penghasilan : >=4jt

2. Status : menikah

3. Status Rumah : pribadi

4. Pinjaman : >4j

10

Berikut ini gambar hasil prediksi dari pengujian sistem pada kasus di atas.

Gambar 4 Hasil Prediksi

5. Penutup

5.1 Kesimpulan

Berdasarkan penjelasan di bab-bab sebelumnya, kesimpulan yang dapat diambil dalam

pengerjaan skripsi ini adalah

1. Membuat aplikasi yang dapat menampilkan informasi yang berguna untuk

mengambil keputusan dalam menganalisa tingkat kelancaran pembayaran

anggota berdasarkan data kasus tiap anggota menggunakan data mining.

2. Aplikasi ini dapat berjalan sesuai dengan rancangan yang dibuat, yaitu dapat

digunakan untuk prediksi kelancaran pembayaran, input data kasus anggota,

perbaharui data kasus, hapus data kasus dan bentuk pohon keputusan dari

perhitungan yang dihasilkan program.

3. Proses yang dilakukan memerlukan data yang banyak sehingga diperlukan

fungsi input data dalam bentuk file tersendiri agar memudahkan pengguna.

11

5.2 Saran

Pada penulisan skripsi ini tentu masih terdapat kekurangan yang dapat

disempurnakan lagi pada pengembangan berikutnya, sehingga terdapat beberapa saran

yang bisa menjadi pertimbangan agar aplikasi pohon keputusan C45 ini menjadi lebih baik,

diantaranya :

1. Adanya penambahan variabel lain yang memungkinkan mempengaruhi

kelancaran pembayaran seperti, angsuran, pendidikan, dan lainnya.

2. Sebaiknya data yang ditambahkan ke dalam sistem di update secara berkala,

sehingga keputusan yang dihasilkan akurat.

12

DAFTAR PUSTAKA

Jogiyanto, HM. 2005. Analisis dan Desain Sistem Informasi. Yogyakarta: Andi Offset.

Kadir, Abdul. 2008. Belajar Database Menggunakan MySQL. Yogyakarta: Andi Offset.

Kusrini, dan Emha Taufik Luthfi. 2009. Algoritma Data Mining. Yogyakarta: Andi Offset.

Kusrini. 2007. Strategi Perancangan dan Pengelolaan Basis Data. Yogyakarta: Andi Offset.