fraud detection pada transaksi perbankan …repository.usd.ac.id/35066/2/155314115_full.pdf ·...
Post on 11-Nov-2020
14 Views
Preview:
TRANSCRIPT
FRAUD DETECTION PADA TRANSAKSI PERBANKAN MENGGUNAKAN
ALGORITMA C4.5
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana
Program Studi Teknik Informatika
CLARA MARIA DE ROSARIO TAEK
155314115
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2019
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ii
FRAUD DETECTION ON BANKING TRANSACTION
USING C4.5 ALGORITHM
THESIS
Presented as Partial Fullfillment of the Requirement
To Obtain Sarjana Komputer Degree
In Informatics Study Program
CLARA MARIA DE ROSARIO TAEK
155314115
INFORMATICS ENGINEERING STUDY PROGRAM
DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
2019
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
v
HALAMAN PERSEMBAHAN
But by the grace of God I am what I am, and His grace to me was not without in
vain; No, I worked harder than all of them, yet not I, but by the grace of God that
was with me
-1 Corinthians 15:10-
Dengan segala rasa syukur, skripsi ini kupersembahkan kepada
TUHAN YESUS KRISTUS
Sang Juru Selamat Sejati
Bapa Mama
Adik-Adik
Almamaterku Universitas Sanata Dharma
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
ABSTRAK
Fraud adalah sebuah tindakan penipuan atau manipulasi yang dilakukan
seseorang dalam sebuah organisasi dengan tujuan untuk memperoleh keuntungan
tertentu yang merugikan pihak lain. Dalam bidang perbankan, fraud dapat ditemukan
pada berbagai transaksi dan praktik akuntansi. Dalam penanganannya, tindakan fraud
sangat sulit dideteksi oleh karena keterbatasan kemampuan auditor ketika menghadapi
frekuensi data yang besar. Persoalan tersebut dapat diatasi dengan menerapkan salah
satu algoritma klasifikasi data mining yakni algoritma C4.5.
Pada penelitian ini, algoritma C4.5 digunakan untuk mendeteksi kecurangan
dalam sebuah transaksi dengan mengklasifikasi jenis transaksi tergolong fraud atau
tidak fraud. Penelitian ini dilakukan dengan menggunakan data transaksi dari sebuah
bank yang memiliki jumlah fitur sebanyak 27 dan 1 label dengan total data test
sebanyak 13.125 record. Dari hasil preprocessing data, dipilih fitur-fitur berikut :
id_tanggal_transaksi_awal, tipe_kartu, nama_merchant, tipe_mesin, tipe_transaksi,
nama_transaksi, nilai_transaksi, nama_negara, nama_kota, lokasi_mesin,
pemilik_mesin, waktu_transaksi, kuartal_transaksi, kepemilikan_kartu,
nama_channel, id_channel, rata_rata_nilai_transaksi, maksimum_nilai_transaksi,
minimum_nilai_transaksi dan rata-rata_jumlah_transaksi yang akan digunakan dalam
penelitian menggunakan algoritma C4.5.
Pengujian dilakukan terhadap 2730 record dengan 25 inc_node menggunakan
15 fitur menunjukan tingkat akurasi optimal sebesar 72,20 % yang dihasilkan oleh
model ke-2 dari keseluruhan 3 model yang diuji. Pengujian untuk atribut
nama_merchant menunjukan tingkat akurasi paling optimal sebesar 78,68 %
menggunakan model 2. Hasil akurasi tersebut dapat membuktikan bahwa algoritma
C4.5 sudah baik digunakan untuk mendeteksi fraud dalam sebuah transaksi.
Kata kunci: Fraud, Algoritma C4.5, Akurasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ix
ABSTRACT
Fraud is an act of prevention or manipulation caused by someone in an
organization with the aim of obtaining certain benefits that harm others. In Banking,
fraud can be found in various transactions and accounting practices. In handling it,
fraudulent actions are very difficult to detect because of the limitations of the auditor's
ability to compile large data frequencies. This problem can be overcome by applying
one of the data mining classification algorithms, namely the C4.5 algorithm.
In this study, the C4.5 algorithm is used to overcome fraud in a transaction by
classifying types of transactions classified as fraud or not fraud. This research was
conducted using transaction data from banks that had a total of 27 and 1 label features
with a total of 13,125 test data. From the results of data selection, there are selected
features : id_tanggal_transaksi_awal, tipe_kartu, nama_merchant, tipe_mesin,
tipe_transaksi, nama_transaksi, nilai_transaksi, nama_negara, nama_kota,
lokasi_mesin, pemilik_mesin, waktu_transaksi, kuartal_transaksi, kepemilikan_kartu,
nama_channel, id_channel, rata_rata_nilai_transaksi, maksimum_nilai_transaksi,
minimum_nilai_transaksi and rata-rata_jumlah_transaksi which will be used in this
research by using C4.5 algorithm.
This classification tests carried on 2730 data records within 25 inc_node by
using 15 fitur show the optimal level of accuracy of 72, 20 % produced by the second
model of all 3 models tested. The test by using nama_merchant fitur show the most
optimal level of accuracy of 78,68 % produced by the second model. The results of this
accuracy can prove that the C4.5 algorithm is good to be used to detect fraud in a
transaction.
Keyword: Fraud, C4.5 Algorithm, Accuracy.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
x
KATA PENGANTAR
Puji syukur penulis haturkan ke hadirat Tuhan Yang Maha Esa, karena berkat
rahmat dan karuniaNya penulis dapat menyelesaikan tugas akhir dengan sangat baik.
Penulis menyadari bahwa pengerjaan tugas akhir ini dapat berjalan dengan baik
karena bimbingan dan dukungan dari berbagai pihak. Oleh karena itu, penulis ingin
mengucapkan terimakasih kepada :
1. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D selaku Dekan Fakultas
Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.
2. Romo Dr. Cyprianus Kuntoro Adi, S.J. M.A., M.Sc. selaku dosen
pembimbing tugas akhir yang telah memberikan dukungan, motivasi dan
waktu dalam membimbing penulis hingga dapat menyelesaikan tugas akhir
ini.
3. Dr. Anastasia Rita Widiarti, M.Kom. selaku Ketua Program Studi Teknik
Informatika yang selalu memberikan dukungan, perhatian dan motivasi
kepada penulis selama penyelesaian tugas akhir.
4. Kedua orang tua tercinta, Bapak Benyamin Taek Bau dan Mama Patrisia
Simuna Ikun yang senantiasa memberikan cinta, doa, dukungan, perhatian,
dan motivasi yang tak henti-henti kepada penulis.
5. Adik-adik terkasih Gloria Maria Natalia, Simon Petrus Erlang dan
Dominikus Mario yang selalu mendukung dan memotivasi penulis.
6. Sahabat rasa saudari yang terkasih Ventya Fernitha, terimakasih atas setiap
motivasi dan dukungan, susah-senang, bahagia dan air mata yang kita
lewati bersama selama kuliah.
7. Sahabat-sahabatku terkasih ‘Kampsky’ : Bang Dudut, Putra, Peng, El,
Namira, Grace, Gheral, Bang Kopite, Albert, Renaldi, Ega Menye, Bang
Paulus yang selalu memberi semangat dan motivasi selama kuliah.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
DAFTAR TABEL
Tabel 2.1 Model confusion matrix (Han, 2012) ...................................................... 17
Tabel 3.1 Fitur data set ............................................................................................ 20
Tabel 3.2 Data Sebelum Transformasi .................................................................... 26
Tabel 3.3 Data Setelah Transformasi ...................................................................... 26
Tabel 3.4 Pembagian kelompok data ...................................................................... 27
Tabel 3.5 Pembagian model 3-fold cross validation ............................................... 27
Tabel 4.1 Tabel atribut yang digunakan .................................................................. 33
Tabel 4.2 Tabel urutan fitur .................................................................................... 35
Tabel 4.3 Tabel akurasi 3-fold-validation .............................................................. 35
Tabel 4.4 Confusion Matrix Model 1 ...................................................................... 35
Tabel 4.5 Confusion Matrix Model 2 ...................................................................... 36
Tabel 4.6 Confusion Matrix Model 3 ...................................................................... 36
Tabel 4.7. Tabel Uji Akurasi Jumlah Feature ......................................................... 37
Tabel 4.8 Confusion Matrix Fitur 1 Model 1 .......................................................... 38
Tabel 4.9 Confusion Matrix Fitur 1 Model 2 .......................................................... 38
Tabel 4.10 Confusion Matrix Fitur 1 Model 3 ........................................................ 38
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvi
DAFTAR GAMBAR
Gambar 3.1 Diagram Blok ...................................................................................... 19
Gambar 3.2 Desain GUI .......................................................................................... 31
Gambar 4.1 Grafik Uji Akurasi 19 fitur .................................................................. 31
Gambar 4.2 Grafik Akurasi Uji Jumlah Fitur ......................................................... 40
Gambar 4.3 Pohon Keputusan Uji 1 Fitur ............................................................... 39
Gambar 4.4 Hasil Uji Data 1 ................................................................................... 40
Gambar 4.5 Hasil Uji Data 2 ................................................................................... 41
Gambar 4.6 Hasil Uji Data 3 ................................................................................... 41
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB I
PENDAHULUAN
1.1. LATAR BELAKANG
Fraud dapat ditemukan pada berbagai organisasi perusahaan maupun
pemerintahan. Menurut Karyono (2014:4-5), fraud dapat diartikan sebagai
kecurangan yang mengandung makna suatu penyimpangan dan perbuatan
melanggar hukum (illegal act), yang dilakukan dengan sengaja untuk tujuan
tertentu misalnya menipu atau memberikan gambaran keliru (mislead) kepada
pihak-pihak lain, yang dilakukan oleh orang-orang baik dari dalam maupun dari
luar organisasi. Kecurangan dirancang untuk memanfaatkan peluang-peluang
secara tidak jujur, yang secara langsung maupun tidak langsung merugikan
pihak lain. Secara umum, fraud dapat diartikan sebagai sebuah tindakan
penipuan atau manipulasi yang dilakukan seseorang dalam sebuah organisasi
dengan tujuan untuk memperoleh keuntungan tertentu yang merugikan pihak
lain.
Dalam bidang perbankan, fraud dapat ditemukan pada berbagai
transaksi dan praktik akuntansi. Tindakan fraud berakibat pada kerugian
keuangan serta penurunan tingkat kepercayaan nasabah terhadap pihak bank.
Penanganan tindakan fraud dapat dilakukan dengan audit kecurangan (Fraud
Audit) yang bertujuan untuk menemukan kecurangan (Soejono, 2000). Namun
pada pelaksanaanya, fraud sangat sulit didekteksi karena auditor harus
memiliki kemampuan khusus mengenai karakteristik fraud yang tersaji dalam
laporan keuangan. Selain itu, auditor juga membutuhkan waktu yang cukup
lama untuk mendeteksi fraud terutama dalam mengatasi persoalan dengan
frekuensi data yang besar (Watts, 1986).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
Mengatasi keterbatasan dalan pelaksanaan Fraud Auditing, pihak
perbankan memerlukan upaya upaya atau solusi untuk mendeteksi tindakan
fraud secara cepat dan akurat. Salah satu upaya yang dapat dilakukan adalah
pendeteksian fraud dengan menerapkan algoritma data mining. Implementasi
data mining dalam mendeteksi fraud dapat dibuktikan dengan berbagai
penelitian yang telah dilakukan sebelumnya. Salah satu penelitian yang
dilakukan Fiananta (2017) menerangkan bahwa deteksi fraud dapat dilakukan
dengan menerapkan model klasifikasi menggunakan algoritma SVM pada
transaksi kartu kredit. Penyelesaian kasus dalam metode tersebut dilakukan
dengan mencari anomali/outlier menggunakan hyperlane.
Vaishali (2014) dalam penelitiannya menjelaskan penerapan metode k-
means clustering dalam mendeteksi fraud dengan mengkluster tingkat
kecurangan kedalam empat kategori yakni kecurangan tingkat rendah,
kecurangan tingkat tinggi, kecurangan beresiko rendah serta kecurangan
beresiko tinggi. Penelitian dilakukan dengan menggunakan beberapa fitur
diataranya transaction id, transaction amount, transaction country, transaction
date dan credit card number.
Penelitian oleh Sharma (2013) membuktikan penyelesaian kasus
deteksi fraud menggunakan Decision Tree Classifiers. Penelitian dilakukan
dengan menggunakan data pada 202 perusahaan yang terdaftar di bursa saham
Tiongkok dengan 35 total fitur yang menghasilkan 18 fitur penting setelah
dilakukan proses pre-processing data. Jenis algoritma Decision Tree yang
digunakan dalam penelitian tersebut diantaanya adalah Random Forest, Naïve
Bayesian Tree, C4.5, RIPPER, CART, TreeNet serta Quantile Regression Tree
dengan tingkat akurasi tertinggi 72% pada penerapan algoritma Naïve Bayesian
Tree.
Berdasarkan uraian diatas, penelitian ini mencoba menentukan apakah
pendekatan algoritma klasifikasi C4.5 mampu mendeteksi transaksi yang fraud
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
atau tidak fraud dengan baik. Penelitian ini dilakukan dengan membahas
bagaimana metode C4.5 dapat digunakan untuk mengklasifikasi atau
mendeteksi fraud dalam transaksi perbankan secara cepat dan akurat. Penelitian
ini akan direpresentasikan menjadi sebuah sistem yang menerapkan algoritma
C4.5. Hasil implementasi sistem akan membuktikan seberapa efektif dan akurat
penggunaan algoritma C4.5 dalam mendeteksi fraud dalam sebuah transaksi.
1.2. RUMUSAN MASALAH
Berdasarkan latar belakang, masalah yang dipecahkan dalam
penelitian ini adalah:
1. Bagaimana algoritma C4.5 dapat digunakan untuk mendeteksi fraud
pada sebuah transaksi?
2. Sejauh mana model klasifikasi algoritma C4.5 dapat menghasilkan
nilai akurasi optimal dalam mendeteksi fraud?
1.3. TUJUAN
Penelitian ini bertujuan untuk:
1. Mengetahui bagaimana mendeteksi fraud pada sebuah transaksi
dengan menerapkan algoritma C4.5.
2. Menganalisis model klasifikasi algoritma C4.5 yang menghasilkan
akurasi optimal dalam mendeteksi fraud.
1.4. LUARAN
Penelitian ini menghasilkan luaran berupa hasil klasifikasi jenis
transaksi yang tergolong fraud dan tidak fraud. Berdasarkan hasil klasifikasi
tersebut, akan ditampikan hasil akurasi dari penerapan algoritma C4.5 dengan
membagi data berdasarkan 3-fold cross validation.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
1.5. MANFAAT
Secara umum, penelitian ini diharapkan mampu membantu pihak bank
dalam mengklasifikasi atau mendeteksi fraud dalam sebuah transaksi. Secara
khusus, penelitian ini diharapkan mampu memberikan gambaran bagaimana
mendeteksi fraud dalam sebuah transaksi dengan menggunakan algoritma
C4.5.
1.6. BATASAN MASALAH
Batasan masalah yang ditentukan dalam penelitian ini adalah:
1. Penelitian dilakukan dengan menggunakan data transaksi perbankan
dengan jumlah data sebanyak 13.125 record dengan total fitur yang
digunakan sebanyak 27 fitur.
2. Pedeteksian fraud digunakan dengan menerapkan algoritma C4.5.
3. Format file yang diinput adalah .xlsx atau xls.
4. Implementasi algoritma C4.5 dilakukan dengan menggunakan aplikasi
Matlab.
1.7. SISTEMATIKA PENULISAN
1. BAB I PENDAHULUAN
Bab ini berisi tentang latar belakang pemilihan judul tugas akhir,
rumusan masalah, tujuan, luaran, manfaat dan batasan masalah yang
digunakan dalam penelitian.
2. BAB II TINJAUAN PUSTAKA
Bab ini berisi teori-teori terkait yang digunakan untuk mendukung
penelitian meliputi konsep fraud, data mining, penelitian sebelumnya dan
Algoritma C4.5.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
3. BAB III METODOLOGI PENELITIAN
Bab ini berisi deskripsi data yang digunakan dalam penelitian serta
penjelasan alur penelitian.
4. HASIL DAN ANALISIS
Bab ini berisi analisis terhadap hasil yang diperoleh dalam
implementasi sistem dan sumbangan hasil pengetahuan untuk pengetahuan.
5. KESIMPULAN
Bab ini berisi kesimpulan berdasarkan hasil analisis yang diperoleh
dalam penelitian dan saran perbaikan untuk penelitian yang akan datang.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
BAB II
TINJAUAN PUSTAKA
Pada bab ini dijelaskan teori-teori terkait yang digunakan untuk mendukung
penelitian meliputi konsep fraud, data mining, penelitian terkait sebelumnya serta
algoritma C4.5.
2.1. FRAUD
Fraud dapat diartikan sebagai kecurangan yang dilakukan dalam
penyajian laporan keuangan sebuah perusahaan. Fraud (kecurangan)
merupakan kecurangan yang disengaja yang memberikan keuntungan bagi
pelaku serta menimbulkan kerugian terhadap pihak perusahaan.
Faktor penyebab terjadinya tindakan fraud (kecurangan) seringkali
disebabkan oleh beberapa apalasan baik yang berasal dari dalam diri maupun
dari luar dirinya. Secra umum, ada tiga hal yang mendorong terjadinya fraud
yakni dorongan (pressure), peluang (opportunity) serta pembenaran atas
tindakan yang dilakukan (rationalization). Dorongan (pressure) merupakan
dorongan yang timbul dari keinginan pelaku untuk memperoleh hidup lebih
baik. Keinginan ini seringkali dipengaruhi oleh keadaan ekonomi yang buruk
serta dorongan lingkungan untuk memiliki gaya hidup yang mewah. Peluang
(opportunity) merupakan faktor terjadinya fraud yang dipengaruhi oleh
lemahnya pengelolaan manajemen sehingga memicu seseorang berani untuk
melakukan tindakan fraud. Rasionalisasi (rationalization) merupakan alasan
rasional yang dilakukan oleh pelaku tindakan fraud untuk menutupi tindakan
yang dilakukan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
Jenis-jenis fraud dapat dikelompokkan menjadi 3 yakni:
1. Kecurangan pegawai (Employee fraud) yakni kecurangan yang
dilakukan oleh pegawai dalam suatu organisasi kerja.
2. Kecurangan manajemen (Management fraud) yakni kecurangan
yang dilakukan oleh pihak manajemen dengan menggunakan
laporan keuangan atau transaksi keuangan sebagai fraud.
3. Kecurangan komputer (Computer fraud) yakni kecurangan yang
dilakukan dalam pencatatan komputer yang meliputi pencatatan
operasional atau pembukuan dalam suatu perusahaan.
2.2. DATA MINING
Data mining merupakan proses yang mempekerjakan satu atau lebih
teknik pembelajaran komputer (machine learning) untuk menganalisis dan
mengekstraksi pengetahuan (knowledge) secara otomatis. Data mining dapat
disebut juga sebagai suatu pembelajaran be rbasis induksi (induction-based
learning) yang merupakan sebuah proses pembentukan berbagai definisi dari
berbagai konsep yang akan dipelajari. Data mining berisi pencarian trend atau
pola yang dinginkan dalam database yang besar untuk membantu
pengambilan keputusan di waktu yang akan datang. Pola-pola ini akan
dikenali oleh perangkat tertentu yang dapat memberikan suatu analisa yang
berguna dan berwawasan yang kemudian dapat dipelajari. Konsep dasar data
mining mengambil ide dari konsep machine learning, pengenalan pola,
statistik, dan database systems (Hermawati, 2013).
Data mining terdapat istilah knowledge discovery in database (KDD)
yang digunakan untuk menggali informasi tersembunyi dalam suatu basis
data. Dalam proses KDD terdapat beberapa proses yakni :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
1. Data Cleaning
Data cleaning merupakan tahap awal dalam penambangan data
yang bertujuan untuk menghapus data yang noise yang terdapat
dalam data.
2. Data Integration
Data integration merupakan tahap penggabungan data dari sumber
yang berbeda.
3. Data Selection
Data selection merupakan proses penyeleksian data yang relevan
dari sebuah database. Pada tahap ini, setiap fitur dicek apakah
relevan atau tidak untuk dilakukan penambangan data.
4. Data Transformation
Data transformation merupakan tahap dimana data mengalami
transformasi ke dalam bentuk yang sesuai. Tujuan dari transformasi
data ini adalah agar bentuk yang dihasilkan lebih mudah ditambang
dan dipahami.
5. Data Mining
Proses data mining merupakan tahap penambangan data diterapkan
dan diaplikasikan dengan menggunakan algoritma khusus yang
telah dipilih untuk mengekstrak pola.
6. Pattern Evaluation
Pada tahap ini dilakukan proses identifikasi pola yang menarik. Pola
terseut akan direpresentasikan dalam bentuk pengetahuan
berdasarkan beberapa pengukuran penting.
7. Knowledge Presentation
Tahap ini merupakan tahap akhir dalam data mining dimana
pengetahuan yang diperoleh direpresentasikan kepada pengguna.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
Dalam data mining, terdapat himpunan data (data set) yang merupakan
kumpulan data dari objek dan fiturnya. Fitur merupakan sifat atau
karakteristik dari suatu objek. Misalnya warna mata seseorang, suhu, dan
sebagainya. Fitur juga dikenal sebagai variabel, field, karakteristik atau fitur.
Kumpulan dari fitur memggambarkan sebuah objek. Objek juga disebut
dengan record, titik, kasus, sample, entitas atau instance.
Berdasarkan tugas yang dapat dilakukan, data mining dibagi menjadi
beberapa kelompok, yaitu (Larose, 2005) :
1. Deskripsi
Deskripsi dari pola dan kecendrungan sering memberikan
kemungkinan penjelasan untuk suatu pola atau kecenderungan.
2. Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target
estimasi lebih ke arah numerik daripada ke arah kategori.
Pembangunan model dibangun menggunakan record lengkap yang
menyediakan nilai dari variabel target sebagai nilai prediksi.
Selanjutnya, pada peninjauan berikutnya, estimasi nilai dari variabel
target dibuat berdasarkan nilai dari variabel prediksi.
3. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali
bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang.
4. Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Sebagai
contoh, penggolongan pendapatan dapat dipisahkan dalam tiga
kategori, yaitu pendapatan tinggi, pendapatan sedang, dan
pendapatan rendah.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
5. Pengklusteran
Pengklusteran merupakan pengelompokan record, pengamatan,
atau memperhatikan dan membentuk kelas dari berbagai objek yang
memiliki kemiripan. Kluster adalah kumpulan record yang
memiliki kemiripan satu dengan yang lainnya dan memiliki
ketidakmiripan dengan record-record dalam kluster lain.
6. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan fitur yang
muncul dalam satu waktu. Dalam dunia bisnis, asosiasi umumnya
disebut dengan analisis keranjang belanja.
Sebuah sistem yang baik yang dibangun dengan menggunakan prinsip
data mining menunjukan kualitas data yang baik. Untuk melihat baik
buruknya kualitas data perlu ditinjau kembali permasalahan kualitas data yang
ditinjau dari aspek pengukuran data dan pengumpulan data. Kesalahan
pengukuran (Measurement error) mengacu pada permasalahan hasil dari
proses pengukuran. Masalah yang umunya terjadi adalah nilai yang dicatat
berbeda dari nilai sebenarnya. Pada fitur kontinyu, beda numerik dari hasil
pengukuran dengan nilai sebenarnya disebut dengan error. Dalam hal ini,
jenis kesalahan pengukuran dibagi menjadi beberapa jenis yakni: 1). Noise,
merupakan komponen random dari suatu error pengukuran, 2). Bias,
merupakan suatu variasi pengukuran dari kuantitas yang sedang diukur
dengan pengurangan antara mean dan nilai kuantitas yang diketahui, 3).
Precision, yakni kedekatan dari pengukuran berulang (dari kuantitas yang
sama) satu dengan yang lainnya. Biasanya diukur dengan standar deviasi, 4).
Accuracy, merupakan kedekatan pengukuran terhadap nilai sebenarnya dari
kuantitas yang diukur.
Dalam mengolah suatu data menggunakan data mining, ada beberapa
tantangan yang sering dihadapi yakni: 1). Scalability, yaitu besarnya ukuran
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
basis data yang digunakan, 2). Dimensionality, yaitu banyaknya jumlah fitur
dalam data yang akan diproses, 3). Complex and Heterogenous Data, yaitu
data yang kompleks dan mempunyai variasi yang beragam, 4). Data Quality,
kualitas data yang akan diproses seperti data yang bersih dari noise, missing
value, dsb, 5). Data Ownership and Distribution, yaitu siapa yang memiliki
data dan bagaimana distribusinya, 6). Privacy Presevation, yaitu menjaga
kerahasiaan data yang banyak diterapkan pada data nasabah perbankan, 7).
Streaming Data, yaitu aliran data itu sendiri.
2.3. ALGORITMA C4.5
Algoritma C4.5 merupakan salah satu algoritma klasifikasi
diperkenalkan oleh J. Ross Quinlan (1996) sebagai versi perbaikan dari ID3.
Algoritma C4.5 merupakan pengembangan dari algoritma klasifikasi Decision
Tree atau pohon keputusan. Utamanya, pemilihan titik pemecahan (node)
dalam algoritma ini didasarkan pada perhitungana Gain untuk menginduksi
pohon yang akan dibentuk.
Dalam proses klasifikasi algoritma C4.5, terdapat variabel tujuan yang
biasanya dikelompokkan dengan pasti. Selanjutnya, model pohon keputusan
akan dibentuk dengan menghitung probabilitas tiap-tiap record terhadap
masing-masing fitur. Setiap data yang akan diuji menggunakan algoritma
C4.5 perlu dibagi menjadi data training dan data testing untuk setiap fitur dan
label. Data training merupakan data yang akan digunakan untuk membangun
sebuah model yang diiduksi sebagai pohon keputusan. Sedangkan data testing
merupakan data yang akan digunakan untuk menguji model yang sudah
dibuat.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
Kelebihan algoritma C4.5 adalah sebagai sebagai berikut :
1. Mampu mengangani fitur dengan tipe numerik (interval dan
rasio) dan fitur numerik (interval dan rasio)
2. Mampu mengatasi persoalan missing value.
3. Dapat melakukan pemotongan (pruning)
4. Pembentukan model mudah dipahami.
Kekurangan algoritma C4.5 adalah :
1. Terjadinya overlap dan peningkatan waktu pengambilan
keputusan ketika kelas-kelas dan kriteria yang digunakan
jumlahnya sangat banyak.
Dalam menginduksi pohon keputusaan menggunakan algoritma C4.5
terdapat beberapa rumus penting yang digunakan sebagai berikut :
2.3.1. Entropi
Entropi digunakan untuk menentukan nilai Information Gain
pada data latih. Nilai entropi yang lebih tinggi akan meningkatkan
potensi klasifikasi. Hal yang perlu diperhatikan adalah jika entropi
untuk node bernilai 0 berarti semua vektor berada pada label kelas
yang sama dengan node tersebut menjadi daun yang berisi keputusan
(label kelas).
Perhitungan nilai entropi dapat dilihat pada persamaan berikut
(Prasetyo, 2004):
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑠) = − ∑ 𝑝(𝑤𝑖|𝑠) 𝑙𝑜𝑔2
𝑛
𝑖=1
𝑝(𝑤𝑖|𝑠) (2.1)
Keterangan:
𝑠 = data latih
𝑖 = fitur
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
n = jumlah fitur pada fitur target
𝑝(𝑤𝑖) = proporsi kelas 𝑘𝑒𝑖 dalam semua data latih
𝑤𝑖 = jumlah semua baris data pada label kelas ke-𝑖
2.3.2. Information gain
Gain digunakan untuk memilih fitur sebagai akar. Selain itu,
nilai Gain digunakan untuk memperkirakan pemilihan fitur yang tepat
untuk menjadi pemecah pada node tersebut. Gain sebuah fitur ke-𝑗
dihitung menggunakan persamaan :
𝐺𝑎𝑖𝑛(𝑠, 𝑗) = 𝐸(𝑠) − ∑ 𝑝(𝑣𝑖
𝑛
𝑖=1
|𝑠) ∗ 𝐸(𝑠𝑖) (2.2)
Keterangan:
𝐺(𝑠, 𝑗) = gain fitur ke-𝑖
𝐸(𝑠) = entropi semua data latih
𝑝(𝑣𝑖) = proporsi nilai v yang muncul pada kelas dalam node
𝐸(𝑠𝑖) = komposisi nilai v darik kelas ke-𝑗 dalam data ke-𝑖
untuk node
𝑛 = jumlah nilai berbeda dalam node
2.3.3. Gain Ratio
Kriteria yang paling banyak digunakan untuk memilih fitur
sebagai pemecah dalam algoritma C4.5 adalah gain ratio. Perhitungan
Gain Ratio memerlukan perhitungan Split Info terlebih dahulu.
Perhitungan 𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝑠, 𝑗) menyatakan entropy atau informasi
potensial yang diperoleh menggunakan persamaan dibawah ini :
𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝑠, 𝑗) = − ∑ 𝑝(𝑣𝑖
𝑘
𝑖=𝑖
| 𝑠)𝑙𝑜𝑔2 𝑝(𝑣𝑖 |𝑠)
(2.3)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
Dimana 𝑣1 sampai 𝑣𝑘 adalah 𝑘 subset yang dihasilkan dari
pemecahan 𝑠 dengan menggunakan atribut 𝑗 sebanyak 𝑘 nilai.
Selanjutnya perhitungan Gain Ratio dapat diformulasikan dengan
rumus berikut :
𝐺𝑎𝑖𝑛𝑅𝑎𝑡𝑖𝑜(𝑠, 𝑗) =
𝐺𝑎𝑖𝑛(𝑠, 𝑗)
𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝑠, 𝑗)
(2.4)
Langkah-langkah menentukan pohon keputusan pada konsep decision
tree :
1. Dimulai dari mencari node akar.
2. Hitung semua fitur, hitung nilai entropi berdasarkan rumus 2.1
untuk semua sampel (data latih) pada setiap node.
3. Untuk semua fitur, hitung nilai Info Gain berdasarkan rumus 2.2.
4. Hitung semua Split Info dan Gain Ratio untuk setiap fitur sesua
dengan rumus 2.3 dan 2.4.
5. Pilih fitur dengan informasi gain yang teritinggi sebagai node
akar.
6. Gunakan kategori-kategori fitur sebagai node pemecahan
menjadi cabang.
7. Lakukan secara rekursif pada setiap cabang yang dibuat dengan
mengulangi langkah 2 sampai 6 hingga semua data dalam setiap
node hanya memberikan satu label kelas. Node yang tidak dapat
dipecahkan lagi merupakan daun yang berisi keputusan (label
kelas).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
Dalam proses pembuatan pohon keputusan, seringkali terbentuk
banyak cabang yang disebabkan karena banyaknya anomali data (data
yang menyimpang) yang ada di data training. Data tersebut biasanya
disebut sebagai noise atau outlier. Data-data yang menyimpang seperti
ini biasanya dilakukan pemangkasan diawal proses sehingga tidak
mempengaruhi kinerja algoritma utama yang digunakan dalam data
mining. Secara prinsip, jika pohon dibangun dari dara mentah yang
belum mengalami pemrosesan awal sama sekali maka dipastikan bahwa
pohon keputusan yang dibentuk secara penuh merefleksikan semua data
training. Karena seringkali terjadi overfitting dan underfitting dalam
menyelesaikan kasus menggukan algoritma decision tree maka perlu
dilakukan proses pemangkasan (pruning) pada cabang yang
memberikan informasi redundan (berulang) atau tidak mengikuti pola
data umumnya. Dengan cara ini maka dapat diperoleh pohon yang tidak
terlalu ‘rindang’ tetapi lebih besar skalabilitas dan kecepatan
prediksinya.
Terdapat dua jenis metode pemangkasan pohon keputusan, yaitu :
1. Prepruning
Prepruning merupakan pemangkasan subtree awal.
Pemangkasan ini secara praktik akan menghentikan
pertumbuhan pohon selama proses induksi pohon dengan
memilih berhenti pada sebuah node. Node tersebut kemudian
akan menjadi daun dan diberikan label kelas sesuai dengan
elemen data terbanyak. Syarat utama pendekatan ini adalah
bahwa semua objek data dimiliki oleh kelas yang sama atau
semua fitur yang sama.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
2. Postpruning
Postpruning merupakan pemangkasan yang dilakukan
setelah pohon tumbuh lengkap. Pendekatan ‘buttom-up’
didasarkan pada nilai error prediksi. Node akan dipangkas
dengan membuang cabang. Akibatnya, node menjadi daun dan
diberi label kelas sesuai dengan elemen terbanyak. Dengan
demikian, error yang terjadi selama proses prediksi dapat
dikurangi dengan postpruning.
2.4. RANDOM UNDER SAMPLING
Random under sampling merupakan salah satu metode resampling
yang sering digunakan untuk mengangani ketidakseimbangan kelas. Prinsip
utama metode ini adalah membuat jumlah kelas mayoritas sama dengan
jumlah kelas minoritas. Implementasi metode random under sampling adalah
memilih data set terlebih dahulu kemudian menghitung jumlah kelas mayoritas
dan minoritas. Setelah itu, ambil kelas mayoritas secara acak yang jumlah
datanya sama dengan kelas minoritas. Metode memiliki keunggulan dalam
menghemat waktu prediksi jika diterapkan dalam model klasifikasi.
2.5. K- FOLD CROSS VALIDATION
K-fold cross validation merupakan sebuah pendekatan yang bertujuan
untuk mengevaluasi kinerja algoritma dengan terlebih dahulu membagi data
menjadi data training (data latih) dan data testing (data uji). Dalam proses
cross validation, data akan dibagi dalam 𝑘 buah partisi dengan ukuran yang
sama dengan nilai k lebih dari sama dengan 2. Selanjutnya, setiap jumlah fold
yang ditentukan akan dibagi menjadi satu pecahan yang akan menjadi data
testing dan sisanya akan menjadi data training. Prosedur tersebut dilakukan
sebanyak 𝑘 kali sehingga setiap pecahan akan menjadi data testing tepat satu
kali dan akan menjadi data training sebanyak 𝑘-1 kali.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
2.6. CONFUSION MATRIX
Dalam penyelesaian sebuah kasus, diperlukan sebuah metode evaluasi
untuk mengukur kinerja algoritma yang digunakan untuk melakukan
klasifikasi. Dalam klasifikasi data mining, terdapat ukuran yang digunakan
untuk melakukan evaluasi salah satunya adalah confusion matrix.
Tabel 2.1 Model confusion matrix (Han, 2012)
Tabel 2.1 diatas merupakan confusion matrix untuk masalah biner untuk
dua kelas yakni yes dan no. Dalam confusion matrix, terdapat TP yang
merepresentasikan jumlah data yes yang terprediksi sebagai yes, FN yang
merepresentasikan jumlah data yes yang terprediksi sebagai no, FP yang
merepresentasikan jumlah data no yang terprediksi sebagai yes dan TN yang
merepresentasikan jumlah data no terpredisksi sebagai no. Setelah semua nilai
diketahui, penghitungan akurasi dapat dilakukan dengan menjumlahkan semua
baris yang terprediksi benar (𝑇𝑃 + 𝑇𝑁) kemudian dibagi dengan total data
yang diprediksi seperti yang digambarkan pada persamaan 2.4.
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 𝑥 100%
(2.5)
2.7. PENELITIAN SEBELUMNYA
Penelitian sebelumnya telah banyak membutkikan bahwa tindakan
fraud dapat dideteksi dengan menerapkan metode data mining dan machine
learning. Hasil penelitian yang dilakukan Fiananta (2017) menerangkan
bahwa deteksi fraud dapat dilakukan dengan menerapkan model klasifikasi
dengan algoritma SVM pada transaksi kartu kredit. Penyelesaian kasus
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
dalam metode tersebut dilakukan dengan mencari anomali/outlier
menggunakan hyperlane.
Vaishali (2014) dalam penelitiannya menjelaskan penerapan k-means
clustering dalam mendeteksi fraud dengan mengkluster tingkat kecurangan
kedalam empat kategori yakni kecurangan tingkat rendah, tingkat tinggi,
beresiko serta beresiko tinggi. Fraud dalam penelitian tersebut ditentukan
menggunakan beberapa fitur diataranya transaction id, transaction amount,
transaction country, transaction date dan credit card number.
Penelitian oleh Himanshu Sharma (2013) membuktikan penyelesaian
kasus deteksi fraud menggunakan decision tree classifiers. Penelitian tersebut
menggunakan data pada 202 perusahaan yang terdaftar di bursa saham
Tiongkok dengan 35 total fitur. Penelitian ini menggunakan 18 fitur penting
setelah dilakukan proses pre-processing data menggunakan t-statistics. Jenis
algoritma Decision Tree yang digunakan dalam penelitian tersebut diantaanya
adalah Random Forest, Naïve Bayesian Tree, C4.5, RIPPER, CART dan
TreeNet. Hasil akurasi yang dihasilkan dengan menerapkan algoritma C4.5
adalah 58% untuk uji 18 fitur dan 57% untuk uji keseluruhan fitur.
Kekurangan penelitian tersebut adalah tidak melakukan pruning pada
implementasi algoritma C4.5
Penelitian Sahin dan Duman (2011) membandingkan penerapan
algoritma Decision Tree dan SVM untuk mendeteksi fraud pada transaksi
kartu kredit. Penelitian tersebut menggunakan beberapa algoritma decision
tree yakni C&RT, C5.0 dan CHAID. Hasil akurasi yang diperoleh dari
penelitian tersebut menunjukan tingkat akurasi yang baik yang dihasilkan oleh
kedua jenis fitur dengan rata-rata akurasi sebesar 99,78%.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
BAB III
METODOLOGI PENELITIAN
Bab ini membahas deskripsi tahapan penelitian yang terdiri dari data, tahap
preprocessing data, tahap klasifikasi menggunakan algoritma C4.5 serta uji akurasi
menggunakan confusion matrix.
3.1.TAHAPAN PENELITIAN
Gambar 3.1 Diagram Blok
3.2. DATA
Data yang digunakan dalam penelitian ini berupa data transaksi salah
satu bank. Data ini bertipe .xlsx yang memiliki jumlah fitur sebanyak 27 dan 1
label dengan total data test sebanyak 13.125 record.
Secara umum data yang digunakan dalam penelitian dibagi menjadi 4
jenis yakni :
1. Data nominal yakni data yang nilainya diperoleh secara kategorisasi
atau klasifikasi. Data nominal dapat berupa nama atau kode yang
mempunyai arti informasi tidak terurut.
2. Data ordinal adalah data yang nilainya diperoleh dengan cara
kategorisasi atau klasifikasi yang nilainya memiliki hubungan satu
sama lain.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
3. Data interval adalah data yang nilainya diperoleh dengan cara
pengukuran, dimana jarak pada dua titik skala sudah diketahui.
4. Data rasio adalah data yang nilainya diperoleh dengan cara
pengukuran, dimana jarak dua titik pada skala sudah diketahui dan
mempunyai titik nol yang absolut.
Tabel 3.1 Fitur data set
No Fitur Kategori Keterangan
1 X nominal Id kartu
2 id_tanggal_transaksi_awal nominal Id tanggal transaksi dilakukan
3 tanggal_transaksi_awal nominal Tanggal dilakukan transaksi
5
tipe_kartu
nominal
Tipe kartu yang bertransaksi
(0/1/2/3/4/5/24/28/93/103/104/111/132)
6
id_merchant
nominal
Merchant dimana kartu tersebut bertransaksi
(-2/1401/1498/1557/1572/1667/…/720990)
7
nama_merchant
nominal
Merchant dimana kartu tersebut bertransaksi
(2/5/7/8/10/11/12/13/14/15/17…./1859)
8
tipe_mesin
nominal
Tipe mesin yakni mesin ATM atau mesin EDC
(-4/-3,/-2/3/7/14/15/25/28/…/ 6928943)
9
tipe_transaksi
nominal
Jenis transaksi
(26/58/147/148/153/156/158/159/…/640)
10
nama_transaksi
nominal
Nama jenis transaksi
(1/2/3/4/5/6/7/8/…/20)
11 nilai_transaksi interval Nilai uang yang tercatat saat transaksi
12
id_negara
nominal
Negara dimana transaksi tersebut dilakukan
(-2/45/57/64/73/96/104/149/157/168/183/188/216)
13
nama_negara
nominal
Negara dimana transaksi tersebut dilakukan
(1/4/5/6/7/8/10/11/12/14/15/16)
14
nama_kota
nominal
Nama kota dilakukannya transaksi
(1/3/4/7/8/9/10/11/13/15/…/293)
15
lokasi_mesin
nominal
Lokasi mesin
(2/4/7/8/9/10/11/13/14/16/18/…/8697)
16
pemilik_mesin
nominal
Pemilik mesin
(1/2/5/7//9/11/12/14/17/18/…/2688)
17 waktu_transaksi ordinal Waktu dilakukannya transaksi
18
kuartal_transaksi
ordinal
Kuartal waktu transaksi
(1/2/3/4)
19
kepemilikan_kartu
nominal
Kepemilikan kartu
(1/2)
20
nama_channel
nominal
Nama channel yang dimana kartu tersebut bertransaksi
(1/2/3/4/5)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
21
id_channel
nominal
Id channel dimana kartu tersebut bertransaksi
(3/4/8/9)
22
flag_transaksi_finansial
nominal
Jenis transaksi
(false)
23
status_transaksi
nominal
Keberhasilan atau kegagalan transaksi
(3)
24
bank_pemilik_kartu
nominal
Kepemilikan kartu yang dimiliki suatu bank
(999)
25 rata_rata_nilai_transaksi interval Rata rata nilai transaksi
26 maksimum_nilai_transaksi interval Nilai maksimum transaksi
27 minimum_nilai_transaksi interval Nilai minimum transaksi
28 rata_rata_jumlah_transaksi interval Rata-rata jumlah transaksi
29
Label
nominal
Apakah sebuah transaksi tergolong fraud atau tidak
(1/ 0)
3.3. PREPROCESSING
Pembuatan sistem dalam penelitian ini menggunakan metode
eksperimen yang mengacu pada konsep KDD (Knowledge Discovery in
Database) dan disusun berdasarkan tahapan-tahapan dalam penelitian. Tahapan
penelitian dalam KDD terdiri dari :
3.3.1. Data Cleaning
Data cleaning bertujuan untuk menghilangkan noise dan data
yang inkonsisten. Pada penelitian ini dilakukan proses data cleaning
yakni mengganti missing value dengan nilai rata-rata pada setiap fitur.
Rumus rata-rata yang digunakan adalah membagi jumlah seluruh nilai
dengan banyaknya data. Nilai rata-rata yang diperoleh untuk fitur rata-
rata nilai transaksi adalah 13641, fitur maksimum_nilai_transaksi
adalah 12287, fitur minimum_nilai_transaksi adalah 76519 dan untuk
fitur rata_rata_jumlah_transaksi adalah 2.4362. Jumlah keseluruhan
missing value pada data adalah 84 record yang terbagi menjadi 21
record untuk setiap fitur yang mengandung missing value.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
3.3.2. Data Integration
Data integration adalah proses penggabungan data dari berbagai
sumber yang berbeda. Pada penelitian ini tidak dilakukan data integration
karena data set sudah siap digunakan.
3.3.3. Data Selection
Data selection adalah proses memilih fitur yang sesuai dengan
penelitian yang dilakukan. Dalam proses data selection ini ada beberapa
fitur yang dihilangkan diantaranya :
1. Proses seleksi fitur pada penelitian ini dilakukan dengan
melakukan uji korelasi dan memilih salah satu fitur yang
berkorelasi diantaranya :
Id_tanggal_transaksi_awal dan tanggal_transaksi_awal.
Id_merchant dan nama_merchant.
Id_channel dan nama_channel.
Id_negara dan nama_negara.
Karena nilai dari setiap id sama dengan jumlah nama dari setiap
fitur diatas maka akan dipilih fitur transaksi_awal,
nama_merchant, dan nama_negara yang akan
digunakan dalam proses penelitian. Hal tersebut dilakukan
dengan tujuan untuk mempercepat proses klasifikasi
menggunakan algoritm C4.5.
2. Terdapat tiga fitur lainnya yakni fitur flag_transaksi_finansial,
status_transaksi dan bank_pemilik kartu yang tidak digunakan
dengan alasan ketiganya memiliki satu nilai pada setiap fitur
sehingga tidak ada fitur pembanding.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
3. Menghilangkan fitur tipe_mesin dan pemilik_mesin karena
dalam jenis fraud pada bab 2 tindakan fraud tidak dipengaruhi
oleh tipe mesin.
4. Menghilangkan fitur nama_merchant yang dikelompokkan
berdasarkan nama_negara karena keduanya berkorelasi.
3.3.4. Data Transformation
Data transformation merupakan proses pengubahan data menjadi
bentuk yang sesuai. Pada penelitian ini, proses transformation
dilakukan dengan merubah data numerik untuk fitur nominal. Data
transformation untuk fitur adalah sebagai berikut :
1. Transformasi fitur menggunakan metode discretization by
binning.
Transformasi pada fitur-fitur tersebut dilakukan dengan
langkah berikut :
a. Memilih fitur yang akan dicari intervalnya.
b. Cari nilai minimum dan maksimum dari masing-masing
fitur.
Nilai_transaksi
Nilai minimum : 1
Nilai maksimum : 75000000
Rata_rata_nilai_transaksi
Nilai minimum : 50000
Nilai maksimum : 24666666.67
Maksimum_nilai_transaksi
Nilai minimum : 38000
Nilai maksimum : 100000000
Minimum_nilai_transaksi
Nilai minimum : 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
Nilai maksimum : 75000000
Rata_rata_jumlah_transaksi
Nilai minimum : 1
Nilai maksimum : 19.78
c. Hitung panjang kelas interval membagi nilai maksimum
dikurang nilai minimum dengan jumlah kelas yang
diinginkan seperti rumus berikut :
𝑊 =
(𝑀𝑎𝑘𝑠 − 𝑀𝑖𝑛)
𝑛
…......(3.1)
𝑊 = Panjang kelas interval
𝑀𝑎𝑘𝑠 = Nilai maksimum
𝑀𝑖𝑛 = Nilai minimum
𝑛 = jumlah kelompok yang diinginkan
Sehingga panjang kelas interval pada penelitian ini
adalah :
Nilai_transaksi
𝑊 =(75000000 − 1)
750= 100000
Rata_rata_nilai_transaksi
𝑊 =(24666666.67 − 50000)
750= 133282,22
Maksimum_nilai_transaksi
𝑊 =(100000000 − 38000)
750= 133282,7
Minimum_nilai_transaksi
𝑊 =(75000000 − 1)
750= 100000
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
Rata_rata_jumlah_transaksi
𝑊 =(19.78 − 1)
10= 1,87
2. Transformasi fitur waktu_transaksi
Transformasi fitur waktu_transaksi dilakukan dengan
membagi nilai kedalam 4 kelompok yang ditentukan
berdasarkan 4 range waktu yakni:
00.00 - 05.59 = 1
06.00 - 11.59 = 2
12.00 - 15.59 = 3
18.00 - 23.59 = 4
Perbedaan data sebelum proses transformasi dan
sesudah transformasi data dapat dilihat pada Tabel 3.2 dan
Tabel 3.3.
Tabel 3.2 Data Sebelum Transformasi
id_
tan
gg
al_
tran
s
ak
si_
aw
al
tip
e_
kart
u
tip
e_
tran
sak
si
nil
ai_
tran
sak
si
nam
a_
neg
ara
nam
a_
ko
ta
lok
asi
_m
esi
n
wak
tu_
tran
sak
si
ku
art
al_
tran
sak
s
kep
em
ilik
an
_k
ar
nam
a_
ch
an
nel
rata
_ra
ta_
nil
ai_
t
ran
sak
si
mak
sim
um
_n
ilai
_tr
an
sak
si
min
imu
m_
nil
ai_
t
ran
sak
si
rata
_ra
ta_
jum
la
h_
tran
sak
si
2457419 111 156 3E+06 5 121 1264 73140 2 1 5 1E+06 1E+07 30000 2.33
2457521 2 156 1E+06 5 101 1283 140216 3 1 5 2E+07 1E+08 41804 2.4
2457659 103 58 320000 5 239 7049 155117 3 2 2 711765 7E+06 10000 1.98
2457311 0 26 150000 5 69 3425 143339 3 2 1 617968 3E+06 1E+05 1.46
2457413 111 385 100000 5 128 744 191633 4 2 1 274231 1E+06 20600 1.69
2457615 93 385 2E+06 5 128 2302 115558 2 2 1 2E+06 4E+07 1E+05 1.79
2457429 0 385 150000 5 128 3963 142702 3 2 1 392400 4E+06 25000 1.41
2457371 93 159 50000 5 265 1068 174044 3 2 1 751249 4E+06 25000 1.88
2457320 93 26 1E+06 5 241 2628 213705 4 2 1 989307 3E+07 10000 3.64
2457350 93 301 300000 5 102 1406 173819 3 2 1 1E+06 8E+06 10000 1.82
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
Tabel 3.3 Data Setelah Transformasi
3.4. RANDOM UNDER SAMPLING
Pada tahap ini dilakukan random under sampling pada data label dan
data fitur. Implementasi random under sampling pada penelitian ini dilakukan
dengan terlebih dahulu memisahkan data label dan data fitur. Setelah itu, data
yang memiliki label sama dengan 0 dikurangi secara random hingga jumlanya
sama dengan dua kali jumlah data label 1. Dengan demikian total data yang
akan digunakan untuk implementasi algoritma adalah 2730 yang terdiri dari
910 data dengan label 1 dan 1820 data dengan label 0.
3.5. DATA TRAINING DAN DATA TESTING
Pembagian data training dan data testing pada penelitian ini dilakukan
dengan menerapkan model 3-fold cross validation. Pemodelan dengan 3-fold
cross validation dilakukan dengan terlebih dahulu membagi data label dan fitur
menjadi 3 kelompok seperti pada Tabel 3.4. Selanjutnya membagi 3 model
berdasarkan 3-fold cross validation bagian seperti pada Tabel 3.5.
tan
gg
al_
tran
sa
ksi
_aw
al
tip
e_
kart
u
tip
e_
tran
sak
si
nil
ai_
tran
sak
si
nam
a_
neg
ara
nam
a_
ko
ta
lok
asi
_m
esi
n
wak
tu_
tran
sak
sik
uart
al_
tran
sa
ksi
kep
em
ilik
an
_k
art
u
nam
a_
ch
an
nel
rata
_ra
ta_
nil
ai
_tr
an
sak
si
mak
sim
um
_n
il
ai_
tran
sak
si
min
imu
m_
nil
ai
_tr
an
sak
si
rata
_ra
ta_
jum
l
ah
_tr
an
sak
si
2457646 111 26 21 5 265 4137 3 4 2 1 39 72 0 68
2457419 111 156 24 5 121 1264 1 2 1 5 40 74 0 52
2457521 2 156 11 5 101 1283 2 3 1 5 471 749 0 55
2457659 103 58 3 5 239 7049 2 3 2 2 20 51 0 38
2457311 0 26 1 5 69 3425 2 3 2 1 17 18 0 18
2457413 111 385 0 5 128 744 3 4 2 1 6 9 0 27
2457615 93 385 19 5 128 2302 1 2 2 1 69 299 0 31
2457429 0 385 1 5 128 3963 2 3 2 1 10 32 0 16
2457371 93 159 0 5 265 1068 2 3 2 1 21 26 0 34
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
Tabel 3.4 Pembagian Kelompok Data
Kelompok Data ke-
1 1 - 910
2 911 - 1820
3 1821 - 2730
Tabel 3.5 Pembagian model 3-fold cross validation
Model Data
Training Data Testing
1 1,2 3
2 1,3 2
3 2,3 1
3.6. KLASIFIKASI MENGGUNAKAN ALGORITMA C4.5
Pada tahap ini dilakukan proses penambangan data dengan algoritma
C4.5. Data yang digunakan dalam penelitian ini akan diklasifikasi dengan
membentuk pohon keputusan dengan menghitung Entropy, Information Gain,
Split Info, dan Gain Ratio. Proses pembentukan pohon diawali dengan mencari
nilai Gain Ratio tertinggi pada keseluruhan fitur untuk dijadikan sebagai
simpul akar. Selanjutnya, penghitungan cabang dan daun akan dilakukan
secara rekursif sampai pohon keputusan terbentuk.
Adapun algoritma pembentukan pohon keputusan menggunakan
algoritma C4.5 diawali dengan langkah :
1. Menginput data mentah terlebih dahulu.
2. Melakukan preprocessing terhadap data mentah yang telah
diinput.
3. Memisahkan label 0 dan label 1 menggunakan perintah find.
4. Melakukan under sampling dengan mengambil fitur dan label 0
dengan jumlah dua kali lebih banyak dari fitur dan label 1.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
5. Melakukan pembagian data training dan data testing terlebih
dahulu membagi data menjadi 3 fold untuk masing-masing label
dan fitur.
6. Melakukan uji klasifikasi terhadap masing-masing model yang
telah dibentuk menggunakan 3-fold cross validation.
7. Untuk setiap model klasifikasi, buat simpul akar untuk pohon
yang akan dibentuk.
8. Jika semua simpul sampel bernilai positif, berhenti dengan suatu
pohon dengan satu simpul akar.
9. Jika semua simpul negatif, berhenti dengan suatu pohon dengan
satu simpul akar.
10. Jika fitur kosong, berhenti dengan suatu pohon dengan satu
simpul akar dengan label yang sesuai dengan nilai yang
terbanyak yang ada pada label training. Untuk yang lain :
11. Mulai :
A atribut yang menghasilkan sampel dengan hasil yang
terbaik (berdasarkan gain ratio).
Atribut keputusan untuk simpul akar A.
Untuk setiap nilai, 𝑣𝑖 yang mungkin untuk A :
o Tambahkan cabang dibawah akar yang
berhubungan dengan A=𝑣𝑖.
o Tentukan sampe 𝑆𝑣𝑖 sebagai subset dari sampel
yang mempunyai nilai untuk 𝑣𝑖 untuk atribut A.
o Jika sampel 𝑆𝑣𝑖 kosong :
Dibawah cabang tambahkan simpul daun
dengan label = nilai yang terbanyak yang
ada pada label training.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
Yang lain, tambah cabang baru dibawah
cabang yang sekarang C4.5 (sampel
training, label training, atribut-[A]).
Berhenti.
3.7. UJI AKURASI
Pengujian hasil klasifikasi dilakukan dengan membandingkan data
testing terhadap data training berdasarkan model 3-fold cross validation yang
digunakan. Pengujian dilakukan terhadap 3 model berbeda yang
menghasilkan luaran berupa hasil akurasi dari masing-masing model. Hasil
akurasi dihasilkan berdasarkan jumlah prediksi sistem terhadap data testing
yang diuji. Hasil luaran yang dihasilkan dihitung dengan menjumlahkan data
yang terklasifikasi dengan benar dibagi dengan total keseluruhan data
kemudian dikali 100%.
3.8. UJI DATA TUNGGAL
Pada tahap ini dilakukan pengujian dengan pola klasifikasi yang telah
terbentuk. Pengujian data tunggal ini dilakukan dengan memasukan data uji
dari masing-masing fitur berdasarkan data training yang sudah ada. Luaran
dari pengujian ini akan menampilkan hasil prediksi berupa fraud atau tidaknya
data yang diuji.
3.9. GAMBARAN UMUM SISTEM
3.9.1. Input Sistem
Data diinput ke dalam sistem berupa data mentah dengan
tipe file .xls yang dipilih dari direktori komputer. Proses ini
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
terdiri dari beberapa tahapan untuk menentukan fraud dalam
sebuah transaksi. Proses yang dilakukan sistem, antara lain:
1. Mengupload data mentah yang bertipe .xls atau xlsx.
2. Sistem melakukan preprocessing pada data mentah yang
diupload.
3. Sistem melakukan metode under sampling untuk
memelakukan mengambil jumlah data yang akan
digunakan dalam klasifikasi menggunakan algoritma
C4.5
4. Sistem melakukan klasifikasi berdasarkan algoritma C4.5
dengan menghitung nilai Entropy, Information Gain,
Split Info dan Gain Ratio.
3.9.2. Output Sistem
Proses ini akan menampilkan luaran berupa hasil akurasi
yang dihitung menggunakan confusion matrix. Hasil tersebut
ditampilkan berdasarkan perhitungan hasil klasifikasi
menggunakan algoritma C4.5.
3.10. KEBUTUHAN SISTEM
Implementasi sistem dalam penelitian ini membutuhkan perangkat
keras dan perangkat lunak yang digunakan untuk menunjang kinerja sistem
yang dibangun.
3.10.1. Spesifikasi perangkat keras
Model : ASUS
Platform : Notebook-ASUS
Hard Disk Drive : 500 Gigabyte
Operating system : Windows 10 Enterprise
Memory : 2 GB
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
3.10.2. Spesifikasi perangkat lunak
Pengelitian ini menggunakan Matlab R2018a.
3.11. DESAIN GUI
Desain alat uji yang akan digunakan dalam penelitian ini dapat
dilihat pada Gambar 3.2.
Gambar 3.2 Desain GUI
Adapun penjelasan setiap fitur GUI adalah :
Axes1 merupakan logo Universitas Sanata Dharma.
Browse merupakan button yang digunakan untuk mencari dan
menginput data mentah yang akan ditampilkan dalam tabel Data
Sebelum Preprocessing.
Preprocessing merupakan button yang berfungsi untuk melakukan
preprocessing terhadap data mentah yang akan ditampilkan pada tabel
Data Setelah Preprocessing.
Model 1 merupakan pop up menu yang berfungsi untuk memberi
pilihan kepada user untuk memilih model klasifikasi yang akan diuji.
Jlh fitur merupakan kolom inputan yang digunakan untuk mengisi
jumlah fitur yang akan digunakan dalam klasifikasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
Inc node merupakan kolom inputan yang digunakan untuk menginput
jumlah inc_node.
Uji Sistem merupakan button yang digunakan untuk mengklasifikasi
model berdasarkan jumlah fitur dan inc_node yang diinput.
Tree merupakan button untuk menampilkan pohon keputusan.
Kolom Id Tanggal, Tipe Kartu, ID Merchant, Tipe Mesin, Tipe
Transaksi, Nama Transaksi, Nilai Transaksi, ID Negara, ID Kota,
Lokasi Mesin, Pemilik Mesin, Waktu Transaksi, Kuartal Transaksi,
Kepemilikan Kartu, Nama Channel, ID Channel, Rata-rata Nilai
Transaksi, Maksimum Transaksi, Minimum Transaksi dan Rata-rata
jumlah merupakan kolom yang disediakan untuk menginput nilai
setiap data yang sesuai dengan nama fitur yang tersedia.
Uji Data merupakan button yang berfungsi untuk melakukan
klasifikasi terhadap data sesuai dengan inputan pada kolom fitur.
Hasil Klasifikasi berfungsi untuk menampilkan hasil uji data sesuai
dengan inputan pada setiap kolom fitur.
Bersihkan adalah button yang digunakan untuk membersihkan semua
kolom inputan ketika data sudah selesai diuji.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
BAB IV
HASIL DAN ANALISIS
Bab ini berisi hasil klasifikasi dan analisis hasil klasifikasi lunak dan analisis
terhadap hasil klasifikasi yang dilakukan dengan menggunakan algoritma C4.5.
4.1. HASIL DAN ANALISIS KLASIFIKASI
Klasifikasi pada penelitian ini dilakukan dengan menggunakan
15 fitur yang sudah melewati proses cleaning, selection dan
transformation sebelum diuji menggunakan algoritma C4.5. Fitur yang
digunakan untuk membentuk tree dapat dilihat pada Tabel 4.1. Luaran
dari proses klasifikasi ini akan menghasilkan nilai akurasi dari
pengujian model 3-fold cross validation yang digunakan.
Tabel 4.1 Tabel fitur yang digunakan
1 id_tanggal_transaksi_awal
2 tipe_kartu
3 tipe_transaksi
4 nilai_transaksi
5 nama_negara
6 nama_kota
7 lokasi_mesin
8 waktu_transaksi
9 kuartal_transaksi
10 kepemilikan_kartu
11 nama_channel
12 rata_rata_nilai_transaksi
13 maksimum_nilai_transaksi
14 minimum_nilai_transaksi
15 rata-rata_jumlah_transaksi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
Sebelum digunakan, fitur-fitur tersebut diurutkan terlebih
dahulu berdasarkan perhitungan Information Gain menggunakan
aplikasi Weka. Semua fitur yang diproses akan menghasilkan urutan
fitur seperti pada Tabel 4.2 dibawah ini. Setiap fitur yang ditampilkan
pada tabel dibawah ini menggambarkan urutan tingkat kepentingan fitur
dari 1 sampai 15.
Tabel 4.2 Tabel urutan fitur
1 nama_channel
2 nama_transaksi
3 kepemilikan_kartu
4 nilai_transaksi
5 nama_kota
6 lokasi_mesin
7 maksimum_nilai_transaksi
8 minimum_nilai_transaksi
9 rata-rata_jumlah_transaksi
10 id_tanggal_transaksi_awal
11 rata_rata_nilai_transaksi
12 tipe_transaksi
13 kuartal_transaksi
14 waktu_transaksi
15 nama_negara
Berdasarkan urutan fitur pada Tabel 4.2 diatas, dilakukan
klasfikasi dengan menuguji 15 fitur yang digunakan tersebut. Hasil
pengujian akan menghasilkan nilai akurasi yang berbeda sesuai dengan
model 3-fold cross validation yang digunakan untuk mengklasifikasi
data. Hasil akurasi tersebut dapat dilihat pada Tabel 4.3 dibawah ini.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
Tabel 4.3 Tabel akurasi model 3-fold cros svalidation
Model Akurasi
1 68.48 %
2 72.20 %
3 71.76 %
Berdasarkan Tabel 4.3 diatas, dapat diketahui bahwa nilai
akurasi paling optimal ditunjukan oleh model 2 yakni sebesar 72.20 %.
Pengujian tersebut dilakukan dengan menggunakan 25 inc_node.
Inc_node merupakan tingkat kepercayaan (confidence factor) yang
digunakan dalam implementasi algoritma C4.5 yang berfungsi untuk
menentukan presentasi error dalam pohon keputusan yang dibentuk.
Nilai inc_node yang digunakan dalam penelitian ini disesuaikan dengan
nilai conficende factor default untuk algoritma C4.5. Nilai 25 inc_node
yang digunakan menandakan tingkat kepercayaan yang dihasilkan dari
klasifikasi algoritma sebesar 75% dengan error sebesar 25%. Hasil
akurasi untuk ketiga model yang diuji tersebut dapat diketahui dari hasil
peritungan confusion matrix pada tabel berikut.
Tabel 4.4 Confusion Matrix Model 1
Yes No
Yes 513 194
No 93 110
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =513 + 110
910 𝑥 100% = 68, 46 %
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
Tabel 4.5 Confusion Matrix Model 2
Yes No
Yes 543 189
No 64 114
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =543 + 114
910 𝑥 100% = 72.20 %
Tabel 4.6 Confusion Matrix Model 3
Yes No
Yes 545 195
No 62 108
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =545 + 108
910 𝑥 100% = 71.76 %
Berikut grafik hasil akurasi untuk pengujian 15 fitur
menggunakan 25 inc_node untuk model 1, model 2 dan model 3 yang
ditampilkan dengan pada Gambar 4.1.
Gambar 4.1 Grafik Uji Akurasi 15 Fitur
68.48 %
72.20 %71.76 %
67.00
68.00
69.00
70.00
71.00
72.00
73.00
Model 1 Model 2 Model 3
Uji Akurasi 15 Fitur
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
Untuk meningkatkan hasil akurasi, percobaan dilakukan dengan
menginput fitur satu per satu berdasarkan daftar fitur pada Tabel 4.3.
Hasil percobaan yang dilakukan menghasilkan nilai akurasi untuk uji
satu fitur sampai uji keseluruhan fitur seperti yang ditampilkan pada
Tabel 4.7.
Tabel 4.7 Tabel Uji Akurasi Jumlah Fitur
Berdasarkan tabel diatas, dapat diketahui bahwa nilai akurasi
paling optimal dihasilkan oleh pengujian dengan menggunakan 1 fitur.
Pengujian dilakukan dengan menggunakan 3 model berbeda dengan
jumlah inc_node yang digunakan sebesar 25. Nilai akurasi yang
dihasilkan untuk pengujian 1 fitur dapat diperoleh dengan perhitungan
confusion matrix terhadap hasil klasifikasi yang dilakukan seperti yang
ditampilkan pada tabel-tabel dibawah ini.
1 2 3
1 75.8242 78.6813 76.2637
2 75.7143 78.4615 76.1538
3 75.8242 78.5714 76.1538
4 68.6813 68.6813 68.5714
5 68.6813 66.5934 68.5714
6 68.6813 66.5934 68.5714
7 68.6813 66.5934 68.6813
8 68.4615 72.1978 71.7582
9 68.4615 72.1978 71.7582
10 68.4615 72.1978 71.7582
11 68.4615 72.1978 71.7582
12 68.4615 72.1978 71.7582
13 68.4615 72.1978 71.7582
14 68.4615 72.1978 71.7582
15 68.4615 72.1978 71.7582
ModelFitur
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
Tabel 4.8 Confusion Matrix Fitur 1 Model 1
Yes No
Yes 580 194
No 26 110
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =580 + 110
910 𝑥 100% = 75.8242 %
Tabel 4.9 Confusion Matrix Fitur 1 Model 2
Yes No
Yes 584 171
No 23 132
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =584 + 132
910 𝑥 100% = 78, 6813 %
Tabel 4.10 Confusion Matrix Fitur 1 Model 3
Yes No
Yes 589 198
No 18 104
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =589 + 104
910 𝑥 100% = 76, 2637 %
Berikut grafik hasil akurasi untuk pengujian 15 fitur
menggunakan 25 inc_node untuk model 1, model 2 dan model 3 yang
ditampilkan dengan pada Gambar 4.2.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
Gambar 4.2 Grafik Akurasi Uji Jumlah Fitur
Berdasarkan hasil pengujian terhadap fitur 1 yakni
nama_merchant dapat dihasilkan pohon keputusan yang ditampilkan
pada Gambar 4.3 dan Gambar 4.4.
Gambar 4.3 Pohon Keputusan Uji 1 Fitur
656871747780
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15A
kura
si
Jumlah Atribut
Grafik Akurasi Uji Jumlah Fitur
Model 1 Model 2 Model 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
4.2. PENGUJIAN DATA TUNGGAL
Data yang digunakan dalam pengujian data tunggal adalah
sebanyak 20 data dari masing-masing fitur. Hasil uji data tunggal untuk
3 sampel data dapat dilihat pada Gambar 4.5, Gambar 4.6 dan Gambar
4.7.
Data 1
Gambar 4.4 Hasil Uji Data 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
Data 2
Gambar 4.5 Hasil Uji Data 2
Data 3
Gambar 4.6 Hasil Uji Data 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
4.3. KELEBIHAN DAN KETERBATASAN PENELITIAN
Pembangunan sistem ini memiliki kelebihan dan keterbatasan
sebagai berikut :
4.3.1. Kelebihan Penelitian
1. Perangkat lunak ini dapat digunakan untuk mencari pola
klasifikasi data transaksi yang tergolong fraud atau tidak
fraud menggunakan algoritma C4.5.
2. Perangkat lunak yang dibangun mampu menerima
masukan file yang bertipe .xlsx.
3. Perangkat lunak ini dapat menginput jumlah atribut
sesuai dengan keingingan user.
4. Perangkat lunak mampu menginput jumlah inc_node
sesuai dengan keinginan user.
4.3.2. Kekurangan Penelitian
1. Perangkat lunak yang dibangun hanya dapat menerima
masukan file yang bertipe .xlsx.
2. Perangkat lunak hanya mampu menggunakan model
validasi untuk 3-fold cross validation saja.
3. Perangkat lunak hanya mampu menerapkan metode
under sampling untuk perbandingan jumlah data 1:2.
4.4. SUMBANGAN HASIL PENELITIAN
Hasil penelitian yang dilakukan memberikan sumbangan secara
khusus kepada pihak perbankan untuk mendeteksi fraud dalam sebuah
transaksi. Hasil penelitan ini juga memberikan gambaran kepada user
tentang bagaimana mengklasifikasi data transaksi untuk mendeteksi
fraud dengan menerapkan algoritma C4.5.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
BAB V
KESIMPULAN DAN SARAN
Pada bab ini dijelaskan kesimpulan yang diperoleh dari hasil percobaan yang
dilakukan. Bab ini juga menjelaskan saran perbaikan untuk penelitian yang akan
datang.
5.1. KESIMPULAN
Kesimpulan yang dihasilkan berdasarkan sistem klasifikasi data
1. Deteksi fraud menggunakan menggunakan algoritma klasifikasi
C4.5 dapat diimplementasikan dengan baik.
2. Pengujian yang dilakukan terhadap 15 fitur untuk model 2
dengan jumlah inc_node sebesar 25 menghasilkan tingkat
akurasi terbesar sebesar 72.20 %.
3. Akurasi paling optimal dihasilkan dengan pengujian
menggunakan fitur nama_channel dengan tingkat akurasi
sebesar 78.68 % menggunakan model 2 dan jumlah inc_node
sebesar 25.
4. Model yang paling baik digunakan dalam klasifikasi adalah
model 2 dengan nilai inc_node sebesar 25.
5.2. SARAN
Saran yang dapat diberikan untuk mengembangkan penelitian yang
akan datang adalah :
1. Perangkat lunak yang dibangun diharapkan dapat menerima masukan
tidak hanya file bertipe .xlsx saja, tetapi juga dapat menerima file
bertipe lain.
2. Perangkat lunak yang dibangun mampu menggunakan model validasi
untuk beragam k-fold cross validation yang digunakan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
3. Perangkat lunak secara fleksibel mampu menerapkan metode under
samling untuk beragam jumlah data yang digunakan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
DAFTAR PUSTAKA
Han, Jiawie and Micheline Kamber. 2006. Data Mining : Concept and Technique. San
Francisco : Morgan Kaufman.
H. Sharma. 2013. Detection of Financial Statement Fraud Using Decision Tree
Classifiers. IT Delhi, New Delhi.
Hermawati, F. A. 2013. Data Mining. Yogyakarta: Penerbit Andi.
Karyono. 2014. Forensic Fraud. Yogyakarta: CV. Andi.
Larose, D. T. (2005). Discovering Knowledge in Data. United States of America: John
Wiley & Sons, Inc.
Nipane V.B., Kalinge P. S., et. All., 2016. “Fraudulent Detection in Credit Card System
Using SVM & Decision Tree”, IJSDR Volume I, Issue 5.
Prasetyo, E., 2014, Data Mining: Konsep dan Aplikasi Menggunakan Matlab. C.V Andi
Offset Yogyakarta.
Quinlan, J.R. 1996. Improved Use of Continuous Attributes in C4.5. Sydney Australia.
Sahin. Y and Duman. E. (2011). Detecting Credit Card Fraud by Decision Trees and
Support Vector Machines., Proceeding of the International Multi Conference
of Engineers and Computer Scientist 2011 Vol I.
Tuanakota M, Theodorus. 2010. Akuntansi forensic dan Audit Investigatif. Jakarta:
Salemba Empat.
Vaishali. 2014. “Fraud Detection in Credit Card by Clustering Approach”,
International Journal of Computer Applications (0975-8887) Volume 98-No.3.
Watts, R. L. and J. l. Zimmerman. 1986. The Possitive Accounting Theory. Prentice
Hall International, Inc.
Yazid. dan Fiananta, Arga. (2017). Mendeteksi Kecurangan Pada Transaksi Kartu
Kredit Untuk Verifikasi Transaksi Menggunakan Metode SVM, Indonesia
Journal of Applied Informatics Vol 1.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
DAFTAR REVISI DOKUMEN TUGAS AKHIR
FRAUD DETECTION PADA TRANSAKSI PERBANKAN MENGGUNAKAN
ALGORITMA C4.5
No Poin Revisi Hasil Revisi Halaman
1 Merevisi daftar isi Memberi spasi 1 baris untuk setiap
bab
xii, xiii,
xiv
2 Memperbaiki posisi
rumus
Memindahkan posisis rumus
perhitungan Info Gain sebelum
rumus perhitungan Gain Ratio
14
3 Revisi penjelasan
algoritma
Menyebutkan nomor rumus
berdasarkan rumus yang digunakan
dalam penjelasan algoritma
14
4 Merevisi penjelasan
fitur
Menambah kolom kategori untuk
menjelaskan tipe setiap fitur pada
Tabel Fitur Data Set
20 dan 21
5 Merevisi tahap
preprocesing
- Data yang berbentuk kategorikal
tidak perlu ditansformasi
- Melakukan uji independensi
terhadap atribut
id_tanggal_transaksi_awal dan
tanggal_transaksi_awal,
id_merchant dan
nama_merchant, id_channel dan
nama_channel, id_negara dan
nama_negara
22
6 Merevisi penjelasan
tahapan algoritma C4.5
Menjelaskan tahapan algoritma
C4.5 sesuai program
28 dan 29
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
top related