fraud detection pada transaksi perbankan …repository.usd.ac.id/35066/2/155314115_full.pdf ·...

FRAUD DETECTION PADA TRANSAKSI PERBANKAN MENGGUNAKAN

ALGORITMA C4.5

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana

Program Studi Teknik Informatika

CLARA MARIA DE ROSARIO TAEK

155314115

PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

FRAUD DETECTION ON BANKING TRANSACTION

USING C4.5 ALGORITHM

THESIS

Presented as Partial Fullfillment of the Requirement

To Obtain Sarjana Komputer Degree

In Informatics Study Program

CLARA MARIA DE ROSARIO TAEK

155314115

INFORMATICS ENGINEERING STUDY PROGRAM

DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

HALAMAN PERSEMBAHAN

But by the grace of God I am what I am, and His grace to me was not without in

vain; No, I worked harder than all of them, yet not I, but by the grace of God that

was with me

-1 Corinthians 15:10-

Dengan segala rasa syukur, skripsi ini kupersembahkan kepada

TUHAN YESUS KRISTUS

Sang Juru Selamat Sejati

Bapa Mama

Adik-Adik

Almamaterku Universitas Sanata Dharma

ABSTRAK

Fraud adalah sebuah tindakan penipuan atau manipulasi yang dilakukan

seseorang dalam sebuah organisasi dengan tujuan untuk memperoleh keuntungan

tertentu yang merugikan pihak lain. Dalam bidang perbankan, fraud dapat ditemukan

pada berbagai transaksi dan praktik akuntansi. Dalam penanganannya, tindakan fraud

sangat sulit dideteksi oleh karena keterbatasan kemampuan auditor ketika menghadapi

frekuensi data yang besar. Persoalan tersebut dapat diatasi dengan menerapkan salah

satu algoritma klasifikasi data mining yakni algoritma C4.5.

Pada penelitian ini, algoritma C4.5 digunakan untuk mendeteksi kecurangan

dalam sebuah transaksi dengan mengklasifikasi jenis transaksi tergolong fraud atau

tidak fraud. Penelitian ini dilakukan dengan menggunakan data transaksi dari sebuah

bank yang memiliki jumlah fitur sebanyak 27 dan 1 label dengan total data test

sebanyak 13.125 record. Dari hasil preprocessing data, dipilih fitur-fitur berikut :

id_tanggal_transaksi_awal, tipe_kartu, nama_merchant, tipe_mesin, tipe_transaksi,

nama_transaksi, nilai_transaksi, nama_negara, nama_kota, lokasi_mesin,

pemilik_mesin, waktu_transaksi, kuartal_transaksi, kepemilikan_kartu,

nama_channel, id_channel, rata_rata_nilai_transaksi, maksimum_nilai_transaksi,

minimum_nilai_transaksi dan rata-rata_jumlah_transaksi yang akan digunakan dalam

penelitian menggunakan algoritma C4.5.

Pengujian dilakukan terhadap 2730 record dengan 25 inc_node menggunakan

15 fitur menunjukan tingkat akurasi optimal sebesar 72,20 % yang dihasilkan oleh

model ke-2 dari keseluruhan 3 model yang diuji. Pengujian untuk atribut

nama_merchant menunjukan tingkat akurasi paling optimal sebesar 78,68 %

menggunakan model 2. Hasil akurasi tersebut dapat membuktikan bahwa algoritma

C4.5 sudah baik digunakan untuk mendeteksi fraud dalam sebuah transaksi.

Kata kunci: Fraud, Algoritma C4.5, Akurasi.

ABSTRACT

Fraud is an act of prevention or manipulation caused by someone in an

organization with the aim of obtaining certain benefits that harm others. In Banking,

fraud can be found in various transactions and accounting practices. In handling it,

fraudulent actions are very difficult to detect because of the limitations of the auditor's

ability to compile large data frequencies. This problem can be overcome by applying

one of the data mining classification algorithms, namely the C4.5 algorithm.

In this study, the C4.5 algorithm is used to overcome fraud in a transaction by

classifying types of transactions classified as fraud or not fraud. This research was

conducted using transaction data from banks that had a total of 27 and 1 label features

with a total of 13,125 test data. From the results of data selection, there are selected

features : id_tanggal_transaksi_awal, tipe_kartu, nama_merchant, tipe_mesin,

tipe_transaksi, nama_transaksi, nilai_transaksi, nama_negara, nama_kota,

lokasi_mesin, pemilik_mesin, waktu_transaksi, kuartal_transaksi, kepemilikan_kartu,

nama_channel, id_channel, rata_rata_nilai_transaksi, maksimum_nilai_transaksi,

minimum_nilai_transaksi and rata-rata_jumlah_transaksi which will be used in this

research by using C4.5 algorithm.

This classification tests carried on 2730 data records within 25 inc_node by

using 15 fitur show the optimal level of accuracy of 72, 20 % produced by the second

model of all 3 models tested. The test by using nama_merchant fitur show the most

optimal level of accuracy of 78,68 % produced by the second model. The results of this

accuracy can prove that the C4.5 algorithm is good to be used to detect fraud in a

transaction.

Keyword: Fraud, C4.5 Algorithm, Accuracy.

KATA PENGANTAR

Puji syukur penulis haturkan ke hadirat Tuhan Yang Maha Esa, karena berkat

rahmat dan karuniaNya penulis dapat menyelesaikan tugas akhir dengan sangat baik.

Penulis menyadari bahwa pengerjaan tugas akhir ini dapat berjalan dengan baik

karena bimbingan dan dukungan dari berbagai pihak. Oleh karena itu, penulis ingin

mengucapkan terimakasih kepada :

1. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D selaku Dekan Fakultas

Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.

2. Romo Dr. Cyprianus Kuntoro Adi, S.J. M.A., M.Sc. selaku dosen

pembimbing tugas akhir yang telah memberikan dukungan, motivasi dan

waktu dalam membimbing penulis hingga dapat menyelesaikan tugas akhir

3. Dr. Anastasia Rita Widiarti, M.Kom. selaku Ketua Program Studi Teknik

Informatika yang selalu memberikan dukungan, perhatian dan motivasi

kepada penulis selama penyelesaian tugas akhir.

4. Kedua orang tua tercinta, Bapak Benyamin Taek Bau dan Mama Patrisia

Simuna Ikun yang senantiasa memberikan cinta, doa, dukungan, perhatian,

dan motivasi yang tak henti-henti kepada penulis.

5. Adik-adik terkasih Gloria Maria Natalia, Simon Petrus Erlang dan

Dominikus Mario yang selalu mendukung dan memotivasi penulis.

6. Sahabat rasa saudari yang terkasih Ventya Fernitha, terimakasih atas setiap

motivasi dan dukungan, susah-senang, bahagia dan air mata yang kita

lewati bersama selama kuliah.

7. Sahabat-sahabatku terkasih ‘Kampsky’ : Bang Dudut, Putra, Peng, El,

Namira, Grace, Gheral, Bang Kopite, Albert, Renaldi, Ega Menye, Bang

Paulus yang selalu memberi semangat dan motivasi selama kuliah.

DAFTAR TABEL

Tabel 2.1 Model confusion matrix (Han, 2012) ...................................................... 17

Tabel 3.1 Fitur data set ............................................................................................ 20

Tabel 3.2 Data Sebelum Transformasi .................................................................... 26

Tabel 3.3 Data Setelah Transformasi ...................................................................... 26

Tabel 3.4 Pembagian kelompok data ...................................................................... 27

Tabel 3.5 Pembagian model 3-fold cross validation ............................................... 27

Tabel 4.1 Tabel atribut yang digunakan .................................................................. 33

Tabel 4.2 Tabel urutan fitur .................................................................................... 35

Tabel 4.3 Tabel akurasi 3-fold-validation .............................................................. 35

Tabel 4.4 Confusion Matrix Model 1 ...................................................................... 35

Tabel 4.7. Tabel Uji Akurasi Jumlah Feature ......................................................... 37

Tabel 4.8 Confusion Matrix Fitur 1 Model 1 .......................................................... 38

Tabel 4.9 Confusion Matrix Fitur 1 Model 2 .......................................................... 38

Tabel 4.10 Confusion Matrix Fitur 1 Model 3 ........................................................ 38

DAFTAR GAMBAR

Gambar 3.1 Diagram Blok ...................................................................................... 19

Gambar 3.2 Desain GUI .......................................................................................... 31

Gambar 4.1 Grafik Uji Akurasi 19 fitur .................................................................. 31

Gambar 4.2 Grafik Akurasi Uji Jumlah Fitur ......................................................... 40

Gambar 4.3 Pohon Keputusan Uji 1 Fitur ............................................................... 39

Gambar 4.4 Hasil Uji Data 1 ................................................................................... 40

PENDAHULUAN

1.1. LATAR BELAKANG

Fraud dapat ditemukan pada berbagai organisasi perusahaan maupun

pemerintahan. Menurut Karyono (2014:4-5), fraud dapat diartikan sebagai

kecurangan yang mengandung makna suatu penyimpangan dan perbuatan

melanggar hukum (illegal act), yang dilakukan dengan sengaja untuk tujuan

tertentu misalnya menipu atau memberikan gambaran keliru (mislead) kepada

pihak-pihak lain, yang dilakukan oleh orang-orang baik dari dalam maupun dari

luar organisasi. Kecurangan dirancang untuk memanfaatkan peluang-peluang

secara tidak jujur, yang secara langsung maupun tidak langsung merugikan

pihak lain. Secara umum, fraud dapat diartikan sebagai sebuah tindakan

penipuan atau manipulasi yang dilakukan seseorang dalam sebuah organisasi

dengan tujuan untuk memperoleh keuntungan tertentu yang merugikan pihak

Dalam bidang perbankan, fraud dapat ditemukan pada berbagai

transaksi dan praktik akuntansi. Tindakan fraud berakibat pada kerugian

keuangan serta penurunan tingkat kepercayaan nasabah terhadap pihak bank.

Penanganan tindakan fraud dapat dilakukan dengan audit kecurangan (Fraud

Audit) yang bertujuan untuk menemukan kecurangan (Soejono, 2000). Namun

pada pelaksanaanya, fraud sangat sulit didekteksi karena auditor harus

memiliki kemampuan khusus mengenai karakteristik fraud yang tersaji dalam

laporan keuangan. Selain itu, auditor juga membutuhkan waktu yang cukup

lama untuk mendeteksi fraud terutama dalam mengatasi persoalan dengan

frekuensi data yang besar (Watts, 1986).

Mengatasi keterbatasan dalan pelaksanaan Fraud Auditing, pihak

perbankan memerlukan upaya upaya atau solusi untuk mendeteksi tindakan

fraud secara cepat dan akurat. Salah satu upaya yang dapat dilakukan adalah

pendeteksian fraud dengan menerapkan algoritma data mining. Implementasi

data mining dalam mendeteksi fraud dapat dibuktikan dengan berbagai

penelitian yang telah dilakukan sebelumnya. Salah satu penelitian yang

dilakukan Fiananta (2017) menerangkan bahwa deteksi fraud dapat dilakukan

dengan menerapkan model klasifikasi menggunakan algoritma SVM pada

transaksi kartu kredit. Penyelesaian kasus dalam metode tersebut dilakukan

dengan mencari anomali/outlier menggunakan hyperlane.

Vaishali (2014) dalam penelitiannya menjelaskan penerapan metode k-

means clustering dalam mendeteksi fraud dengan mengkluster tingkat

kecurangan kedalam empat kategori yakni kecurangan tingkat rendah,

kecurangan tingkat tinggi, kecurangan beresiko rendah serta kecurangan

beresiko tinggi. Penelitian dilakukan dengan menggunakan beberapa fitur

diataranya transaction id, transaction amount, transaction country, transaction

date dan credit card number.

Penelitian oleh Sharma (2013) membuktikan penyelesaian kasus

deteksi fraud menggunakan Decision Tree Classifiers. Penelitian dilakukan

dengan menggunakan data pada 202 perusahaan yang terdaftar di bursa saham

Tiongkok dengan 35 total fitur yang menghasilkan 18 fitur penting setelah

dilakukan proses pre-processing data. Jenis algoritma Decision Tree yang

digunakan dalam penelitian tersebut diantaanya adalah Random Forest, Naïve

Bayesian Tree, C4.5, RIPPER, CART, TreeNet serta Quantile Regression Tree

dengan tingkat akurasi tertinggi 72% pada penerapan algoritma Naïve Bayesian

Berdasarkan uraian diatas, penelitian ini mencoba menentukan apakah

pendekatan algoritma klasifikasi C4.5 mampu mendeteksi transaksi yang fraud

atau tidak fraud dengan baik. Penelitian ini dilakukan dengan membahas

bagaimana metode C4.5 dapat digunakan untuk mengklasifikasi atau

mendeteksi fraud dalam transaksi perbankan secara cepat dan akurat. Penelitian

ini akan direpresentasikan menjadi sebuah sistem yang menerapkan algoritma

C4.5. Hasil implementasi sistem akan membuktikan seberapa efektif dan akurat

penggunaan algoritma C4.5 dalam mendeteksi fraud dalam sebuah transaksi.

1.2. RUMUSAN MASALAH

Berdasarkan latar belakang, masalah yang dipecahkan dalam

penelitian ini adalah:

1. Bagaimana algoritma C4.5 dapat digunakan untuk mendeteksi fraud

pada sebuah transaksi?

2. Sejauh mana model klasifikasi algoritma C4.5 dapat menghasilkan

nilai akurasi optimal dalam mendeteksi fraud?

1.3. TUJUAN

Penelitian ini bertujuan untuk:

1. Mengetahui bagaimana mendeteksi fraud pada sebuah transaksi

dengan menerapkan algoritma C4.5.

2. Menganalisis model klasifikasi algoritma C4.5 yang menghasilkan

akurasi optimal dalam mendeteksi fraud.

1.4. LUARAN

Penelitian ini menghasilkan luaran berupa hasil klasifikasi jenis

transaksi yang tergolong fraud dan tidak fraud. Berdasarkan hasil klasifikasi

tersebut, akan ditampikan hasil akurasi dari penerapan algoritma C4.5 dengan

membagi data berdasarkan 3-fold cross validation.

1.5. MANFAAT

Secara umum, penelitian ini diharapkan mampu membantu pihak bank

dalam mengklasifikasi atau mendeteksi fraud dalam sebuah transaksi. Secara

khusus, penelitian ini diharapkan mampu memberikan gambaran bagaimana

mendeteksi fraud dalam sebuah transaksi dengan menggunakan algoritma

1.6. BATASAN MASALAH

Batasan masalah yang ditentukan dalam penelitian ini adalah:

1. Penelitian dilakukan dengan menggunakan data transaksi perbankan

dengan jumlah data sebanyak 13.125 record dengan total fitur yang

digunakan sebanyak 27 fitur.

2. Pedeteksian fraud digunakan dengan menerapkan algoritma C4.5.

3. Format file yang diinput adalah .xlsx atau xls.

4. Implementasi algoritma C4.5 dilakukan dengan menggunakan aplikasi

Matlab.

1.7. SISTEMATIKA PENULISAN

1. BAB I PENDAHULUAN

Bab ini berisi tentang latar belakang pemilihan judul tugas akhir,

rumusan masalah, tujuan, luaran, manfaat dan batasan masalah yang

digunakan dalam penelitian.

2. BAB II TINJAUAN PUSTAKA

Bab ini berisi teori-teori terkait yang digunakan untuk mendukung

penelitian meliputi konsep fraud, data mining, penelitian sebelumnya dan

Algoritma C4.5.

3. BAB III METODOLOGI PENELITIAN

Bab ini berisi deskripsi data yang digunakan dalam penelitian serta

penjelasan alur penelitian.

4. HASIL DAN ANALISIS

Bab ini berisi analisis terhadap hasil yang diperoleh dalam

implementasi sistem dan sumbangan hasil pengetahuan untuk pengetahuan.

5. KESIMPULAN

Bab ini berisi kesimpulan berdasarkan hasil analisis yang diperoleh

dalam penelitian dan saran perbaikan untuk penelitian yang akan datang.

BAB II

TINJAUAN PUSTAKA

Pada bab ini dijelaskan teori-teori terkait yang digunakan untuk mendukung

penelitian meliputi konsep fraud, data mining, penelitian terkait sebelumnya serta

algoritma C4.5.

2.1. FRAUD

Fraud dapat diartikan sebagai kecurangan yang dilakukan dalam

penyajian laporan keuangan sebuah perusahaan. Fraud (kecurangan)

merupakan kecurangan yang disengaja yang memberikan keuntungan bagi

pelaku serta menimbulkan kerugian terhadap pihak perusahaan.

Faktor penyebab terjadinya tindakan fraud (kecurangan) seringkali

disebabkan oleh beberapa apalasan baik yang berasal dari dalam diri maupun

dari luar dirinya. Secra umum, ada tiga hal yang mendorong terjadinya fraud

yakni dorongan (pressure), peluang (opportunity) serta pembenaran atas

tindakan yang dilakukan (rationalization). Dorongan (pressure) merupakan

dorongan yang timbul dari keinginan pelaku untuk memperoleh hidup lebih

baik. Keinginan ini seringkali dipengaruhi oleh keadaan ekonomi yang buruk

serta dorongan lingkungan untuk memiliki gaya hidup yang mewah. Peluang

(opportunity) merupakan faktor terjadinya fraud yang dipengaruhi oleh

lemahnya pengelolaan manajemen sehingga memicu seseorang berani untuk

melakukan tindakan fraud. Rasionalisasi (rationalization) merupakan alasan

rasional yang dilakukan oleh pelaku tindakan fraud untuk menutupi tindakan

yang dilakukan.

Jenis-jenis fraud dapat dikelompokkan menjadi 3 yakni:

1. Kecurangan pegawai (Employee fraud) yakni kecurangan yang

dilakukan oleh pegawai dalam suatu organisasi kerja.

2. Kecurangan manajemen (Management fraud) yakni kecurangan

yang dilakukan oleh pihak manajemen dengan menggunakan

laporan keuangan atau transaksi keuangan sebagai fraud.

3. Kecurangan komputer (Computer fraud) yakni kecurangan yang

dilakukan dalam pencatatan komputer yang meliputi pencatatan

operasional atau pembukuan dalam suatu perusahaan.

2.2. DATA MINING

Data mining merupakan proses yang mempekerjakan satu atau lebih

teknik pembelajaran komputer (machine learning) untuk menganalisis dan

mengekstraksi pengetahuan (knowledge) secara otomatis. Data mining dapat

disebut juga sebagai suatu pembelajaran be rbasis induksi (induction-based

learning) yang merupakan sebuah proses pembentukan berbagai definisi dari

berbagai konsep yang akan dipelajari. Data mining berisi pencarian trend atau

pola yang dinginkan dalam database yang besar untuk membantu

pengambilan keputusan di waktu yang akan datang. Pola-pola ini akan

dikenali oleh perangkat tertentu yang dapat memberikan suatu analisa yang

berguna dan berwawasan yang kemudian dapat dipelajari. Konsep dasar data

mining mengambil ide dari konsep machine learning, pengenalan pola,

statistik, dan database systems (Hermawati, 2013).

Data mining terdapat istilah knowledge discovery in database (KDD)

yang digunakan untuk menggali informasi tersembunyi dalam suatu basis

data. Dalam proses KDD terdapat beberapa proses yakni :

1. Data Cleaning

Data cleaning merupakan tahap awal dalam penambangan data

yang bertujuan untuk menghapus data yang noise yang terdapat

dalam data.

2. Data Integration

Data integration merupakan tahap penggabungan data dari sumber

yang berbeda.

3. Data Selection

Data selection merupakan proses penyeleksian data yang relevan

dari sebuah database. Pada tahap ini, setiap fitur dicek apakah

relevan atau tidak untuk dilakukan penambangan data.

4. Data Transformation

Data transformation merupakan tahap dimana data mengalami

transformasi ke dalam bentuk yang sesuai. Tujuan dari transformasi

data ini adalah agar bentuk yang dihasilkan lebih mudah ditambang

dan dipahami.

5. Data Mining

Proses data mining merupakan tahap penambangan data diterapkan

dan diaplikasikan dengan menggunakan algoritma khusus yang

telah dipilih untuk mengekstrak pola.

6. Pattern Evaluation

Pada tahap ini dilakukan proses identifikasi pola yang menarik. Pola

terseut akan direpresentasikan dalam bentuk pengetahuan

berdasarkan beberapa pengukuran penting.

7. Knowledge Presentation

Tahap ini merupakan tahap akhir dalam data mining dimana

pengetahuan yang diperoleh direpresentasikan kepada pengguna.

Dalam data mining, terdapat himpunan data (data set) yang merupakan

kumpulan data dari objek dan fiturnya. Fitur merupakan sifat atau

karakteristik dari suatu objek. Misalnya warna mata seseorang, suhu, dan

sebagainya. Fitur juga dikenal sebagai variabel, field, karakteristik atau fitur.

Kumpulan dari fitur memggambarkan sebuah objek. Objek juga disebut

dengan record, titik, kasus, sample, entitas atau instance.

Berdasarkan tugas yang dapat dilakukan, data mining dibagi menjadi

beberapa kelompok, yaitu (Larose, 2005) :

1. Deskripsi

Deskripsi dari pola dan kecendrungan sering memberikan

kemungkinan penjelasan untuk suatu pola atau kecenderungan.

2. Estimasi

Estimasi hampir sama dengan klasifikasi, kecuali variabel target

estimasi lebih ke arah numerik daripada ke arah kategori.

Pembangunan model dibangun menggunakan record lengkap yang

menyediakan nilai dari variabel target sebagai nilai prediksi.

Selanjutnya, pada peninjauan berikutnya, estimasi nilai dari variabel

target dibuat berdasarkan nilai dari variabel prediksi.

3. Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali

bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang.

4. Klasifikasi

Dalam klasifikasi, terdapat target variabel kategori. Sebagai

contoh, penggolongan pendapatan dapat dipisahkan dalam tiga

kategori, yaitu pendapatan tinggi, pendapatan sedang, dan

pendapatan rendah.

5. Pengklusteran

Pengklusteran merupakan pengelompokan record, pengamatan,

atau memperhatikan dan membentuk kelas dari berbagai objek yang

memiliki kemiripan. Kluster adalah kumpulan record yang

memiliki kemiripan satu dengan yang lainnya dan memiliki

ketidakmiripan dengan record-record dalam kluster lain.

6. Asosiasi

Tugas asosiasi dalam data mining adalah menemukan fitur yang

muncul dalam satu waktu. Dalam dunia bisnis, asosiasi umumnya

disebut dengan analisis keranjang belanja.

Sebuah sistem yang baik yang dibangun dengan menggunakan prinsip

data mining menunjukan kualitas data yang baik. Untuk melihat baik

buruknya kualitas data perlu ditinjau kembali permasalahan kualitas data yang

ditinjau dari aspek pengukuran data dan pengumpulan data. Kesalahan

pengukuran (Measurement error) mengacu pada permasalahan hasil dari

proses pengukuran. Masalah yang umunya terjadi adalah nilai yang dicatat

berbeda dari nilai sebenarnya. Pada fitur kontinyu, beda numerik dari hasil

pengukuran dengan nilai sebenarnya disebut dengan error. Dalam hal ini,

jenis kesalahan pengukuran dibagi menjadi beberapa jenis yakni: 1). Noise,

merupakan komponen random dari suatu error pengukuran, 2). Bias,

merupakan suatu variasi pengukuran dari kuantitas yang sedang diukur

dengan pengurangan antara mean dan nilai kuantitas yang diketahui, 3).

Precision, yakni kedekatan dari pengukuran berulang (dari kuantitas yang

sama) satu dengan yang lainnya. Biasanya diukur dengan standar deviasi, 4).

Accuracy, merupakan kedekatan pengukuran terhadap nilai sebenarnya dari

kuantitas yang diukur.

Dalam mengolah suatu data menggunakan data mining, ada beberapa

tantangan yang sering dihadapi yakni: 1). Scalability, yaitu besarnya ukuran

basis data yang digunakan, 2). Dimensionality, yaitu banyaknya jumlah fitur

dalam data yang akan diproses, 3). Complex and Heterogenous Data, yaitu

data yang kompleks dan mempunyai variasi yang beragam, 4). Data Quality,

kualitas data yang akan diproses seperti data yang bersih dari noise, missing

value, dsb, 5). Data Ownership and Distribution, yaitu siapa yang memiliki

data dan bagaimana distribusinya, 6). Privacy Presevation, yaitu menjaga

kerahasiaan data yang banyak diterapkan pada data nasabah perbankan, 7).

Streaming Data, yaitu aliran data itu sendiri.

2.3. ALGORITMA C4.5

Algoritma C4.5 merupakan salah satu algoritma klasifikasi

diperkenalkan oleh J. Ross Quinlan (1996) sebagai versi perbaikan dari ID3.

Algoritma C4.5 merupakan pengembangan dari algoritma klasifikasi Decision

Tree atau pohon keputusan. Utamanya, pemilihan titik pemecahan (node)

dalam algoritma ini didasarkan pada perhitungana Gain untuk menginduksi

pohon yang akan dibentuk.

Dalam proses klasifikasi algoritma C4.5, terdapat variabel tujuan yang

biasanya dikelompokkan dengan pasti. Selanjutnya, model pohon keputusan

akan dibentuk dengan menghitung probabilitas tiap-tiap record terhadap

masing-masing fitur. Setiap data yang akan diuji menggunakan algoritma

C4.5 perlu dibagi menjadi data training dan data testing untuk setiap fitur dan

label. Data training merupakan data yang akan digunakan untuk membangun

sebuah model yang diiduksi sebagai pohon keputusan. Sedangkan data testing

merupakan data yang akan digunakan untuk menguji model yang sudah

dibuat.

Kelebihan algoritma C4.5 adalah sebagai sebagai berikut :

1. Mampu mengangani fitur dengan tipe numerik (interval dan

rasio) dan fitur numerik (interval dan rasio)

2. Mampu mengatasi persoalan missing value.

3. Dapat melakukan pemotongan (pruning)

4. Pembentukan model mudah dipahami.

Kekurangan algoritma C4.5 adalah :

1. Terjadinya overlap dan peningkatan waktu pengambilan

keputusan ketika kelas-kelas dan kriteria yang digunakan

jumlahnya sangat banyak.

Dalam menginduksi pohon keputusaan menggunakan algoritma C4.5

terdapat beberapa rumus penting yang digunakan sebagai berikut :

2.3.1. Entropi

Entropi digunakan untuk menentukan nilai Information Gain

pada data latih. Nilai entropi yang lebih tinggi akan meningkatkan

potensi klasifikasi. Hal yang perlu diperhatikan adalah jika entropi

untuk node bernilai 0 berarti semua vektor berada pada label kelas

yang sama dengan node tersebut menjadi daun yang berisi keputusan

(label kelas).

Perhitungan nilai entropi dapat dilihat pada persamaan berikut

(Prasetyo, 2004):

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑠) = − ∑ 𝑝(𝑤𝑖|𝑠) 𝑙𝑜𝑔2

𝑖=1

𝑝(𝑤𝑖|𝑠) (2.1)

Keterangan:

𝑠 = data latih

𝑖 = fitur

n = jumlah fitur pada fitur target

𝑝(𝑤𝑖) = proporsi kelas 𝑘𝑒𝑖 dalam semua data latih

𝑤𝑖 = jumlah semua baris data pada label kelas ke-𝑖

2.3.2. Information gain

Gain digunakan untuk memilih fitur sebagai akar. Selain itu,

nilai Gain digunakan untuk memperkirakan pemilihan fitur yang tepat

untuk menjadi pemecah pada node tersebut. Gain sebuah fitur ke-𝑗

dihitung menggunakan persamaan :

𝐺𝑎𝑖𝑛(𝑠, 𝑗) = 𝐸(𝑠) − ∑ 𝑝(𝑣𝑖

𝑖=1

|𝑠) ∗ 𝐸(𝑠𝑖) (2.2)

Keterangan:

𝐺(𝑠, 𝑗) = gain fitur ke-𝑖

𝐸(𝑠) = entropi semua data latih

𝑝(𝑣𝑖) = proporsi nilai v yang muncul pada kelas dalam node

𝐸(𝑠𝑖) = komposisi nilai v darik kelas ke-𝑗 dalam data ke-𝑖

untuk node

𝑛 = jumlah nilai berbeda dalam node

2.3.3. Gain Ratio

Kriteria yang paling banyak digunakan untuk memilih fitur

sebagai pemecah dalam algoritma C4.5 adalah gain ratio. Perhitungan

Gain Ratio memerlukan perhitungan Split Info terlebih dahulu.

Perhitungan 𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝑠, 𝑗) menyatakan entropy atau informasi

potensial yang diperoleh menggunakan persamaan dibawah ini :

𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝑠, 𝑗) = − ∑ 𝑝(𝑣𝑖

𝑖=𝑖

| 𝑠)𝑙𝑜𝑔2 𝑝(𝑣𝑖 |𝑠)

Dimana 𝑣1 sampai 𝑣𝑘 adalah 𝑘 subset yang dihasilkan dari

pemecahan 𝑠 dengan menggunakan atribut 𝑗 sebanyak 𝑘 nilai.

Selanjutnya perhitungan Gain Ratio dapat diformulasikan dengan

rumus berikut :

𝐺𝑎𝑖𝑛𝑅𝑎𝑡𝑖𝑜(𝑠, 𝑗) =

𝐺𝑎𝑖𝑛(𝑠, 𝑗)

𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝑠, 𝑗)

Langkah-langkah menentukan pohon keputusan pada konsep decision

tree :

1. Dimulai dari mencari node akar.

2. Hitung semua fitur, hitung nilai entropi berdasarkan rumus 2.1

untuk semua sampel (data latih) pada setiap node.

3. Untuk semua fitur, hitung nilai Info Gain berdasarkan rumus 2.2.

4. Hitung semua Split Info dan Gain Ratio untuk setiap fitur sesua

dengan rumus 2.3 dan 2.4.

5. Pilih fitur dengan informasi gain yang teritinggi sebagai node

6. Gunakan kategori-kategori fitur sebagai node pemecahan

menjadi cabang.

7. Lakukan secara rekursif pada setiap cabang yang dibuat dengan

mengulangi langkah 2 sampai 6 hingga semua data dalam setiap

node hanya memberikan satu label kelas. Node yang tidak dapat

dipecahkan lagi merupakan daun yang berisi keputusan (label

kelas).

Dalam proses pembuatan pohon keputusan, seringkali terbentuk

banyak cabang yang disebabkan karena banyaknya anomali data (data

yang menyimpang) yang ada di data training. Data tersebut biasanya

disebut sebagai noise atau outlier. Data-data yang menyimpang seperti

ini biasanya dilakukan pemangkasan diawal proses sehingga tidak

mempengaruhi kinerja algoritma utama yang digunakan dalam data

mining. Secara prinsip, jika pohon dibangun dari dara mentah yang

belum mengalami pemrosesan awal sama sekali maka dipastikan bahwa

pohon keputusan yang dibentuk secara penuh merefleksikan semua data

training. Karena seringkali terjadi overfitting dan underfitting dalam

menyelesaikan kasus menggukan algoritma decision tree maka perlu

dilakukan proses pemangkasan (pruning) pada cabang yang

memberikan informasi redundan (berulang) atau tidak mengikuti pola

data umumnya. Dengan cara ini maka dapat diperoleh pohon yang tidak

terlalu ‘rindang’ tetapi lebih besar skalabilitas dan kecepatan

prediksinya.

Terdapat dua jenis metode pemangkasan pohon keputusan, yaitu :

1. Prepruning

Prepruning merupakan pemangkasan subtree awal.

Pemangkasan ini secara praktik akan menghentikan

pertumbuhan pohon selama proses induksi pohon dengan

memilih berhenti pada sebuah node. Node tersebut kemudian

akan menjadi daun dan diberikan label kelas sesuai dengan

elemen data terbanyak. Syarat utama pendekatan ini adalah

bahwa semua objek data dimiliki oleh kelas yang sama atau

semua fitur yang sama.

2. Postpruning

Postpruning merupakan pemangkasan yang dilakukan

setelah pohon tumbuh lengkap. Pendekatan ‘buttom-up’

didasarkan pada nilai error prediksi. Node akan dipangkas

dengan membuang cabang. Akibatnya, node menjadi daun dan

diberi label kelas sesuai dengan elemen terbanyak. Dengan

demikian, error yang terjadi selama proses prediksi dapat

dikurangi dengan postpruning.

2.4. RANDOM UNDER SAMPLING

Random under sampling merupakan salah satu metode resampling

yang sering digunakan untuk mengangani ketidakseimbangan kelas. Prinsip

utama metode ini adalah membuat jumlah kelas mayoritas sama dengan

jumlah kelas minoritas. Implementasi metode random under sampling adalah

memilih data set terlebih dahulu kemudian menghitung jumlah kelas mayoritas

dan minoritas. Setelah itu, ambil kelas mayoritas secara acak yang jumlah

datanya sama dengan kelas minoritas. Metode memiliki keunggulan dalam

menghemat waktu prediksi jika diterapkan dalam model klasifikasi.

2.5. K- FOLD CROSS VALIDATION

K-fold cross validation merupakan sebuah pendekatan yang bertujuan

untuk mengevaluasi kinerja algoritma dengan terlebih dahulu membagi data

menjadi data training (data latih) dan data testing (data uji). Dalam proses

cross validation, data akan dibagi dalam 𝑘 buah partisi dengan ukuran yang

sama dengan nilai k lebih dari sama dengan 2. Selanjutnya, setiap jumlah fold

yang ditentukan akan dibagi menjadi satu pecahan yang akan menjadi data

testing dan sisanya akan menjadi data training. Prosedur tersebut dilakukan

sebanyak 𝑘 kali sehingga setiap pecahan akan menjadi data testing tepat satu

kali dan akan menjadi data training sebanyak 𝑘-1 kali.

2.6. CONFUSION MATRIX

Dalam penyelesaian sebuah kasus, diperlukan sebuah metode evaluasi

untuk mengukur kinerja algoritma yang digunakan untuk melakukan

klasifikasi. Dalam klasifikasi data mining, terdapat ukuran yang digunakan

untuk melakukan evaluasi salah satunya adalah confusion matrix.

Tabel 2.1 Model confusion matrix (Han, 2012)

Tabel 2.1 diatas merupakan confusion matrix untuk masalah biner untuk

dua kelas yakni yes dan no. Dalam confusion matrix, terdapat TP yang

merepresentasikan jumlah data yes yang terprediksi sebagai yes, FN yang

merepresentasikan jumlah data yes yang terprediksi sebagai no, FP yang

merepresentasikan jumlah data no yang terprediksi sebagai yes dan TN yang

merepresentasikan jumlah data no terpredisksi sebagai no. Setelah semua nilai

diketahui, penghitungan akurasi dapat dilakukan dengan menjumlahkan semua

baris yang terprediksi benar (𝑇𝑃 + 𝑇𝑁) kemudian dibagi dengan total data

yang diprediksi seperti yang digambarkan pada persamaan 2.4.

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =𝑇𝑃 + 𝑇𝑁

𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 𝑥 100%

2.7. PENELITIAN SEBELUMNYA

Penelitian sebelumnya telah banyak membutkikan bahwa tindakan

fraud dapat dideteksi dengan menerapkan metode data mining dan machine

learning. Hasil penelitian yang dilakukan Fiananta (2017) menerangkan

bahwa deteksi fraud dapat dilakukan dengan menerapkan model klasifikasi

dengan algoritma SVM pada transaksi kartu kredit. Penyelesaian kasus

dalam metode tersebut dilakukan dengan mencari anomali/outlier

menggunakan hyperlane.

Vaishali (2014) dalam penelitiannya menjelaskan penerapan k-means

clustering dalam mendeteksi fraud dengan mengkluster tingkat kecurangan

kedalam empat kategori yakni kecurangan tingkat rendah, tingkat tinggi,

beresiko serta beresiko tinggi. Fraud dalam penelitian tersebut ditentukan

menggunakan beberapa fitur diataranya transaction id, transaction amount,

transaction country, transaction date dan credit card number.

Penelitian oleh Himanshu Sharma (2013) membuktikan penyelesaian

kasus deteksi fraud menggunakan decision tree classifiers. Penelitian tersebut

menggunakan data pada 202 perusahaan yang terdaftar di bursa saham

Tiongkok dengan 35 total fitur. Penelitian ini menggunakan 18 fitur penting

setelah dilakukan proses pre-processing data menggunakan t-statistics. Jenis

algoritma Decision Tree yang digunakan dalam penelitian tersebut diantaanya

adalah Random Forest, Naïve Bayesian Tree, C4.5, RIPPER, CART dan

TreeNet. Hasil akurasi yang dihasilkan dengan menerapkan algoritma C4.5

adalah 58% untuk uji 18 fitur dan 57% untuk uji keseluruhan fitur.

Kekurangan penelitian tersebut adalah tidak melakukan pruning pada

implementasi algoritma C4.5

Penelitian Sahin dan Duman (2011) membandingkan penerapan

algoritma Decision Tree dan SVM untuk mendeteksi fraud pada transaksi

kartu kredit. Penelitian tersebut menggunakan beberapa algoritma decision

tree yakni C&RT, C5.0 dan CHAID. Hasil akurasi yang diperoleh dari

penelitian tersebut menunjukan tingkat akurasi yang baik yang dihasilkan oleh

kedua jenis fitur dengan rata-rata akurasi sebesar 99,78%.

BAB III

METODOLOGI PENELITIAN

Bab ini membahas deskripsi tahapan penelitian yang terdiri dari data, tahap

preprocessing data, tahap klasifikasi menggunakan algoritma C4.5 serta uji akurasi

menggunakan confusion matrix.

3.1.TAHAPAN PENELITIAN

Gambar 3.1 Diagram Blok

3.2. DATA

Data yang digunakan dalam penelitian ini berupa data transaksi salah

satu bank. Data ini bertipe .xlsx yang memiliki jumlah fitur sebanyak 27 dan 1

label dengan total data test sebanyak 13.125 record.

Secara umum data yang digunakan dalam penelitian dibagi menjadi 4

jenis yakni :

1. Data nominal yakni data yang nilainya diperoleh secara kategorisasi

atau klasifikasi. Data nominal dapat berupa nama atau kode yang

mempunyai arti informasi tidak terurut.

2. Data ordinal adalah data yang nilainya diperoleh dengan cara

kategorisasi atau klasifikasi yang nilainya memiliki hubungan satu

sama lain.

3. Data interval adalah data yang nilainya diperoleh dengan cara

pengukuran, dimana jarak pada dua titik skala sudah diketahui.

4. Data rasio adalah data yang nilainya diperoleh dengan cara

pengukuran, dimana jarak dua titik pada skala sudah diketahui dan

mempunyai titik nol yang absolut.

Tabel 3.1 Fitur data set

No Fitur Kategori Keterangan

1 X nominal Id kartu

2 id_tanggal_transaksi_awal nominal Id tanggal transaksi dilakukan

3 tanggal_transaksi_awal nominal Tanggal dilakukan transaksi

tipe_kartu

nominal

Tipe kartu yang bertransaksi

(0/1/2/3/4/5/24/28/93/103/104/111/132)

id_merchant

nominal

Merchant dimana kartu tersebut bertransaksi

(-2/1401/1498/1557/1572/1667/…/720990)

nama_merchant

nominal

Merchant dimana kartu tersebut bertransaksi

(2/5/7/8/10/11/12/13/14/15/17…./1859)

tipe_mesin

nominal

Tipe mesin yakni mesin ATM atau mesin EDC

(-4/-3,/-2/3/7/14/15/25/28/…/ 6928943)

tipe_transaksi

nominal

Jenis transaksi

(26/58/147/148/153/156/158/159/…/640)

nama_transaksi

nominal

Nama jenis transaksi

(1/2/3/4/5/6/7/8/…/20)

11 nilai_transaksi interval Nilai uang yang tercatat saat transaksi

id_negara

nominal

Negara dimana transaksi tersebut dilakukan

(-2/45/57/64/73/96/104/149/157/168/183/188/216)

nama_negara

nominal

Negara dimana transaksi tersebut dilakukan

(1/4/5/6/7/8/10/11/12/14/15/16)

nama_kota

nominal

Nama kota dilakukannya transaksi

(1/3/4/7/8/9/10/11/13/15/…/293)

lokasi_mesin

nominal

Lokasi mesin

(2/4/7/8/9/10/11/13/14/16/18/…/8697)

pemilik_mesin

nominal

Pemilik mesin

(1/2/5/7//9/11/12/14/17/18/…/2688)

17 waktu_transaksi ordinal Waktu dilakukannya transaksi

kuartal_transaksi

ordinal

Kuartal waktu transaksi

(1/2/3/4)

kepemilikan_kartu

nominal

Kepemilikan kartu

nama_channel

nominal

Nama channel yang dimana kartu tersebut bertransaksi

(1/2/3/4/5)

id_channel

nominal

Id channel dimana kartu tersebut bertransaksi

(3/4/8/9)

flag_transaksi_finansial

nominal

Jenis transaksi

(false)

status_transaksi

nominal

Keberhasilan atau kegagalan transaksi

bank_pemilik_kartu

nominal

Kepemilikan kartu yang dimiliki suatu bank

25 rata_rata_nilai_transaksi interval Rata rata nilai transaksi

26 maksimum_nilai_transaksi interval Nilai maksimum transaksi

27 minimum_nilai_transaksi interval Nilai minimum transaksi

28 rata_rata_jumlah_transaksi interval Rata-rata jumlah transaksi

nominal

Apakah sebuah transaksi tergolong fraud atau tidak

(1/ 0)

3.3. PREPROCESSING

Pembuatan sistem dalam penelitian ini menggunakan metode

eksperimen yang mengacu pada konsep KDD (Knowledge Discovery in

Database) dan disusun berdasarkan tahapan-tahapan dalam penelitian. Tahapan

penelitian dalam KDD terdiri dari :

3.3.1. Data Cleaning

Data cleaning bertujuan untuk menghilangkan noise dan data

yang inkonsisten. Pada penelitian ini dilakukan proses data cleaning

yakni mengganti missing value dengan nilai rata-rata pada setiap fitur.

Rumus rata-rata yang digunakan adalah membagi jumlah seluruh nilai

dengan banyaknya data. Nilai rata-rata yang diperoleh untuk fitur rata-

rata nilai transaksi adalah 13641, fitur maksimum_nilai_transaksi

adalah 12287, fitur minimum_nilai_transaksi adalah 76519 dan untuk

fitur rata_rata_jumlah_transaksi adalah 2.4362. Jumlah keseluruhan

missing value pada data adalah 84 record yang terbagi menjadi 21

record untuk setiap fitur yang mengandung missing value.

3.3.2. Data Integration

Data integration adalah proses penggabungan data dari berbagai

sumber yang berbeda. Pada penelitian ini tidak dilakukan data integration

karena data set sudah siap digunakan.

3.3.3. Data Selection

Data selection adalah proses memilih fitur yang sesuai dengan

penelitian yang dilakukan. Dalam proses data selection ini ada beberapa

fitur yang dihilangkan diantaranya :

1. Proses seleksi fitur pada penelitian ini dilakukan dengan

melakukan uji korelasi dan memilih salah satu fitur yang

berkorelasi diantaranya :

Id_tanggal_transaksi_awal dan tanggal_transaksi_awal.

Id_merchant dan nama_merchant.

Id_channel dan nama_channel.

Id_negara dan nama_negara.

Karena nilai dari setiap id sama dengan jumlah nama dari setiap

fitur diatas maka akan dipilih fitur transaksi_awal,

nama_merchant, dan nama_negara yang akan

digunakan dalam proses penelitian. Hal tersebut dilakukan

dengan tujuan untuk mempercepat proses klasifikasi

menggunakan algoritm C4.5.

2. Terdapat tiga fitur lainnya yakni fitur flag_transaksi_finansial,

status_transaksi dan bank_pemilik kartu yang tidak digunakan

dengan alasan ketiganya memiliki satu nilai pada setiap fitur

sehingga tidak ada fitur pembanding.

3. Menghilangkan fitur tipe_mesin dan pemilik_mesin karena

dalam jenis fraud pada bab 2 tindakan fraud tidak dipengaruhi

oleh tipe mesin.

4. Menghilangkan fitur nama_merchant yang dikelompokkan

berdasarkan nama_negara karena keduanya berkorelasi.

3.3.4. Data Transformation

Data transformation merupakan proses pengubahan data menjadi

bentuk yang sesuai. Pada penelitian ini, proses transformation

dilakukan dengan merubah data numerik untuk fitur nominal. Data

transformation untuk fitur adalah sebagai berikut :

1. Transformasi fitur menggunakan metode discretization by

binning.

Transformasi pada fitur-fitur tersebut dilakukan dengan

langkah berikut :

a. Memilih fitur yang akan dicari intervalnya.

b. Cari nilai minimum dan maksimum dari masing-masing

fitur.

Nilai_transaksi

Nilai minimum : 1

Nilai maksimum : 75000000

Rata_rata_nilai_transaksi

Nilai minimum : 50000

Nilai maksimum : 24666666.67

Maksimum_nilai_transaksi

Nilai minimum : 38000

Minimum_nilai_transaksi

Nilai minimum : 1

Rata_rata_jumlah_transaksi

Nilai minimum : 1

Nilai maksimum : 19.78

c. Hitung panjang kelas interval membagi nilai maksimum

dikurang nilai minimum dengan jumlah kelas yang

diinginkan seperti rumus berikut :

𝑊 =

(𝑀𝑎𝑘𝑠 − 𝑀𝑖𝑛)

…......(3.1)

𝑊 = Panjang kelas interval

𝑀𝑎𝑘𝑠 = Nilai maksimum

𝑀𝑖𝑛 = Nilai minimum

𝑛 = jumlah kelompok yang diinginkan

Sehingga panjang kelas interval pada penelitian ini

adalah :

Nilai_transaksi

𝑊 =(75000000 − 1)

750= 100000

Rata_rata_nilai_transaksi

𝑊 =(24666666.67 − 50000)

750= 133282,22

Maksimum_nilai_transaksi

𝑊 =(100000000 − 38000)

750= 133282,7

Minimum_nilai_transaksi

𝑊 =(75000000 − 1)

750= 100000

Rata_rata_jumlah_transaksi

𝑊 =(19.78 − 1)

10= 1,87

2. Transformasi fitur waktu_transaksi

Transformasi fitur waktu_transaksi dilakukan dengan

membagi nilai kedalam 4 kelompok yang ditentukan

berdasarkan 4 range waktu yakni:

00.00 - 05.59 = 1

06.00 - 11.59 = 2

12.00 - 15.59 = 3

18.00 - 23.59 = 4

Perbedaan data sebelum proses transformasi dan

sesudah transformasi data dapat dilihat pada Tabel 3.2 dan

Tabel 3.3.

Tabel 3.2 Data Sebelum Transformasi

2457419 111 156 3E+06 5 121 1264 73140 2 1 5 1E+06 1E+07 30000 2.33

2457521 2 156 1E+06 5 101 1283 140216 3 1 5 2E+07 1E+08 41804 2.4

2457659 103 58 320000 5 239 7049 155117 3 2 2 711765 7E+06 10000 1.98

2457311 0 26 150000 5 69 3425 143339 3 2 1 617968 3E+06 1E+05 1.46

2457413 111 385 100000 5 128 744 191633 4 2 1 274231 1E+06 20600 1.69

2457615 93 385 2E+06 5 128 2302 115558 2 2 1 2E+06 4E+07 1E+05 1.79

2457429 0 385 150000 5 128 3963 142702 3 2 1 392400 4E+06 25000 1.41

2457371 93 159 50000 5 265 1068 174044 3 2 1 751249 4E+06 25000 1.88

2457320 93 26 1E+06 5 241 2628 213705 4 2 1 989307 3E+07 10000 3.64

2457350 93 301 300000 5 102 1406 173819 3 2 1 1E+06 8E+06 10000 1.82

Tabel 3.3 Data Setelah Transformasi

3.4. RANDOM UNDER SAMPLING

Pada tahap ini dilakukan random under sampling pada data label dan

data fitur. Implementasi random under sampling pada penelitian ini dilakukan

dengan terlebih dahulu memisahkan data label dan data fitur. Setelah itu, data

yang memiliki label sama dengan 0 dikurangi secara random hingga jumlanya

sama dengan dua kali jumlah data label 1. Dengan demikian total data yang

akan digunakan untuk implementasi algoritma adalah 2730 yang terdiri dari

910 data dengan label 1 dan 1820 data dengan label 0.

3.5. DATA TRAINING DAN DATA TESTING

Pembagian data training dan data testing pada penelitian ini dilakukan

dengan menerapkan model 3-fold cross validation. Pemodelan dengan 3-fold

cross validation dilakukan dengan terlebih dahulu membagi data label dan fitur

menjadi 3 kelompok seperti pada Tabel 3.4. Selanjutnya membagi 3 model

berdasarkan 3-fold cross validation bagian seperti pada Tabel 3.5.

2457646 111 26 21 5 265 4137 3 4 2 1 39 72 0 68

2457419 111 156 24 5 121 1264 1 2 1 5 40 74 0 52

2457521 2 156 11 5 101 1283 2 3 1 5 471 749 0 55

2457659 103 58 3 5 239 7049 2 3 2 2 20 51 0 38

2457311 0 26 1 5 69 3425 2 3 2 1 17 18 0 18

2457413 111 385 0 5 128 744 3 4 2 1 6 9 0 27

2457615 93 385 19 5 128 2302 1 2 2 1 69 299 0 31

2457429 0 385 1 5 128 3963 2 3 2 1 10 32 0 16

2457371 93 159 0 5 265 1068 2 3 2 1 21 26 0 34

Tabel 3.4 Pembagian Kelompok Data

Kelompok Data ke-

1 1 - 910

2 911 - 1820

3 1821 - 2730

Tabel 3.5 Pembagian model 3-fold cross validation

Model Data

Training Data Testing

1 1,2 3

2 1,3 2

3 2,3 1

3.6. KLASIFIKASI MENGGUNAKAN ALGORITMA C4.5

Pada tahap ini dilakukan proses penambangan data dengan algoritma

C4.5. Data yang digunakan dalam penelitian ini akan diklasifikasi dengan

membentuk pohon keputusan dengan menghitung Entropy, Information Gain,

Split Info, dan Gain Ratio. Proses pembentukan pohon diawali dengan mencari

nilai Gain Ratio tertinggi pada keseluruhan fitur untuk dijadikan sebagai

simpul akar. Selanjutnya, penghitungan cabang dan daun akan dilakukan

secara rekursif sampai pohon keputusan terbentuk.

Adapun algoritma pembentukan pohon keputusan menggunakan

algoritma C4.5 diawali dengan langkah :

1. Menginput data mentah terlebih dahulu.

2. Melakukan preprocessing terhadap data mentah yang telah

diinput.

3. Memisahkan label 0 dan label 1 menggunakan perintah find.

4. Melakukan under sampling dengan mengambil fitur dan label 0

dengan jumlah dua kali lebih banyak dari fitur dan label 1.

5. Melakukan pembagian data training dan data testing terlebih

dahulu membagi data menjadi 3 fold untuk masing-masing label

dan fitur.

6. Melakukan uji klasifikasi terhadap masing-masing model yang

telah dibentuk menggunakan 3-fold cross validation.

7. Untuk setiap model klasifikasi, buat simpul akar untuk pohon

yang akan dibentuk.

8. Jika semua simpul sampel bernilai positif, berhenti dengan suatu

pohon dengan satu simpul akar.

9. Jika semua simpul negatif, berhenti dengan suatu pohon dengan

satu simpul akar.

10. Jika fitur kosong, berhenti dengan suatu pohon dengan satu

simpul akar dengan label yang sesuai dengan nilai yang

terbanyak yang ada pada label training. Untuk yang lain :

11. Mulai :

A atribut yang menghasilkan sampel dengan hasil yang

terbaik (berdasarkan gain ratio).

Atribut keputusan untuk simpul akar A.

Untuk setiap nilai, 𝑣𝑖 yang mungkin untuk A :

o Tambahkan cabang dibawah akar yang

berhubungan dengan A=𝑣𝑖.

o Tentukan sampe 𝑆𝑣𝑖 sebagai subset dari sampel

yang mempunyai nilai untuk 𝑣𝑖 untuk atribut A.

o Jika sampel 𝑆𝑣𝑖 kosong :

Dibawah cabang tambahkan simpul daun

dengan label = nilai yang terbanyak yang

ada pada label training.

Yang lain, tambah cabang baru dibawah

cabang yang sekarang C4.5 (sampel

training, label training, atribut-[A]).

Berhenti.

3.7. UJI AKURASI

Pengujian hasil klasifikasi dilakukan dengan membandingkan data

testing terhadap data training berdasarkan model 3-fold cross validation yang

digunakan. Pengujian dilakukan terhadap 3 model berbeda yang

menghasilkan luaran berupa hasil akurasi dari masing-masing model. Hasil

akurasi dihasilkan berdasarkan jumlah prediksi sistem terhadap data testing

yang diuji. Hasil luaran yang dihasilkan dihitung dengan menjumlahkan data

yang terklasifikasi dengan benar dibagi dengan total keseluruhan data

kemudian dikali 100%.

3.8. UJI DATA TUNGGAL

Pada tahap ini dilakukan pengujian dengan pola klasifikasi yang telah

terbentuk. Pengujian data tunggal ini dilakukan dengan memasukan data uji

dari masing-masing fitur berdasarkan data training yang sudah ada. Luaran

dari pengujian ini akan menampilkan hasil prediksi berupa fraud atau tidaknya

data yang diuji.

3.9. GAMBARAN UMUM SISTEM

3.9.1. Input Sistem

Data diinput ke dalam sistem berupa data mentah dengan

tipe file .xls yang dipilih dari direktori komputer. Proses ini

terdiri dari beberapa tahapan untuk menentukan fraud dalam

sebuah transaksi. Proses yang dilakukan sistem, antara lain:

1. Mengupload data mentah yang bertipe .xls atau xlsx.

2. Sistem melakukan preprocessing pada data mentah yang

diupload.

3. Sistem melakukan metode under sampling untuk

memelakukan mengambil jumlah data yang akan

digunakan dalam klasifikasi menggunakan algoritma

4. Sistem melakukan klasifikasi berdasarkan algoritma C4.5

dengan menghitung nilai Entropy, Information Gain,

Split Info dan Gain Ratio.

3.9.2. Output Sistem

Proses ini akan menampilkan luaran berupa hasil akurasi

yang dihitung menggunakan confusion matrix. Hasil tersebut

ditampilkan berdasarkan perhitungan hasil klasifikasi

menggunakan algoritma C4.5.

3.10. KEBUTUHAN SISTEM

Implementasi sistem dalam penelitian ini membutuhkan perangkat

keras dan perangkat lunak yang digunakan untuk menunjang kinerja sistem

yang dibangun.

3.10.1. Spesifikasi perangkat keras

Model : ASUS

Platform : Notebook-ASUS

Hard Disk Drive : 500 Gigabyte

Operating system : Windows 10 Enterprise

Memory : 2 GB

3.10.2. Spesifikasi perangkat lunak

Pengelitian ini menggunakan Matlab R2018a.

3.11. DESAIN GUI

Desain alat uji yang akan digunakan dalam penelitian ini dapat

dilihat pada Gambar 3.2.

Gambar 3.2 Desain GUI

Adapun penjelasan setiap fitur GUI adalah :

Axes1 merupakan logo Universitas Sanata Dharma.

Browse merupakan button yang digunakan untuk mencari dan

menginput data mentah yang akan ditampilkan dalam tabel Data

Sebelum Preprocessing.

Preprocessing merupakan button yang berfungsi untuk melakukan

preprocessing terhadap data mentah yang akan ditampilkan pada tabel

Data Setelah Preprocessing.

Model 1 merupakan pop up menu yang berfungsi untuk memberi

pilihan kepada user untuk memilih model klasifikasi yang akan diuji.

Jlh fitur merupakan kolom inputan yang digunakan untuk mengisi

jumlah fitur yang akan digunakan dalam klasifikasi.

Inc node merupakan kolom inputan yang digunakan untuk menginput

jumlah inc_node.

Uji Sistem merupakan button yang digunakan untuk mengklasifikasi

model berdasarkan jumlah fitur dan inc_node yang diinput.

Tree merupakan button untuk menampilkan pohon keputusan.

Kolom Id Tanggal, Tipe Kartu, ID Merchant, Tipe Mesin, Tipe

Transaksi, Nama Transaksi, Nilai Transaksi, ID Negara, ID Kota,

Lokasi Mesin, Pemilik Mesin, Waktu Transaksi, Kuartal Transaksi,

Kepemilikan Kartu, Nama Channel, ID Channel, Rata-rata Nilai

Transaksi, Maksimum Transaksi, Minimum Transaksi dan Rata-rata

jumlah merupakan kolom yang disediakan untuk menginput nilai

setiap data yang sesuai dengan nama fitur yang tersedia.

Uji Data merupakan button yang berfungsi untuk melakukan

klasifikasi terhadap data sesuai dengan inputan pada kolom fitur.

Hasil Klasifikasi berfungsi untuk menampilkan hasil uji data sesuai

dengan inputan pada setiap kolom fitur.

Bersihkan adalah button yang digunakan untuk membersihkan semua

kolom inputan ketika data sudah selesai diuji.

BAB IV

HASIL DAN ANALISIS

Bab ini berisi hasil klasifikasi dan analisis hasil klasifikasi lunak dan analisis

terhadap hasil klasifikasi yang dilakukan dengan menggunakan algoritma C4.5.

4.1. HASIL DAN ANALISIS KLASIFIKASI

Klasifikasi pada penelitian ini dilakukan dengan menggunakan

15 fitur yang sudah melewati proses cleaning, selection dan

transformation sebelum diuji menggunakan algoritma C4.5. Fitur yang

digunakan untuk membentuk tree dapat dilihat pada Tabel 4.1. Luaran

dari proses klasifikasi ini akan menghasilkan nilai akurasi dari

pengujian model 3-fold cross validation yang digunakan.

Tabel 4.1 Tabel fitur yang digunakan

1 id_tanggal_transaksi_awal

2 tipe_kartu

3 tipe_transaksi

4 nilai_transaksi

5 nama_negara

6 nama_kota

7 lokasi_mesin

8 waktu_transaksi

9 kuartal_transaksi

10 kepemilikan_kartu

11 nama_channel

12 rata_rata_nilai_transaksi

13 maksimum_nilai_transaksi

14 minimum_nilai_transaksi

15 rata-rata_jumlah_transaksi

Sebelum digunakan, fitur-fitur tersebut diurutkan terlebih

dahulu berdasarkan perhitungan Information Gain menggunakan

aplikasi Weka. Semua fitur yang diproses akan menghasilkan urutan

fitur seperti pada Tabel 4.2 dibawah ini. Setiap fitur yang ditampilkan

pada tabel dibawah ini menggambarkan urutan tingkat kepentingan fitur

dari 1 sampai 15.

Tabel 4.2 Tabel urutan fitur

1 nama_channel

2 nama_transaksi

3 kepemilikan_kartu

4 nilai_transaksi

5 nama_kota

6 lokasi_mesin

7 maksimum_nilai_transaksi

8 minimum_nilai_transaksi

9 rata-rata_jumlah_transaksi

10 id_tanggal_transaksi_awal

11 rata_rata_nilai_transaksi

12 tipe_transaksi

13 kuartal_transaksi

14 waktu_transaksi

15 nama_negara

Berdasarkan urutan fitur pada Tabel 4.2 diatas, dilakukan

klasfikasi dengan menuguji 15 fitur yang digunakan tersebut. Hasil

pengujian akan menghasilkan nilai akurasi yang berbeda sesuai dengan

model 3-fold cross validation yang digunakan untuk mengklasifikasi

data. Hasil akurasi tersebut dapat dilihat pada Tabel 4.3 dibawah ini.

Tabel 4.3 Tabel akurasi model 3-fold cros svalidation

Model Akurasi

1 68.48 %

2 72.20 %

3 71.76 %

Berdasarkan Tabel 4.3 diatas, dapat diketahui bahwa nilai

akurasi paling optimal ditunjukan oleh model 2 yakni sebesar 72.20 %.

Pengujian tersebut dilakukan dengan menggunakan 25 inc_node.

Inc_node merupakan tingkat kepercayaan (confidence factor) yang

digunakan dalam implementasi algoritma C4.5 yang berfungsi untuk

menentukan presentasi error dalam pohon keputusan yang dibentuk.

Nilai inc_node yang digunakan dalam penelitian ini disesuaikan dengan

nilai conficende factor default untuk algoritma C4.5. Nilai 25 inc_node

yang digunakan menandakan tingkat kepercayaan yang dihasilkan dari

klasifikasi algoritma sebesar 75% dengan error sebesar 25%. Hasil

akurasi untuk ketiga model yang diuji tersebut dapat diketahui dari hasil

peritungan confusion matrix pada tabel berikut.

Tabel 4.4 Confusion Matrix Model 1

Yes No

Yes 513 194

No 93 110

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =513 + 110

910 𝑥 100% = 68, 46 %

Yes No

Yes 543 189

No 64 114

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =543 + 114

910 𝑥 100% = 72.20 %

Yes No

Yes 545 195

No 62 108

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =545 + 108

910 𝑥 100% = 71.76 %

Berikut grafik hasil akurasi untuk pengujian 15 fitur

menggunakan 25 inc_node untuk model 1, model 2 dan model 3 yang

ditampilkan dengan pada Gambar 4.1.

Gambar 4.1 Grafik Uji Akurasi 15 Fitur

68.48 %

72.20 %71.76 %

Model 1 Model 2 Model 3

Uji Akurasi 15 Fitur

Untuk meningkatkan hasil akurasi, percobaan dilakukan dengan

menginput fitur satu per satu berdasarkan daftar fitur pada Tabel 4.3.

Hasil percobaan yang dilakukan menghasilkan nilai akurasi untuk uji

satu fitur sampai uji keseluruhan fitur seperti yang ditampilkan pada

Tabel 4.7.

Tabel 4.7 Tabel Uji Akurasi Jumlah Fitur

Berdasarkan tabel diatas, dapat diketahui bahwa nilai akurasi

paling optimal dihasilkan oleh pengujian dengan menggunakan 1 fitur.

Pengujian dilakukan dengan menggunakan 3 model berbeda dengan

jumlah inc_node yang digunakan sebesar 25. Nilai akurasi yang

dihasilkan untuk pengujian 1 fitur dapat diperoleh dengan perhitungan

confusion matrix terhadap hasil klasifikasi yang dilakukan seperti yang

ditampilkan pada tabel-tabel dibawah ini.

1 75.8242 78.6813 76.2637

2 75.7143 78.4615 76.1538

3 75.8242 78.5714 76.1538

4 68.6813 68.6813 68.5714

5 68.6813 66.5934 68.5714

6 68.6813 66.5934 68.5714

7 68.6813 66.5934 68.6813

8 68.4615 72.1978 71.7582

9 68.4615 72.1978 71.7582

10 68.4615 72.1978 71.7582

11 68.4615 72.1978 71.7582

12 68.4615 72.1978 71.7582

13 68.4615 72.1978 71.7582

14 68.4615 72.1978 71.7582

15 68.4615 72.1978 71.7582

ModelFitur

Tabel 4.8 Confusion Matrix Fitur 1 Model 1

Yes No

Yes 580 194

No 26 110

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =580 + 110

910 𝑥 100% = 75.8242 %

Yes No

Yes 584 171

No 23 132

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =584 + 132

910 𝑥 100% = 78, 6813 %

Yes No

Yes 589 198

No 18 104

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =589 + 104

910 𝑥 100% = 76, 2637 %

Berikut grafik hasil akurasi untuk pengujian 15 fitur

menggunakan 25 inc_node untuk model 1, model 2 dan model 3 yang

ditampilkan dengan pada Gambar 4.2.

Gambar 4.2 Grafik Akurasi Uji Jumlah Fitur

Berdasarkan hasil pengujian terhadap fitur 1 yakni

nama_merchant dapat dihasilkan pohon keputusan yang ditampilkan

pada Gambar 4.3 dan Gambar 4.4.

Gambar 4.3 Pohon Keputusan Uji 1 Fitur

656871747780

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15A

Jumlah Atribut

Grafik Akurasi Uji Jumlah Fitur

Model 1 Model 2 Model 3

4.2. PENGUJIAN DATA TUNGGAL

Data yang digunakan dalam pengujian data tunggal adalah

sebanyak 20 data dari masing-masing fitur. Hasil uji data tunggal untuk

3 sampel data dapat dilihat pada Gambar 4.5, Gambar 4.6 dan Gambar

Data 1

Gambar 4.4 Hasil Uji Data 1

Data 2

Data 3

4.3. KELEBIHAN DAN KETERBATASAN PENELITIAN

Pembangunan sistem ini memiliki kelebihan dan keterbatasan

sebagai berikut :

4.3.1. Kelebihan Penelitian

1. Perangkat lunak ini dapat digunakan untuk mencari pola

klasifikasi data transaksi yang tergolong fraud atau tidak

fraud menggunakan algoritma C4.5.

2. Perangkat lunak yang dibangun mampu menerima

masukan file yang bertipe .xlsx.

3. Perangkat lunak ini dapat menginput jumlah atribut

sesuai dengan keingingan user.

4. Perangkat lunak mampu menginput jumlah inc_node

sesuai dengan keinginan user.

4.3.2. Kekurangan Penelitian

1. Perangkat lunak yang dibangun hanya dapat menerima

masukan file yang bertipe .xlsx.

2. Perangkat lunak hanya mampu menggunakan model

validasi untuk 3-fold cross validation saja.

3. Perangkat lunak hanya mampu menerapkan metode

under sampling untuk perbandingan jumlah data 1:2.

4.4. SUMBANGAN HASIL PENELITIAN

Hasil penelitian yang dilakukan memberikan sumbangan secara

khusus kepada pihak perbankan untuk mendeteksi fraud dalam sebuah

transaksi. Hasil penelitan ini juga memberikan gambaran kepada user

tentang bagaimana mengklasifikasi data transaksi untuk mendeteksi

fraud dengan menerapkan algoritma C4.5.

KESIMPULAN DAN SARAN

Pada bab ini dijelaskan kesimpulan yang diperoleh dari hasil percobaan yang

dilakukan. Bab ini juga menjelaskan saran perbaikan untuk penelitian yang akan

datang.

5.1. KESIMPULAN

Kesimpulan yang dihasilkan berdasarkan sistem klasifikasi data

1. Deteksi fraud menggunakan menggunakan algoritma klasifikasi

C4.5 dapat diimplementasikan dengan baik.

2. Pengujian yang dilakukan terhadap 15 fitur untuk model 2

dengan jumlah inc_node sebesar 25 menghasilkan tingkat

akurasi terbesar sebesar 72.20 %.

3. Akurasi paling optimal dihasilkan dengan pengujian

menggunakan fitur nama_channel dengan tingkat akurasi

sebesar 78.68 % menggunakan model 2 dan jumlah inc_node

sebesar 25.

4. Model yang paling baik digunakan dalam klasifikasi adalah

model 2 dengan nilai inc_node sebesar 25.

5.2. SARAN

Saran yang dapat diberikan untuk mengembangkan penelitian yang

akan datang adalah :

1. Perangkat lunak yang dibangun diharapkan dapat menerima masukan

tidak hanya file bertipe .xlsx saja, tetapi juga dapat menerima file

bertipe lain.

2. Perangkat lunak yang dibangun mampu menggunakan model validasi

untuk beragam k-fold cross validation yang digunakan.

3. Perangkat lunak secara fleksibel mampu menerapkan metode under

samling untuk beragam jumlah data yang digunakan.

DAFTAR PUSTAKA

Han, Jiawie and Micheline Kamber. 2006. Data Mining : Concept and Technique. San

Francisco : Morgan Kaufman.

H. Sharma. 2013. Detection of Financial Statement Fraud Using Decision Tree

Classifiers. IT Delhi, New Delhi.

Hermawati, F. A. 2013. Data Mining. Yogyakarta: Penerbit Andi.

Karyono. 2014. Forensic Fraud. Yogyakarta: CV. Andi.

Larose, D. T. (2005). Discovering Knowledge in Data. United States of America: John

Wiley & Sons, Inc.

Nipane V.B., Kalinge P. S., et. All., 2016. “Fraudulent Detection in Credit Card System

Using SVM & Decision Tree”, IJSDR Volume I, Issue 5.

Prasetyo, E., 2014, Data Mining: Konsep dan Aplikasi Menggunakan Matlab. C.V Andi

Offset Yogyakarta.

Quinlan, J.R. 1996. Improved Use of Continuous Attributes in C4.5. Sydney Australia.

Sahin. Y and Duman. E. (2011). Detecting Credit Card Fraud by Decision Trees and

Support Vector Machines., Proceeding of the International Multi Conference

of Engineers and Computer Scientist 2011 Vol I.

Tuanakota M, Theodorus. 2010. Akuntansi forensic dan Audit Investigatif. Jakarta:

Salemba Empat.

Vaishali. 2014. “Fraud Detection in Credit Card by Clustering Approach”,

International Journal of Computer Applications (0975-8887) Volume 98-No.3.

Watts, R. L. and J. l. Zimmerman. 1986. The Possitive Accounting Theory. Prentice

Hall International, Inc.

Yazid. dan Fiananta, Arga. (2017). Mendeteksi Kecurangan Pada Transaksi Kartu

Kredit Untuk Verifikasi Transaksi Menggunakan Metode SVM, Indonesia

Journal of Applied Informatics Vol 1.

DAFTAR REVISI DOKUMEN TUGAS AKHIR

FRAUD DETECTION PADA TRANSAKSI PERBANKAN MENGGUNAKAN

ALGORITMA C4.5

No Poin Revisi Hasil Revisi Halaman

1 Merevisi daftar isi Memberi spasi 1 baris untuk setiap

xii, xiii,

2 Memperbaiki posisi

Memindahkan posisis rumus

perhitungan Info Gain sebelum

rumus perhitungan Gain Ratio

3 Revisi penjelasan

algoritma

Menyebutkan nomor rumus

berdasarkan rumus yang digunakan

dalam penjelasan algoritma

4 Merevisi penjelasan

Menambah kolom kategori untuk

menjelaskan tipe setiap fitur pada

Tabel Fitur Data Set

20 dan 21

5 Merevisi tahap

preprocesing

- Data yang berbentuk kategorikal

tidak perlu ditansformasi

- Melakukan uji independensi

terhadap atribut

id_tanggal_transaksi_awal dan

tanggal_transaksi_awal,

id_merchant dan

nama_merchant, id_channel dan

nama_channel, id_negara dan

nama_negara

6 Merevisi penjelasan

tahapan algoritma C4.5

Menjelaskan tahapan algoritma

C4.5 sesuai program

28 dan 29

fraud detection pada transaksi perbankan …repository.usd.ac.id/35066/2/155314115_full.pdf ·...

Documents

tinjauan yuridis tindak pidana pelaku penipuan …

penipuan pakej pelancongan meningkat

8 kasus penipuan saham terbesar sepanjang sejarah

huaxing penipuan

surat penipuan

upaya penanggulangan kejahatan penipuan...

penipuan sebagai alasan pembatalan perjanjian …

dokumen undangan penipuan 1

penipuan dan pengamanan komputer

skripsi eksaminasi putusan tindak pidana penipuan …

penipuan cyber crime

tindak pidana penipuan dalam transaksi di situs … ·...

tinjauan pustaka kecurangan fraud -...

pertanggungjawaban tindak pidana penipuan travel …

etika penipuan dan pengendalian internal

penipuan investasi pt qsar

panggilan penipuan - bnm.gov.my

strategi pemolisian pencegahan kejahatan penipuan melalui

type of technology - wordpress.com€¦ · web...

fraud computer fraud · faktor pemicu fraud 3. ... laporan...