penerapan algoritma k-means pada siswa baru

6
100 PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN Fauziah Nur 1 , Prof. M. Zarlis 2 , Dr. Benny Benyamin Nasution 3 Program Studi Magister Teknik Informatika, Universitas Sumatera Utara Jl. Dr. T. Mansyur No. 9 Kampus USU Medan – 20155 [email protected] 1 , [email protected] 2 , [email protected] 3 Abstrak—Data mining merupakan teknik pengolahan data dalam jumlah besar untuk pengelompokan.Teknik ini digunakan dalam proses Knowledge Discovery in Database (KDD). Teknik tersebut mempunyai beberapa metode dalam pengelompokannya Naïve-Bayes dan Nearest Neighbour, pohon keputusan (KD-Tree), ID3, K-Means, text mining dan dbscan. Dalam hal ini penulis mengelompokan data siswa baru sekolah menengah kejuruan tahun ajaran 2014/2015. Pengelompokan tersebut berdasarkan kriteria kriteria data siswa. Pada penelitian ini, penulis menerapkan algoritma K-Means Clustering untuk pengelompokan data siswa baru sekolah menengah kejuruan. Dalam hal ini, pada umumnya untuk memamasuki jurusan hanya disesuaikan dengan nilai siswa saja namun dalam penelitian ini pengelompokan disesuaikan kriteria kriteria siswa seperti penghasilan orang tua, tanggungan anak orang tua dan nilai tes siswa. Penulis menggunakan beberapa kriteria tersebut agar pengelompokan yang dihasilkan menjadi lebih optimal. Tujuan dari pengelompokan ini adalah terbentuknya kelompok jurusan pada siswa yang menggunakan algoritma K-Means clustering. Hasil dari pengelompokan tersebut diperoleh tiga kelompok yaitu kelompok tidak lulus, kelompok rekayasa perangkat lunak dan kelompok teknik komputer jaringan. Terdapat pusat cluster dengan Cluster-1=1.4;2.2;2.2, Cluster-2= 2.28;1.64;4 dan Cluster-3=5;2;6. Pusat cluster tersebut didapat dari beberapa iterasi sehingga mengahasilakan pusat cluster yang optimal. KeywordsKriteria, K-Means, Data Mining, Jurusan I. PENDAHULUAN Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan (unsupervised) dan suatu metode untuk mencari dan mengelompokan data yang memiliki kemiripan karakteristik antara satu data dengan data lain[1]. Menurut kategori kekompakan, pengelompokan terbagi menjadi dua, yaitu komplet dan parsial. Jika semua data dapat bergabung menjadi satu, dapat dikatakan semua data kompak menjadi satu kelompok[2]. Pada clustering ini terdapat beberapa algoritma pengelompokan untuk mengelompokan data secara mudah. Salah satunya adalah algoritma K- Means yang merupakan metode analisis kelompok yang mengarah pada partisian N objek pengamatan ke dalam K kelompok, di mana setiap objek pengamatan sebuah kelompok data dengan mean (rata-rata) terdekat[2]. Pengelompokan pada umumnya diterapkan untuk mengelompokan dokumen atau benda yang tidak tersusun dengan rapi dan tidak sesuai sususannya pada tempatnya. Namun fungsi dari pengelompokan tidak hanya sekedar mengelompokan dokumen atau benda. Pengelompokan (clustering) dapat diterapkan dalam hal penentuan jurusan sekolah agar jurusan tersebut sesuai dengan kemampuan siswa. Banyak lembaga pendidikan seperti sekolah menengah kejuruan yang hanya menggunakan nilai sebagai tolak ukur untuk memilih jurusan, sehingga pada akhirnya siswa menjadi salah mengambil jurusan dan tidak dapat menyesuaikan kemampuan yang siswa miliki dengan jurusan yang telah diambil. Dalam hal ini, untuk pengelompokan jurusan yang sesuai dengan kemampuan siswa adalah dapat ditentukan dengan data – data setiap siswa. Data yang dapat menjadi tolak ukur untuk pengelompokan jurusan yaitu nilai tes masuk sekolah menengah kejuruan, penghasilan orang tua, dan tanggungan anak orang tua. Dengan demikian pengelompokan jurusan yang diambil siswa akan lebih efektif bagi siswa itu sendiri. Algoritma K-Means dalam hal ini akan mengelompokan data tersebut sesuai kriteria – kriteria yang dipilih dari data siswa. II. PENDAHULUAN A. Data Mining Istilah data mining mulai dikenal sejak tahun 1990, ketika pekerjaan pemanfaatan data menjadi sesuatu yang penting dalam berbagai bidang, mulai dari bidang akademik, bisnis hingga medis[2]. Munculnya data mining didasarkan pada jumlah data yang tersimpan dalam basis data semakin besar. Dalam berbagai literatur, teori-teori pada data mining sudah ada sejak lama seperti antara lain Naïve-Bayes dan Nearest Neighbour, Pohon Keputusan, aturan asosiasi, K-Means Clustering dan text mining[3].

Upload: others

Post on 04-Oct-2021

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU

100

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARUSEKOLAHMENENGAH KEJURUAN UNTUK

CLUSTERING JURUSAN

Fauziah Nur1, Prof. M. Zarlis2, Dr. Benny Benyamin Nasution3

Program Studi Magister Teknik Informatika, Universitas Sumatera UtaraJl. Dr. T. Mansyur No. 9 Kampus USU Medan – 20155

[email protected], [email protected], [email protected]

Abstrak—Data mining merupakan teknik pengolahan data dalam jumlah besar untukpengelompokan.Teknik ini digunakan dalam proses Knowledge Discovery in Database (KDD).Teknik tersebut mempunyai beberapa metode dalam pengelompokannya Naïve-Bayes danNearest Neighbour, pohon keputusan (KD-Tree), ID3, K-Means, text mining dan dbscan. Dalamhal ini penulis mengelompokan data siswa baru sekolah menengah kejuruan tahun ajaran2014/2015. Pengelompokan tersebut berdasarkan kriteria – kriteria data siswa. Padapenelitian ini, penulis menerapkan algoritma K-Means Clustering untuk pengelompokan datasiswa baru sekolah menengah kejuruan. Dalam hal ini, pada umumnya untuk memamasukijurusan hanya disesuaikan dengan nilai siswa saja namun dalam penelitian inipengelompokan disesuaikan kriteria – kriteria siswa seperti penghasilan orang tua,tanggungan anak orang tua dan nilai tes siswa. Penulis menggunakan beberapa kriteriatersebut agar pengelompokan yang dihasilkan menjadi lebih optimal. Tujuan daripengelompokan ini adalah terbentuknya kelompok jurusan pada siswa yang menggunakanalgoritma K-Means clustering. Hasil dari pengelompokan tersebut diperoleh tiga kelompokyaitu kelompok tidak lulus, kelompok rekayasa perangkat lunak dan kelompok teknikkomputer jaringan. Terdapat pusat cluster dengan Cluster-1=1.4;2.2;2.2, Cluster-2=2.28;1.64;4 dan Cluster-3=5;2;6. Pusat cluster tersebut didapat dari beberapa iterasisehingga mengahasilakan pusat cluster yang optimal.

Keywords— Kriteria, K-Means, Data Mining, Jurusan

I. PENDAHULUANClustering merupakan salah satu metode data

mining yang bersifat tanpa arahan (unsupervised) dansuatu metode untuk mencari dan mengelompokan datayang memiliki kemiripan karakteristik antara satu datadengan data lain[1]. Menurut kategori kekompakan,pengelompokan terbagi menjadi dua, yaitu kompletdan parsial. Jika semua data dapat bergabung menjadisatu, dapat dikatakan semua data kompak menjadi satukelompok[2]. Pada clustering ini terdapat beberapaalgoritma pengelompokan untuk mengelompokan datasecara mudah. Salah satunya adalah algoritma K-Means yang merupakan metode analisis kelompokyang mengarah pada partisian N objek pengamatan kedalam K kelompok, di mana setiap objek pengamatansebuah kelompok data dengan mean (rata-rata)terdekat[2].

Pengelompokan pada umumnya diterapkan untukmengelompokan dokumen atau benda yang tidaktersusun dengan rapi dan tidak sesuai sususannya padatempatnya. Namun fungsi dari pengelompokan tidakhanya sekedar mengelompokan dokumen atau benda.Pengelompokan (clustering) dapat diterapkan dalamhal penentuan jurusan sekolah agar jurusan tersebutsesuai dengan kemampuan siswa.

Banyak lembaga pendidikan seperti sekolahmenengah kejuruan yang hanya menggunakan nilai

sebagai tolak ukur untuk memilih jurusan, sehinggapada akhirnya siswa menjadi salah mengambil jurusandan tidak dapat menyesuaikan kemampuan yang siswamiliki dengan jurusan yang telah diambil. Dalam halini, untuk pengelompokan jurusan yang sesuai dengankemampuan siswa adalah dapat ditentukan dengandata – data setiap siswa. Data yang dapat menjaditolak ukur untuk pengelompokan jurusan yaitu nilai tesmasuk sekolah menengah kejuruan, penghasilan orangtua, dan tanggungan anak orang tua. Dengan demikianpengelompokan jurusan yang diambil siswa akan lebihefektif bagi siswa itu sendiri.

Algoritma K-Means dalam hal ini akanmengelompokan data tersebut sesuai kriteria – kriteriayang dipilih dari data siswa.

II. PENDAHULUANA. Data Mining

Istilah data mining mulai dikenal sejak tahun 1990,ketika pekerjaan pemanfaatan data menjadi sesuatuyang penting dalam berbagai bidang, mulai daribidang akademik, bisnis hingga medis[2]. Munculnyadata mining didasarkan pada jumlah data yangtersimpan dalam basis data semakin besar. Dalamberbagai literatur, teori-teori pada data mining sudahada sejak lama seperti antara lain Naïve-Bayes danNearest Neighbour, Pohon Keputusan, aturan asosiasi,K-Means Clustering dan text mining[3].

Page 2: PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU

InfoTekJar (Jurnal Nasional Informatika dan Teknologi Jaringan) e-ISSN : 2540-7600Vol 1, No 2, Maret 2017 p-ISSN : 2540-7597

101

Data mining disebut juga dengan knowledge-discovery in database (KDD) ataupun patternrecognition. Istilah KDD atau disebut penemuanpengetahuan data karena tujuan utama data miningadalah untuk memanfaatkan data dalam basis datadengan mengolahnya sehingga menghasilkaninformasi baru yang berguna. Sedangkan istilahpattern recognition atau disebut pengenalan polamempunyai tujuan pengetahuan yang akan digali daridalam bongkahan data yang sedang dihadapi.

B. Dasar ClusterAnalisis kelompok (cluster analysis) adalah

mengelompokkan data (objek) yang didasarkan hanyapada informasi yang ditemukan dalam data yangmenggambarkan objek tersebut dan hubungandiantaranya[1]. Analisis Cluster sebagai metodologiuntuk klasifikasi data secara otomatis menjadibeberapa kelompok dengan menggunakan ukuranasosiasi, sehingga data yang sama berada dalam satukelompok yang sama dan data yang berbeda beradadalam kelompok data yang tidak sama.

Masukan (input) untuk sistem analisis clusteradalah seperangkat data dan kesamaan ukuran (atauperbedaan) antara dua data. Sedangkan keluaran(output) dari analisis cluster adalah sejumlahkelompok yang membentuk sebuah partisi ataustruktur partisi dari kumpulan data. Salah satu hasiltambahan dari analisis cluster adalah deskripsi umumdari setiap cluster dan hal itu sangat penting untukanalisis lebih dalam dari karakteristik data set tersebut.

Ada saatnya di mana set data yang akan diprosesdalam data mining belum diketahui label kelasnya.Pengelompokan data dilakukan dengan menggunakanalgoritma yang sudah ditentukan dan selanjutnya dataakan diproses oleh algoritma untuk dikelompokkanmenurut karakteristik alaminya.

Gbr. 1 Pengelompokan dengan clustering

C. Algoritma K-MeansAlgoritma K-Means merupakan algoritma

pengelompokan iteratif yang melakukan partisi setdata ke dalam sejumlah K cluster yang sudahditetapkan di awal. Algoritam K-Means sederhanauntuk diimplementasikan dan dijalankan, relatif cepat,mudah beradaptasi, umum penggunaannya dalampraktek[2]. K-Means dapat diterapkan pada data yangdirepresentasikan dalam r-dimensi ruang tempat. K-means mengelompokan set data r-dimensi, X=

{xi|i=1,...,N}. Algoritma K-Means mengelompokansemua titik data dalam X sehingga setiap titik xi hanyajatuh dalam satu K partisi[4].

Tujuan pengelompokan ini adalah untukmeminimalkan fungsi objek yang diset dalam prosespengelompokan, yang pada umumnya berusahameminimalkan variasi di dalam suatu kelompok danmemaksimalkan variasi antarkelompok. Parameteryang hrsus dimasukkan ketika menggunakan algoritmaK-Means adalah nilai K. Nilai K yang digunkan padaumumnya didasarkan pada informasi yang diketahuisebelumnya mengenai sebenarnya berapa banyakcluster yang muncul dalam X, berapa banyak yangdigunakan untuk penerapnnya, atau jenis cluster dicaridengan melakukan percobaan dengan beberapa nilai K.Set representatif cluster dinyatakan C={cj|j=1,…,K}.sejumlah K representatif cluster tersebut sebagaicluster centroid (titik pusat cluster). Untuk set datadalam X dikelompokan berdasarkan konsep kedekatanatau kemiripan, namun kuantitas yang digunkan untukmengukurnya adalah ketidakmiripan. Metrik yangumum digunakan untuk ketidakmiripan tersebut adalahEuclidean.

Secara umum algoritma K-Means memilikilangkah-langkah dalam pengelompokan, diantaranya:1) Inisilisasi: menentukan nilai K centroid yang

diinginkan dan metrik ketidakmiripan (jarak)yang diinginkan.

2) Memilih K data dari set X sebagai centroid.Untuk menentukan centroid dapat menggunakanpersamaan (1).

(1)

3) Mengalokasikan semua data ke centroid terdekatdengan metrik jarak yang telah ditetapkan.

4) Menghitung kembali centroid C berdasarkan datayang mengikuti cluster masing – masing.

5) Mengulangi langkah 3 dan 4 hingga kondisikonvergen tercapai.

Berikut ini adalah rumus untuk menentukanjumlah cluster:

(2)

Keterangan:K = klasterN = jumlah data

Menghitung jarak pada ruang jarak Euclideanmenggunakan formula:

2= 2 (3)

Keterangan:D = euclidean distancex = banyaknya objekƩp = jumlah data record

Page 3: PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU

InfoTekJar (Jurnal Nasional Informatika dan Teknologi Jaringan) e-ISSN : 2540-7600Vol 1, No 2, Maret 2017 p-ISSN : 2540-7597

102

III. HASIL DAN PEMBAHASANPenelitian ini bertujuan untuk mengelompokan

data siswa baru sekolah menengah kejuruan denganmenggunakan algoritma K-Means. Agar tercapaitujuan tersebut, penulis akan melakukan pengujiandengan menggunakan data pada salah satu sekolahmenengah kejuruan di medan yaitu SMK swastamedan area-1 tahun ajaran 2014/2015.

Adapun pengelompokan tersebut menggunakanlangkah – langkah sebagai berikut:

A. Sumber DataDalam penelitian ini, sumber data diambil dari smk

swasta medan area-1dimana data tersebut merupakandata siswa baru tahun ajaran 2014/2015.

TABEL IDATA SISWA BARU

B. Pengolahan DataSebelum data siswa baru tersebut dikelompokan ke

dalam jurusan yang sesuai kriteria. Data mentahtersebut akan ditransformasi dengan caramenginisialisasi data ke dalam bentuk angka yangdapat diolah dalam pengelompokan.

TABEL IIRANGE PENGELOMPOKAN JURUSAN

Berdasarkan range yang telah ditentukan padapengelompokan jurusan, maka dapat disimpulkanbahwa pengelompokan data siswa baru ke dalamjurusan tanpa menggunakan metode.

Pada data tersebut, tidak semua kriteria yang dapatmenjadi patokan. Dalam hal ini, kriteria yangdiinisialisasikan adalah penghasilan orang tua menjadi

X1, Tanggungan anak diubah menjadi X2, dan hasilnilai tes diubah menjadi X3.

TABEL IIIHASIL INISIALISASI DATA

C. Proses DataSetelah data diolah, maka langkah selanjutnya

adalah data diproses untuk membentukpengelompokan data ke dalam jurusan sesuai kriteriayang telah ditentukan. Data yang telah ditransformasitersebut akan diproses dengan menggunakan sebuahalgoritma pengelompokan (cluster) yaitu algoritma K-means. Berikut ini adalah sebuah flowchart dalampengelompokan jurusan pada siswa baru sekolahmenengah kejuruan.

Page 4: PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU

InfoTekJar (Jurnal Nasional Informatika dan Teknologi Jaringan) e-ISSN : 2540-7600Vol 1, No 2, Maret 2017 p-ISSN : 2540-7597

103

Gbr. 2 Flowchart Pengclusteran K-Means

Pada tahapan ini yaitu menentukan centroid K-means dari data siswa baru sekolah menengahkejuruan tahun ajaran 2014/2015. Dalam menentukantarget K-means tersebut bertujuan untuk mendapatkantarget data atau jarak kelompok yaitu titik pusat(centroid) kelompok awal untuk menghitung algoritmaK-means.

Pada tabel 4 merupakan hasil perhitungan K-meansuntuk data sampel siswa baru tahun ajaran 2014/2015pada sekolah menengah kejuruan medan area-1 yangberdasarkan kriteria – kriteria yang telah ditentukanuntuk setiap kelompok (cluster).

Dalam hal ini, pengelompokan yang terbentukterjadi sebanyak 3 kelompok (cluster). Untukperhitungan secara lengkap terdapat pada tabel – tabelberikut:

TABEL IVTARGET K-MEANS DATA SAMPEL SISWA BARU SMK

UNTUK C1

Setelah pengelompokan untuk kelompok pertama(cluster-1) telah terkelompok. Maka dapat dilakukanuntuk pengelompokan data kelompok kedua (cluster-2).

TABEL VTARGET K-MEANS DATA SAMPEL SISWA BARU SMK

UNTUK C2

Data yang dikelompokan lainnya akan masukpada kelompok 3 (cluster 3) yaitu hanya terdapat saturecord data pada kelompok 3.

TABEL VITARGET K-MEANS DATA SAMPEL SISWA BARU SMK

UNTUK C3

Page 5: PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU

InfoTekJar (Jurnal Nasional Informatika dan Teknologi Jaringan) e-ISSN : 2540-7600Vol 1, No 2, Maret 2017 p-ISSN : 2540-7597

104

setelah semua data telah terkelompok, maka untukmenentukan titik pusat pada cluster dapat diambil nilairata – rata dari setiap cluster.

Adapun tahapan proses algoritma K-means adalahsebagai berikut:1. Menentukan nilai k dari jumlah cluster yang akan

dibentuk. Pada tahapan ini cluster yang terbentuksebanyak 3 cluster.

2. Menentukan titik pusat (centroid) awal dari setiapcluster. Dalam penelitian ini titik pusat awalditentukan dengan menggunakan range darijurusan.

TABEL VIICENTROID AWAL CLUSTER

3. Setelah titik pusat cluster ditentukan, maka tahapselanjutnya adalah menghitung jarak terdekat ataueuclidean dengan menggunakan persamaan 3,yaitu menghitung jarak dari data siswa barupertama ke titik pusat cluster.

Dari hasil perhitungan di atas didapatkan bahwajarak terdekat bernilai 1.48657. Selanjutnyaperhitungan jarak data pertama untuk clusterkedua.

Dari hasil perhitungan tersebut didapatkan jarakterdekat bernilai 1.72627. Kemudian perhitunganjarak data pertama untuk cluster ketiga.

Dari hasil perhitungan tersebut didapatkan jarakterdekat bernilai 4.47214. Berdasarkan perhitunganeuclidean untuk data pertama diperoleh jarak terdekatcluster adalah 1.48657 yang terkelompok pada clusterkesatu (C1) dan untuk

TABEL VIIIPERHITUNGAN EUCLIDEAN ITERASI-1

Setelah data dikelompokan pada iterasi pertama,maka langkah selanjutnya adalah membentuk titikpusat baru dengan menentukan nilai rata – rata darisetiap data yang sudak memebentuk cluster untukmelanjutkan perhitungan jarak terdekat iterasi keduadan akan menunjukkan cluster yang terbentukselanjutnya dapat membentuk cluster yang konvergen.

TABEL IXCENTROID BARU PERTAMA

Jika cluster belum konvergen, maka centroid akandibangkitkan kembali dan menghitung kembalieuclidean dari setiap data siswa. Langkah perhitunganjarak terdekat seperti langkah ketiga sebelumnya.Berikut perhirtungan jarak terdekat untuk data kedua.

Dari hasil perhitungan tersebut didapatkan jarakterdekat bernilai 2.0518.

Untuk perhitungan euclidean dapat dilihat secaralengkap pada tabel di bawah ini.

Page 6: PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU

InfoTekJar (Jurnal Nasional Informatika dan Teknologi Jaringan) e-ISSN : 2540-7600Vol 1, No 2, Maret 2017 p-ISSN : 2540-7597

105

TABEL XPERHITUNGAN EUCLIDEAN ITERASI-2

Pada perhitungan jarak terdekat di atascentroid baru yang dibangkitkan ternyata belumkonvergen, sehingga iterasi harus dilanjutkan. Dalampenelitian ini, iterasi clustering data siswa terjadisebanyak 3 kali iterasi. Pada pengelompokan data diatas didapat titik cluster baru dengan nilai sebagaiberikut:

TABEL XICENTROID BARU KEDUA

Centroid baru kedua yang dibangkitkan ternyata sudahkonvergen, sehingga perhitungan jarak terdekatclustering berhenti pada iterasi-3. Adapun perhitungansecara lengkapnya sebagai berikut:

TABEL XIIPERHITUNGAN EUCLIDEAN ITERASI-3

Pada iterasi-3 tersebut, titik pusat dari setiap clustersudah tidak berubah dan tidak ada lagi terdapat datayang berpindah dari satu cluster ke cluster yang lain.Maka dari itu, data siswa baru SMK telah terkelompoksesuai kriteria yang ditentukan untuk memasuki

jurusan pada sekolah menengah kejuruanmenggunakan algoritma K-Means.

IV. KESIMPULANDari hasil penelitian yang telah dilakukan, maka

penulis dapat menarik beberapa kesimpulan,diantaranya sebagai berikut:1. Pengujian yang dilakukan dalam penelitian ini,

iterasi clustering pada data siswa baru SMKterjadi sebanyak 3 kali iterasi.

2. Berdasarkan hasil cluster dengan menerapkanbeberapa kriteria dari calon siswa menggunakanK-Means dapat diambil pengelompokan denganrata – rata jurusan yang diambil adalah rekayasaperangkat lunak dan sedikit jumlah siswa yangtidak lulus. Bahkan ada beberapa jurusan yangtidak dibuka dikarenakan kriteria – kriteria siswatidak dapat lulus dalam jurusan tersebut.

REFERENCE[1] Y. Agusta, "K-Means Penerapan, Permasalahan dan

Metode Terkait," Jurnal Sistem dan Informatika, vol. 3,pp. 47-60, Pebruari 2007.

[2] M. Kantardzic, J. Wiley and Sons, Data Mining:Concepts, Models, methods, and Algorithms, 2003

[3] N. P. E. Merliana, Ernawati and A. J. Santoso,"Penentuan Jumlah Cluster Terbaik Pada Metode K-Means Clustering," SENDI_U.

[4] Mardiani, "Perbandingan Algoritma K-Means dan EMuntuk Clusterisasi Nilai Mahasiswa Berdasarkan AsalSekolah," Citec Journal, vol. 1, no. 4, pp. 316-325,Agustus-Oktober 2014.