reduksi dimensi fitur menggunakan algoritma aloft untuk...
Post on 03-Nov-2020
16 Views
Preview:
TRANSCRIPT
Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk Pengelompokan Dokumen
MAMLUATUL HANI’AH 5114201027
DOSEN PEMBIMBINGDr. Eng. Chastine Fatichah, S.Kom, M.KomDiana Purwitasari, S.Kom, M.Sc
LATAR BELAKANG
Penumpukan Informasi
Sulit menemukan informasi yang relevan
Diperlukan pengelolaan informasi
Pengelompokan dokumen
?
LATAR BELAKANG
Pengelompokan Dokumen
Prepocessing
Semakin besar dokumen
Vector Space Model (VSM)
tokenizing, stopword removal, dan stemming
Stemming bahasa IndonesiaTidak terpotong dengan
sempurna (Arifin, et al., 2009)
Pembentukan kata dasar menggunakan produk Kateglo
(kamus, tesaurus, dan glosarium)
Semakin Banyak Fitur
LATAR BELAKANG
Pengelompokan Dokumen
Prepocessing
Semakin besar dokumen
Representasi teks (VSM)
Semakin Banyak Fitur
performa buruk dari algoritma clustering
Reduksi Dimensi(Bharti & Singh, 2014) (Bharti & Singh, 2015) (Tabakhi, et al., 2014) (Song &
Park, 2009)
Reduksi Dimensi Seleksi Fitur
Wrapper
Filter
membutuhkan biaya yang tingggiberulang kali melakukan
pengujian dengan machine learning
(Liu, et al., 2007), (Alelyani, et al., 2013 )
Cepat dan lebih efisien,Penentuan relevansi fitur dengan
perhitungan statistik(Liu, et al., 2007), (Alelyani, et al.,
2013 )
LATAR BELAKANG
145
316
395
461
0
100
200
300
400
500
D1 D1+D2 D1+D2+D3 D1+D2+D3+D4
JUM
LAH
FIT
UR
DOKUMEN
Fitur dokumen
LATAR BELAKANG
Metode Filter memilih k fitur teratas (VR)
• Nilai k dari masukan pengguna
• Nilai k berbeda mungkin akan menghasilkankelompok dokumen yang berbeda
ALOFT
• ALOFT metode seleksi fitur untuk klasifikasi dokumen
• Menghasilkan sejumlah set fitur secara otomatis tanpa parameter masukan dari pengguna
• Memiliki performa yg lebih bagus (Pinheiro, et al., 2012)
Metode filter pada algoritma ALOFT membutuhkanlabel kelas sehingga metode filter tersebut tidakdapat digunakan untuk pengelompokan dokumen
USULAN
Metode Filter ALOFT
Document Frequency (DF), Term Contributtion(TC), Term variance quality (TVQ), Term
Variance (TV), Mean Absolute Difference(MAD), Mean Median (MM), Arithmetic Mean
Geometric Mean (AMGM)
• Mengetahui kombinasi metode filter pada ALOFTyang menghasilkan kualitas cluster terbaik
• Diharapkan dapat meningkatkan performa danefisiensi dari algoritma clustering
Pengelompokan dokumen
RUMUSAN MASALAH1. Bagaimana pengaruh kata dasar dengan menggunakan kata
turunan pada Kateglo terhadap hasil cluster.
2. Bagamaina reduksi dimensi fitur yang menggunakan variasi metode filter pada ALOFT.
3. Bagaimana kualitas cluster yang dihasilkan setelah dilakukan reduksi dimensi.
Tujuan dan Manfaat Penelitian
Mengelompokkan dokumen berita dengan memanfaatkan teknik reduksi dimensi fitur menggunakan variasi metode filter pada algoritma ALOFT.
TUJUAN
Diharapkan hasil dokumen yang sudah terkelompokkan dapat memperbaiki efektifitas dan efisiensi dalam pencarian informasi yang relevan.
MANFAAT
Kontribusi PenelitianReduksi dimensi fitur dengan menggunakan variasi metode filter pada algoritma ALOFT untuk mengelompokkan dokumen.
• Data yang digunakan pada kategori ekonomi, olahraga, politik
DATA
• Dokumen berita berbahasa Indonesia dari situs berita online www.kompas.com
• Jumlah dokumen yang digunakan sebanyak 1000 dokumen
Data yang dimanfaatkan adalah judul berita dan isi dari berita
Diagram Alir Sistem
Dokumen Berita
Pembersihan data
TokenizingStopword removal
Pembentukan kata dasar
Preprocessing
Pembobotan Tfidf
Perhitungan relevansi fitur dengan metode
filter
Pemilihan fitur dengan ALOFT
Clustering dokumen
Metode FilterPada penelitian ini digunakan tujuh buah metode filter
a. Document Frequency (DF)
b. Term Contribution (TC)
c. Term Variance Quality (TVQ)
d. Term Variance (TV)
e. Mean Absolute Difference (MAD)
f. Mean Median (MM)
g. Arithmetic Mean Geometric Mean (AMGM)
Perhitungan relevansi fitur dengan metode
filter
Pemilihan fitur dengan ALOFT
Clustering dokumen
Semakin tinggi nilai filter dari sebuah fitur maka semakin relevan fitur tersebut
ALOFT (At Least One FeaTure)
Setidaknya terdapat satu fitur yang mewakili dokumen
Perhitungan relevansi fitur dengan metode
filter
Pemilihan fitur dengan ALOFT
Clustering dokumen
Untuk setiap dokumen dipilih fitur terbaik
Fitur terbaik = nilai relevansi tertinggi
Fitur terbaik disimpan ke dalam vektor fitur yang baru( tidak ada fitur yang sama )
Pengelompokan Dokumen
Menggunakan 2 Algoritma clustering
K-means
Hierarchical Agglomerative Clustering
Uji Coba:• Uji Coba 1 : Pengujian dengan Kata Dasar• Uji Coba 2 : Pengujian tanpa Kata Dasar
Skenario uji cobaCluster dievaluasi dengan menggunakan metode silhouette untuk mengetahui kualitas dari hasil pengelompokan dokumen.
Parameter estimasi :• Nilai k : Jumlah cluster yang akan dibentuk untuk algoritma k-means dan HAC
Skenario 8 : Filter TV + ALOFT + HAC (dengan beberapa variasi nilai k)
Skenario 9 : Filter MAD + ALOFT + Kmeans (dengan beberapa variasinilai k)
Skenario 10 : Filter MAD + ALOFT + HAC (dengan beberapa variasi nilaik)
Skenario 11 : Filter MM + ALOFT + Kmeans (dengan beberapa variasinilai k)
Skenario 12 : Filter MM + ALOFT + HAC (dengan beberapa variasi nilai k
Skenario 13 : Filter AMGM + ALOFT + Kmeans (dengan beberapa variasinilai k)
Skenario 14 : Filter AMGM + ALOFT + HAC (dengan beberapa variasinilai k)
Skenario 1 : Filter DF + ALOFT + Kmeans (dengan beberapa variasi nilaik)
Skenario 2 : Filter DF + ALOFT + HAC (dengan beberapa variasi nilai k)
Skenario 3 : Filter TC + ALOFT + Kmeans (dengan beberapa variasi nilaik)
Skenario 4 : Filter TC + ALOFT + HAC (dengan beberapa variasi nilai k)
Skenario 5 : Filter TVQ + ALOFT + Kmeans (dengan beberapa variasinilai k)
Skenario 6 : Filter TVQ + ALOFT + HAC (dengan beberapa variasi nilai k)
Skenario 7 : Filter TV + ALOFT + Kmeans (dengan beberapa variasi nilaik)
UJI COBA 1Dilakukan 50 kali uji coba untuk mendapatkan hasil terbaik
Hasil terbaik didapatkan pada k =3 pada metode MAD , dengan jumlah fitur 15
k
Rata – rata Silhouette Coefficient (ASW) Cosine Similarity K-means
DF +
ALOFT
TC +
ALOFT
TV +
ALOFT
TVQ +
ALOFT
MAD +
ALOFT
MM +
ALOFT
AMGM
+ ALOFT
2 0,350 0,401 0,401 0,411 0,415 0,258 0,120
3 0,487 0,534 0,534 0,544 0,553 0,280 0,145
4 0,478 0,503 0,503 0,544 0,526 0,238 0,141
5 0,399 0,501 0,501 0,511 0,526 0,245 0,131
6 0,428 0,511 0,428 0,527 0,542 0,256 0,143
7 0,386 0,445 0,445 0,417 0,476 0,265 0,151
8 0,401 0,330 0,330 0,416 0,363 0,272 0,158
9 0,409 0,335 0,335 0,439 0,374 0,278 0,159
10 0,419 0,331 0,334 0,435 0,369 0,285 0,164
........... ..// .... .... ..... ..... ..... .....
25 0,363 0,321 0,310 0,443 0,339 0,361 0,224
Jumlah
fitur19 16 15 16 15 168 119
UJI COBA 1
nilai rata – rata rata -rata silhouette (ASW)terbaik untuk semua metode filter terdapat pada k yang berbeda –beda.
k
rata - rata silhouette (ASW) cosine similarity − HAC
DF + ALOFT TC + ALOFT TV + ALOFT TVQ + ALOFTMAD +
ALOFT
MM +
ALOFT
AMGM +
ALOFT
2 0,104 0,082 0,260 0,107 0,204 0,102 0,030
3 0,004 -0,065 0,220 -0,042 0,384 -0,016 -0,014
4 -0,016 -0,004 0,129 -0,092 0,346 -0,025 -0,018
5 -0,037 -0,036 0,126 -0,094 0,426 -0,029 -0,022
6 -0,069 0,042 0,215 0,136 0,423 -0,030 -0,023
7 -0,011 0,174 0,258 0,117 0,436 -0,031 -0,036
8 0,105 0,186 0,145 0,283 0,460 -0,029 -0,037
9 0,106 0,260 0,184 0,323 0,387 -0,029 -0,033
10 0,225 0,317 0,211 0,338 0,369 -0,028 -0,042
.... .... ..... .... ..... ..... ..... ....
25 0,327 0,226 0,273 0,351 0,283 0,181 -0,007
Jumlah fitur 19 16 15 16 15 168 119
Perbandingan dengan metode VR
Perbandingan dilakukan pada k = 3. dimana pada nilai ini
didapatkan nilai silhouette tertinggi
0,553
0,0
0,1
0,2
0,3
0,4
0,5
0,6
DF TC TV TVQ MAD MM AMGM
rata
-ra
ta S
ilho
uet
te C
oef
isie
n (
ASW
)
Metode Filter
Perbandingan Nilai Rata - rata Silhouette (ASW) antar Metode Filter pada K-means
ALOFT VR
Perbandingan dengan metode VR
Perbandingan dilakukan pada k = 3. dimana pada nilai ini
didapatkan nilai silhouette tertinggi
0,384
-0,100
0,000
0,100
0,200
0,300
0,400
0,500
0,600
DF TC TV TVQ MAD MM AMGM
Rat
a -
rata
Silh
ou
ette
Co
efis
ien
(A
SW)
Metode Filter
Perbandingan Nilai Rata - rata Silhouette (ASW) antar Metode Filter pada HAC
ALOFT VR
Pengaruh kata dasar
Pencarian kata dasar tidak terlalu berpengaruh
0,553
0,0
0,1
0,2
0,3
0,4
0,5
0,6
DF TC TV TVQ MAD MM AMGM
Rat
a -
rata
Silh
ou
ette
Co
efis
ien
(A
SW)
Metode Filter
Pengaruh Kata Dasar Terhadap Metode Usulan Menggunakan K-means
Kata dasar Tanpa kata dasar
0,384
-0,2
0,0
0,2
0,4
0,6
DF TC TV TVQ MAD MM AMGM
Rat
a -
rata
Silh
ou
ette
Co
efis
ien
(A
SW)
Metode Filter
Pengaruh Kata Dasar Terhadap Metode Usulan Menggunakan HAC
Kata dasar Tanpa kata dasar
Analisis Kata Turunan KategloKekurangan Contoh
Awalan di (-) dan akhiran (-i) dipakai, ditutupi, dijalani, dipadati, dipanasi, dll
imbuhan lebih dari satu dan akhiran lebih dari satu
mempermainkannya, memperbanyak, memperjuangkannya, dll
kata berisisipan jelajah, geligi, selidik, melaju, dll
Akhiran (-i) Fasilitasi, tanami, sukai, abadi, dll
AKIBATnilai rata – rata silhouette yang dimiliki beberapa metode filter tidak
berpengaruh signifikan
antara fitur term yang dilakukan pencarian kata dasar dengan fitur term yang tidak dilakukan pencarian kata dasar tidak banyak berbeda
Dengan pencarian kata dasar 14.165 fitur Tanpa kata dasar 16.348. terdapat selisih 2.183
Analisa hasil cluster
DF +
ALOFT
TC +
ALOFT TV + ALOFT
TVQ +
ALOFT
MAD +
ALOFT
MM +
ALOFT
AMGM +
ALOFT
K -means
euclidean 0,634 0,906 0,866 0,444 0,842 0,064 0,255
cosine 0,897 0,950 0,979 0,946 0,970 0,774 0,846
HAC
euclidean 0,104 0,498 0,139 0,048 0,517 0,002 0,020
cosine 0,013 0,007 0,147 0,024 0,592 0,019 0,010
Tujuan evaluasi adjusted rand index : mengetahui apakah himpunan fitur akhir yang sudah terpilih dapat mewakili dokumen aslinya.dilakukan pada hasil pengelompokan pada k = 3 sesuai dengan ground truthnilai adjusted rand index tertinggi pada penggunaan k-means dan perhitungan kemiripannya dilakukan dengan menggunakan cosine similarity
KesimpulanPenggunaan produk Kateglo untuk proses pembentukan kata dasar dapat meningkatkan kualitas cluster pada beberapa metode filter, akan tetapi peningkatan kualitas cluster yang dihasilkan tidak terlalu signifikan.
Hasil uji coba pengelompokan dokumen berita online menunjukkan kualitas cluster pada nilai k = 3 memiliki kriteria “Baik” untuk filter TC, TV, TVQ, dan MAD dengan rata – rata silhouette lebih dari 0,5. Sedangkan untuk filter DF mimiliki kriteria “Cukup Baik” dengan rata – rata silhouette lebih dari 0,4.
Hasil uji coba pengelompokan dokumen berita online menunjukkan bahwa metode reduksi dimensi fitur menggunakan variasi metode filter pada ALOFT mendapatkan hasil yang optimal dengan menggunakan algoritma k-means dan Perhitungan kemiripan cosine similarity.
Saran1. penggunaan kombinasi dari beberapa metode filter sehingga nilai relevansi dari sebuah term
tidak hanya tergantung pada satu metode filter saja
top related