1
MENDETEKSI TOPIK BERITA PADA ALIRAN BERITA
ONLINE BERBAHASA INDONESIA
Muhammad Ammar Shadiq
Program Studi Ilmu Komputer
Universitas Pendidikan Indonesia
Yudi Wibisono
Dosen Program Studi Ilmu Komputer
Universitas Pendidikan Indonesia
Jajang Kusnendar
Dosen Program Studi Ilmu Komputer
Universitas Pendidikan Indonesia
ABSTRAK
Pengelompokan dokumen-dokumen berita kedalam
topik-topik yang lebih spesifik membutuhkan waktu
dan sumber daya manusia yang tidak sedikit. Untuk mengatasi permasalahan waktu dan sumber daya
manusia tersebut, dibutuhkan pengelompokan
dokumen-dokumen berita berdasarkan topik-topiknya
secara otomatis, selain itu, untuk lebih memudahkan
dalam menemukan informasi yang diinginkan,
dibutuhkan juga pemberian deskripsi dari kelompok
berita. Penelitian ini mencoba untuk mengatasi
permasalahan tersebut dengan menjadikan
pengelompokan topik-topik berita secara otomatis
dengan algoritma Group-Average Hierarchical
Aglomerative Clustering (GA-HAC) dan pemberian deskripsi secara otomatis dengan Mutual Information
(MI). Eksperimen implementasi dari algoritma ini
terhadap 509 dokumen berita menunjukkan bahwa
GA-HAC dapat mengelompokkan dokumen-dokumen
berita yang memiliki topik yang sama dengan nilai
akurasi precision 84,4% dan MI dapat memberikan
nilai akurasi rata-rata partial match Match@N
70,81% untuk seluruh topik dan 90% untuk 10 topik
terpopuler.
Kata Kunci: Clustering, Cluster Labeling, Group-Average Hierarchical Agglomerative Clustering,
Mutual Information, News Topic Detection.
1 PENDAHULUAN
1.1 Latar Belakang Saat ini teknologi informasi di Indonesia berkembang
dengan sangat pesat, masyarakat sudah banyak yang
menggunakan internet untuk berkomunikasi dan mendapatkan informasi, salah satu informasi yang bisa
didapatkan oleh pengguna internet adalah berita.
Berita di internet bisa didapatkan dari banyak situs
khusus berita yang selalu menyediakan dokumen-
dokumen berita terbaru. Dengan banyaknya situs-situs
tersebut, informasi yang bisa didapatkan oleh
pengguna sangat banyak, namun tidak semua
informasi tersebut dibutuhkan oleh pengguna. Sering
kali pengguna layanan berita hanya membutuhkan
informasi seperti “apa yang terjadi?” atau “berita apa
yang populer sekarang?” atau “bagaimana
perkembangan terbaru dari topik .....?”.
Untuk memudahkan pengguna dalam memenuhi
kebutuhan informasinya, situs-situs berita umumnya
mengelompokkan berita-berita kedalam kelas-kelas
umum seperti regional, bisnis, internasional, kesehatan dan kelas-kelas umum lainnya. Namun jumlah
dokumen berita pada tiap kelas-kelas tersebut masih
sangat banyak dan berisi berita dengan berbagai topik
yang lebih spesifik. Pengelompokan dokumen-
dokumen berita kedalam topik-topik yang lebih
spesifik membutuhkan waktu dan sumber daya
manusia yang tidak sedikit, sebagai hasilnya, hanya
kejadian-kejadian besar seperti “Pemilihan Presiden
2009” dan “Piala Dunia 2010” yang dipilih oleh
redaksi berita untuk diciptakan kelompok tersendiri.
Penelitian ini mencoba mengatasi permasalahan
tersebut dengan mengaplikasikan metode clustering
dokumen dengan Group Average - Hierarchical
Agglomerative Clustering (GA-HAC) untuk
mengotomatisasikan pengelompokan dokumen-
dokumen berita berdasarkan topik-topiknya dan
cluster labeling dengan Mutual Information (MI)
untuk memberikan deskripsi dari topik tersebut. Kedua
pengaplikasian metode ini dilakukan dalam
lingkungan time window yang memandang aliran
berita melalui “jendela” dengan dokumen-dokumen pada interval waktu 24 jam.
2 METODOLOGI
2.1 Time Window Time window adalah suatu metode yang digunakan
untuk menangani aliran berita. Time window
memandang sebuah aliran dokumen berita melalui
“jendela” dengan jumlah dokumen atau interval waktu tertentu [1] [5] [6] [15] [22].
2
Gambar 0.1 Ilustrasi Time Window pada Aliran
Dokumen Berita
Konsep time window diadopsi dengan cara membagi
aliran dokumen berita kedalam segmen-segmen dimana tiap segmen berisi dokumen-dokumen pada
interval waktu 1 jam. Koleksi dokumen terbaru
dibangun dengan menggunakan segmen-segmen 24
jam terakhir saja, hal ini dilakukan dengan
menambahkan segmen terbaru dan membuang segmen
yang telah melebihi 24 jam. Proses perubahan koleksi
dokumen terbaru ini dirumuskan dengan:
𝐾w =
𝑆i
w
i=1
, 1 ≤ w ≤ τ
(2.1)
𝑆i
w
i=w−τ
, w > τ
dimana
w adalah waktu terakhir
Si adalah segmen pada waktu i
Kw adalah koleksi dokumen pada waktu w
τ adalah 24 jam
2.2 Tokenization Tokenization adalah proses pemotongan rangkaian
kata menjadi bagian-bagian yang dinamakan token,
sebuah token adalah kejadian dari urutan karakter
dalam dokumen tertentu yang dikelompokkan bersama sebagai sebuah unit pemrosesan semantik yang
berguna. Token ini umumnya disebut juga sebagai
sebuah term [17]. Pada penelitian ini proses
tokenization dilakukan dengan membagi-bagi teks
dokumen berdasarkan karakternya. Untuk dapat
mendeteksi apakah suatu urutan karakter merupakan
sebuah term atau simbol, karakter-karakter
diklasifikasikan kedalam tiga kelas karakter.
2.2.1 Klasifikasi Kelas Karakter 1. Kelas karakter yang pertama adalah kelas karakter
spasi. Karakter-karakter pada kelas ini merupakan
karakter-karakter yang umumnya digunakan
sebagai pemisah kata dan paragraph.
2. Kelas karakter yang kedua adalah karakter
berjenis simbol. Kelas karakter ini umumnya
berbentuk tanda baca, seperti “;” (titik koma) dan
“?” (tanda tanya).
3. Kelas karakter yang ketiga adalah karakter-
karakter yang berjenis non-simbol. Karakter-
karakter pada kelas ini merupakan karakter-
karakter utama dalam pembentukan sebuah term.
2.2.2 Proses Tokenizer Secara Umum Proses tokenizer diawali membagi-bagi teks
berdasarkan karakter-karakternya, lalu dilakukan
penelusuran satu persatu dari awal dokumen dan
melakukan operasi sesuai dengan sifat tiap karakter
tersebut. Contoh proses tokenizer secara umum adalah
misalkan diketahui sebuah dokumen dengan isi teks:
Apakah dia sedih? "Saya lihat biasa
saja," lanjut bapak.
Hasil proses tokenizer ini adalah:
Tabel 2.1 Contoh Hasil Tokenizer Sebuah Dokumen
Token Tipe Token Tipe
Apakah Term biasa Term
dia Term saja Term
sedih Term , Simbol
? Simbol ” Simbol
” Simbol lanjut Term
Saya Term bapak Term
lihat Term . Simbol
2.2.3 Penanganan Simbol-Simbol Tertentu Aturan pemisahan sederhana diatas akan mengalami
kendala untuk term yang seharusnya menyatu seperti
nama orang yang menggunakan kutip tunggal
“Safi'i”, yang akan menghasilkan token safi, ', i
ataupun alamat email seperti “email@server” yang
akan menghasilkan token email, @, server. Untuk
menghindari kendala tersebut, dilakukan penyesuaian
aturan terhadap karakter-karakter simbol [.], ['], [-],
[@] dan [#], yaitu:
Untuk karakter simbol [.], ['] dan [-]
Aturan logika 1: Jika karakter simbol [.], ['] atau [-]
tidak terletak pada awal dokumen dan akhir dokumen
dan diawali oleh karakter spasi atau (inklusif) diikuti
karakter spasi atau simbol, maka karakter simbol
tersebut bukan bagian dari token term. Aturan ini
dapat dituliskan dengan ekspresi logika: ((a ˄ b) ˄ ((c
˅ d) ⊕ e)) dengan proporsi-proporsi:
a = karakter simbol [.], ['] dan [-] tersebut bukan karakter pertama.
b = masih ada karakter selanjutnya.
c = karakter selanjutnya adalah spasi.
d = karakter selanjutnya adalah simbol.
e = karakter sebelumnya adalah spasi.
3
Aturan logika 2: Jika karakter simbol [.], ['] atau [-]
terletak pada awal dokumen, maka karakter simbol
tersebut bukan bagian dari token term.
Aturan logika 3: Jika aturan Logika 1 dan 2 diatas
tidak memenuhi, maka karakter simbol tersebut
merupakan bagian dari token term.
Contoh pengaplikasian dari aturan-aturan ini adalah:
1. “www.situs.com” dianggap sebagai sebuah
token utuh: www.situs.com.
2. “masih bisa. Selain itu” menjadi:
masih, bisa, ., Selain, itu.
3. “safi'i” dianggap sebagai sebuah token utuh:
safi'i.
4. “Mike 'Leher Beton” menjadi: Mike, ',
Leher, Beton.
5. “Leher Beton' Tyson” menjadi: Leher,
Beton, ' , Tyson.
6. “rumah-rumah” dianggap sebagai sebuah token
utuh: rumah-rumah.
7. “-Polisi membekuk” menjadi: -, Polisi,
membekuk.
Untuk karakter simbol [@]
Aturan logika 1: Jika karakter simbol [@] tidak terletak pada akhir dokumen dan diikuti karakter spasi
atau (inklusif) simbol, maka karakter simbol tersebut
bukan bagian dari token term. Aturan ini dapat
dituliskan dengan ekspresi logika: (a ˄ (b ˅ c)) dengan
proporsi-proporsi:
a = masih ada karakter selanjutnya
b = karakter selanjutnya adalah spasi
c = karakter selanjutnya adalah simbol
Aturan logika 2: Jika aturan Logika 1 diatas tidak
memenuhi, maka karakter simbol tersebut merupakan
bagian dari token term.
Contoh pengaplikasian dari aturan-aturan ini adalah:
1. “email@server” dianggap sebagai sebuah token email@server
2. “pada twitternya @akuntwit” menjadi:
pada, twitternya, @akuntwit.
3. “ini@ itu” menjadi: ini, @, itu.
4. “ini@ itu” menjadi: ini, @, itu.
Untuk karakter simbol [#]
Aturan logika 1: Jika karakter simbol [#] tidak terletak pada akhir dokumen dan diikuti karakter spasi
atau (inklusif) simbol, maka karakter simbol tersebut
bukan bagian dari token term. Aturan ini dapat
dituliskan dengan ekspresi logika: (a ˄ b) ˄ ((c ˅ d) ˄
e) dengan proporsi-proporsi:
a = Karakter simbol [#] tersebut bukan karakter pertama.
b = Masih ada karakter selanjutnya.
c = Karakter selanjutnya adalah spasi.
d = Karakter selanjutnya adalah simbol.
e = Karakter sebelumnya adalah spasi.
Aturan Logika 2: Jika aturan logika 1 diatas tidak memenuhi, maka karakter simbol tersebut adalah
bagian dari token term.
Contoh pengaplikasian dari aturan-aturan ini adalah:
1. “topik populer #hashtag” menjadi: topik,
populer, #hashtag.
2. “ini# itu” menjadi: ini, #, itu.
3. “ini#itu” menjadi: ini, #, itu.
2.3 Representasi Dokumen
Tiap dokumen berita direpresentasikan sebagai vektor
pada ruang vektor dengan jumlah komponen vektor
sebanyak term unik yang dihasilkan pada proses
tokenization. Vektor dokumen beranggotakan bobot
tiap term yang dihitung dengan skema pembobotan
Term Frequency – Inverse Document Frequency (TF-
IDF). TF-IDF adalah skema pembobotan yang
menghitung bobot term secara relatif berdasarkan jumlah kemunculannya pada suatu dokumen dan
seluruh koleksi dokumen [9] [17] [23] [24]. TF-IDF
dinotasikan dengan tf-idft,d dan dihitung dengan:
𝑡𝑓-𝑖𝑑𝑓𝑡 ,𝑑 = 𝑡𝑓𝑡 ,𝑑 × log𝑒𝑛𝑘𝑑𝑓𝑡
(2.2)
dimana
t adalah term
d adalah dokumen
tft,d adalah frekuensi kemunculan term t pada
dokumen d
dft adalah jumlah dokumen yang mengandung
term t pada koleksi dokumen
nk adalah jumlah dokumen di dalam koleksi
Nilai bobot hasil perhitungan TF-IDF lalu digunakan
untuk mengukur tingkat kemiripan antar dokumen
(document similarity) dengan metode Cosine
Similarity [2] [4] [7] [11] [12] [16] [17] [20] [21] [25]
[30] [31]. Nilai cos 𝜃 sebagai kemiripan dokumen antara dokumen di dan dj dihitung dengan:
cos𝜃 =𝑣 𝑑𝑖 ∙ 𝑣 𝑑𝑗
𝑣 𝑑𝑖 𝑣 𝑑𝑗 = 𝑠𝑖𝑚(𝑑𝑖 , 𝑑𝑗 ) (2.3)
4
2.4 Clustering dengan GA-HAC Group Average (GA) adalah suatu metode
penggabungan yang digunakan pada proses clustering
dengan Hierarchical Agglomerative Clustering (HAC)
[10] [14] [33] [34]. Metode GA mengevaluasi
kemiripan cluster berdasarkan combination similarity.
Combination similarity antara cluster Ci dan Cj
didapatkan dengan menghitung nilai rata-rata
document similarity antara seluruh pasangan dokumen
di di cluster Ci dan dj di cluster Cj dengan persamaan:
𝑠𝑖𝑚-𝑔𝑎(𝐶𝑖 ,𝐶𝑗 )
=1
𝑛𝐶𝑖 × 𝑛𝑐𝑗 𝑠𝑖𝑚 𝑑𝑖 ,𝑑𝑗
𝑑𝑗∈𝐶𝑗𝑑𝑖∈𝐶𝑖
(2.4)
dimana
𝑛𝐶𝑖 dan 𝑛𝐶𝑗 adalah jumlah dokumen pada cluster
Ci dan Cj
sim (di,dj) adalah nilai document similarity antara
dokumen di dan dj.
Algoritma metode penggabungan HAC dengan GA
adalah sebagai berikut:
1. Inisialisasi tiap dokumen sebagai sebuah cluster dengan document similarity sebagai initial
combination similarity antar cluster.
2. Hitung nilai combination similarity antar
pasangan cluster dengan SIM-GA
3. Gabungkan pasangan cluster dengan nilai
combination similarity yang paling besar sebagai
cluster baru.
4. Ulangi langkah 2 dan 3 sampai keadaan seluruh
cluster telah digabungkan.
2.3.1 Natural Clustering Untuk mendapatkan hasil cluster yang terpisah seperti
pada flat clustering, dilakukan pemotongan pada
dendogram hierarki cluster hasil algoritma GA-HAC. Pemotongan dendogram hierarki cluster ini dilakukan
pada bagian dendogram yang menggabungkan cluster
dengan combination similarity terkecil, ini ditentukan
berdasarkan nilai kelayakan tiap dokumen (document
fitness) terhadap cluster yang menampungnya [17].
Nilai document fitness dari dokumen di terhadap
cluster Ci dinotasikan dengan f(di). f(di) dihitung
dengan membandingkan nilai combination similarity
antara dokumen di terhadap cluster terdekat kedua Cj
dan rata-rata document similarity di dengan dokumen-
dokumen lain pada cluster Ci. Jika Ci adalah singleton
cluster (cluster yang hanya berisi di), maka nilai f(di)
adalah 0. Sedangkan jika Ci bukan singleton cluster,
maka nilai f(di) dihitung dengan persamaan:
𝑓 𝑑𝑖 =𝑏 𝑑𝑖 − 𝑎(𝑑𝑖)
max{𝑎 𝑑𝑖 ,𝑏 𝑑𝑖 } (2.5)
dimana
𝑎 𝑑𝑖 =1
𝐶𝑖 −1 𝑑𝑖𝑠(𝑑𝑖 ,𝑑𝑗 )𝑑𝑗∈𝐶𝑖
,
𝑏 𝑑𝑖 = arg min𝐶𝑖1
𝐶𝑗 𝑑𝑖𝑠(𝑑𝑖 , 𝑑𝑗 )𝑑𝑗∈𝐶𝑗
𝑑𝑖𝑠 𝑑𝑖 , 𝑑𝑗 = 1− cos 𝜃 = 1− 𝑠𝑖𝑚(𝑑𝑖 ,𝑑𝑗 )
Penghitungan document fitness ini dilakukan pada tiap
langkah penggabungan cluster di hierarki, dimana
seluruh nilai document fitness tiap dokumen pada
langkah penggabungan cluster tersebut kemudian di
rata-ratakan. Pemotongan hierarki untuk mendapatkan
natural clusters didapatkan dengan melakukan
pemotongan pada langkah penggabungan cluster dengan rata-rata nilai document fitness terbesar.
2.5 Cluster Labeling dengan MI Setelah pengelompokan dokumen berita dengan topik yang sama dengan clustering, cluster label digunakan
sebagai deskripsi topik dari dokumen-dokumen berita
yang terkandung didalam sebuah cluster. Proses ini
meliputi: Part-Of-Speech Tagger dengan perangkat
lunak iPOSTagger [25] yang hasilnya digunakan
untuk mengidentifikasi frasa-frasa nomina, ekstraksi
frasa calon cluster label dan penghitungan nilai
deskriptif frasa-frasa calon cluster label dengan
Mutual Information menggunakan Laplace
Correction. Nilai deskriptif calon cluster label
tertinggi kemudian dapat dipilih sebagai label dari cluster tersebut.
2.5.1 Identifikasi Frasa-Frasa Calon Cluster
Label Frasa-frasa untuk calon cluster label yang
mendeskripsikan isi inti dari suatu cerita ditentukan dengan mengambil bagian-bagian dokumen yang
memenuhi sifat-sifat tertentu [8] [13] [18] [19] [26]
[29]. Pada penelitian ini, sifat-sifat untuk menentukan
frasa-frasa calon cluster label adalah:
1. Tidak melewati batas klausa atau kalimat berupa
tanda baca seperti “.”, “,”, “!” dan“?”.
2. Tidak diawali atau diakhiri dengan stopwords.
Stopwords adalah kata-kata yang terlalu sering digunakan pada seluruh dokumen.
3. Merupakan frasa nomina (frasa kata benda atau
noun phrase). Frasa nomina adalah frasa dengan
unsur pusat kata berupa nomina atau kata benda.
Pengidentifikasian frasa nomina dilakukan dengan
mengacu pada POS Tag tiap kata dalam frasa.
4. Merupakan complete phrase, yaitu frasa lengkap yang tidak bisa diperluas lagi dengan
menambahkan elemen kata sesudah atau sebelum
frasa tersebut.
5
2.5.2 Mutual Information Mutual Information (MI) adalah salah satu metode
yang dapat digunakan untuk menghitung nilai
deskriptif suatu calon cluster label. MI dihitung dengan persamaan:
𝑀𝐼 𝑋,𝑌 = 𝑝(𝑥,𝑦) log2 𝑝(𝑥,𝑦)
𝑝1 𝑥 𝑝2(𝑦)
𝑦∈𝑌𝑥∈𝑋
(2.6)
dimana
p(x,y) adalah distribusi probabilitas gabungan dari
variable X dan Y
p1(x) adalah distribusi probabilitas X
p2(y) adalah distribusi probabilitas Y
Dalam cluster labeling, varibel X berhubungan dengan keanggotaan dalam sebuah cluster dan variable Y
berhubungan dengan kehadiran dari sebuah term.
Kedua variable tersebut hanya dapat memiliki nilai 0
atau 1, sehingga persamaan (2.6) dapat ditulis sebagai:
𝑀𝐼 𝐶, 𝑇 = 𝑝(𝐶𝑐 ,𝑇𝑡) log2 𝑝(𝐶𝑐 ,𝑇𝑡)
𝑝 𝐶𝑐 𝑝(𝑇𝑡)
𝑡∈0,1𝑐∈0,1
𝑀𝐼 𝐶, 𝑇 = 𝑝 𝐶1 , 𝑇1 log2 𝑝 𝐶1 ,𝑇1
𝑝 𝐶1 × 𝑝 𝑇1
+𝑝 𝐶1 ,𝑇0 log2 𝑝 𝐶1, 𝑇0
𝑝 𝐶1 × 𝑝 𝑇0
+𝑝 𝐶0, 𝑇1 log2 𝑝 𝐶0,𝑇1
𝑝 𝐶0 × 𝑝 𝑇1
+ 𝑝 𝐶0 ,𝑇0 log2 𝑝 𝐶0,𝑇0
𝑝 𝐶0 × 𝑝 𝑇0
(2.7)
dimana
p(C1) merepresentasikan probabilitas bahwa
sebuah dokumen adalah anggota dari suatu cluster.
p(C0) merepresentasikan probabilitas bahwa
sebuah dokumen bukan anggota dari suatu cluster
p(T1) merepresentasikan probabilitas bahwa
sebuah dokumen mengandung suatu term.
p(T0) merepresentasikan probabilitas bahwa
sebuah dokumen tidak mengandung suatu term.
2.5.3 Laplace Collection Mutual information tidak memperbolehkan jumlah
dokumen pada contingency table berjumlah nol,
karena nilai nol pada salah satu elemen contingency
table akan menyebabkan perhitungan MI
menghasilkan nilai yang tidak terdefinisi.
Laplace correction mengasumsikan bahwa ada
tambahan satu dokumen untuk tiap jumlah dokumen
pada cotingency table. Karena nilai Log2 1 = 0, maka hasil perhitungan nilai MI tidak terdefinisi (N/A) dapat
dihindari.
3 EKSPERIMEN DAN EVALUASI Eksperimen-eksperimen yang diteliti pada penelitian
ini adalah:
1. Performa clustering GA-HAC dengan pemotongan
natural clustering dan pengaruh penggunaan
stopwords dalam proses clustering.
2. Performa cluster labeling dengan algoritma Mutual
Information.
3. Performa algoritma Mutual Information dalam
pendeteksian 10 topik terpopuler dengan hanya
melibatkan 10 cluster dengan jumlah dokumen terbanyak pada tiap hasil clustering.
3.1 Data Eksperimen Sumber data yang digunakan pada eksperimen ini adalah 509 dokumen yang diambil dari aliran berita
selama 48 jam dari tanggal 2011-04-25 jam 14:00
sampai dengan 2011-04-27 jam 13:00 dari situs-situs
berita:
http://nasional.kompas.com/
http://nasional.vivanews.com
http://www.antaranews.com/berita
http://www.republika.co.id/berita/nasional
Dokumen-dokumen berita tersebut telah dibersihkan
dari artefak-artefak seperti navigasi, iklan, tautan
berita lain, komentar, tag html dan lain-lain. Bagian
dokumen berita yang digunakan hanyalah judul dan isi
berita saja, informasi-informasi lain seperti lokasi,
keterkaitan berita berdasarkan tautan-tautan artikel
yang berhubungan, tanggal dan waktu berita tidak
digunakan.
Karena keterbatasan sumber daya manusia untuk
melakukan cluster labeling secara manual, penelitian
ini hanya meneliti data pada jam ke 24, 36 dan 48 saja.
Tabel 3.1 Data Eksperimen
Jam Jumlah Dokumen
24 292
36 288
48 268
3.2 Proses Clustering dan Cluster Labeling
Secara Manual Untuk melakukan evaluasi dan analisa, data-data penelitian melalui proses clustering dan cluster
labeling secara manual.
3.2.1 Proses Clustering Secara Manual Proses clustering secara manual dilakukan oleh 2
orang evaluator yang membaca secara utuh seluruh
509 dokumen berita yang didapatkan pada proses
perolehan data, kemudian secara bersama-sama menujuk tiap dokumen pada tepat satu cluster. Proses
6
clustering secara manual ini menghasilkan 157 cluster
yang kemudian digunakan untuk menentukan tiap
cluster untuk data-data pada jam ke 24, 36 dan 48.
3.2.2 Proses Cluster Labeling Secara Manual Proses cluster labeling secara manual dilakukan oleh 3
orang evaluator yang secara terpisah meneliti tiap
cluster dokumen yang dihasilkan oleh algoritma
clustering otomatis dari data-data jam ke 24, 36 dan
48. Proses ini dilakukan dengan memberikan frasa-
frasa yang dianggap dapat mewakili topik dokumen-
dokumen berita dari tiap cluster sebagai label dari
cluster tersebut. Frasa yang digunakan sebagai cluster
label manual dapat berjumlah lebih dari satu, baik berupa sinonim, singkatan, maupun frasa berbeda yang
secara intuitif sama-sama dapat mewakili topik dari
cluster tersebut. Syarat dari proses cluster labeling
manual ini adalah tiap frasa yang digunakan sebagai
cluster label manual harus terkandung dalam dokumen
berita dari cluster tersebut, syarat ini digunakan karena
sistem tidak akan bisa menghasilkan frasa yang tidak
terkandung pada dokumen manapun didalam cluster.
3.3 Metrik-Metrik Evaluasi Untuk mengukur hasil eksperimen, evaluasi dibagi
menjadi dua bagian, evaluasi clustering dan evaluasi
cluster labeling, kedua evaluasi tersebut mengacu
pada perbandingan relevansi hasil yang dihasilkan
secara otomatis oleh algoritma dengan hasil yang
dilakukan secara manual oleh evaluator manusia.
3.3.1 Evaluasi Hasil Clustering
Untuk mengevaluasi hasil clustering, digunakan empat
metrik evaluasi yaitu purity, precision, recall dan F1-Measure. Perhitungan precision dan recall pada
clustering metrik evaluasi clustering ini menggunakan
metode B-Cubed metric [3].
Purity dihitung dengan:
𝑃𝑢𝑟𝑖𝑡𝑦 =1
𝑛 max
𝑗|𝐶𝑘 ∩𝑀𝑗 |
𝑘
(3.1)
dimana
n adalah jumlah dokumen pada koleksi.
k adalah cluster otomatis
j adalah cluster manual (dari gold standard)
Ck adalah cluster otomatis ke-k
Mj adalah cluster manual ke-j (dari gold standard)
precision dan recall dari tiap dokumen di dihitung
dengan:
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑑𝑖 =𝑀𝑖 ∩ 𝐶𝑖𝐶𝑖
(3.2)
𝑅𝑒𝑐𝑎𝑙𝑙 𝑑𝑖 =𝑀𝑖 ∩𝐶𝑖𝑀𝑖
(3.3)
dimana
Ci adalah cluster otomatis dimana dokumen di
berada
Mi adalah cluster manual dimana dokumen di
berada (dari gold standard)
Seluruh nilai precision dan recall dari tiap dokumen
tersebut kemudian dijumlahkan dan dirata-ratakan
untuk mendapatkan nilai precision dan recall final.
Nilai F1-Measure didapatkan dengan menggabungkan
precision dan recall dengan penghitungan:
𝐹1 = 2 ×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 (3.4)
3.3.2 Evaluasi Hasil Cluster Labeling
Treeratpituk dan Callan [38] mendefinisikan cluster
labeling sebagai masalah ranking deskriptor. Dalam
mengevaluasi cluster labeling, Treeratpituk dan Callan
menggunakan dua definisi dari sebuah label yang
benar: exact match dan partial match dan
menggunakan empat metrik evaluasi: Match@N,
P@N, MRR dan MTRR.
2.5.3.1 Definisi label yang benar Exact Match: Sebuah label L adalah exact match dari
label yang sebenarnya S jika L sama persis atau
merupakan sinonim dari S. Sebagai contoh, untuk S
“motor gede”, L seperti “motor gede” dan “motor
besar” diklasifikasikan sebagai exact match.
Partial Match: Sebuah label L adalah partial match dari label yang sebenarnya S jika L mengandung
paling tidak sebuah term dari S. Sebagai contoh, untuk
S “manajemen analisis proses bisnis”, L seperti
“bisnis”, “proses”, “manajemen bisnis”, “analisis
manajemen” dan “analisis proses bisnis”
diklasifikasikan sebagai partial match.
2.5.3.2 Match at top N results (Match@N) Match@N mengindikasikan apakah N hasil teratas
mengandung label yang benar. Indikator ini bersifat
biner yaitu hanya dapat bernilai 0 atau 1, sehingga jika
ada satu, dua ataupun tiga label pada hasil teratas
merupakan label yang benar, maka nilai Match@N
adalah 1, namun jika sama sekali tidak ada label yang
benar, maka nilai Match@N adalah 0.
2.5.3.3 Precision at top N results (P@N) P@N adalah jumlah label-label pada hasil N teratas
yang cocok dengan label-label yang benar dibagi
dengan N. P@N mengukur persentase dari jawaban
benar yang dihasilkan pada peringkat 1 sampai dengan
N, sehingga, jika ada dua hasil dari lima hasil teratas
(N = 5) yang merupakan label yang benar, maka P@N
bernilai 2/5.
7
Tabel 3.2 Hasil Evaluasi Clustering dengan GA-HAC dan Natural Clustering
Jam Stopwords Purity Precision Recall F1
24
Tanpa Stopwords 0,978 0,977 0,454 0,620
20% Stopwords 0,975 0,974 0,461 0,626
Stopwords Umum 0,978 0,977 0,454 0,620
36
Tanpa Stopwords 0,943 0,924 0,634 0,752
20% Stopwords 0,946 0,928 0,615 0,740
Stopwords Umum 0,946 0,935 0,653 0,769
48
Tanpa Stopwords 0,552 0,447 0,841 0,584
20% Stopwords 0,718 0,628 0,810 0,708
Stopwords Umum 0,545 0,441 0,841 0,579
Rata-Rata
Tanpa Stopwords 0.825 0.783 0.643 0.652
20% Stopwords 0.88 0.844 0.629 0.691
Stopwords Umum 0.824 0.785 0.65 0.656
2.5.3.4 Mean Reciprocal Rank (MRR) Mean reciprocal rank adalah rata-rata dari reciprocal
rank (RR) dari peringkat label benar yang pertama.
Jika label benar yang pertama ada di peringkat ke tiga,
maka RR bernilai 1/3. Jika N respon pertama tidak
mengandung label yang benar, maka RR bernilai 0.
RR bernilai 1 label benar yang pertama ada di
peringkat ke satu.
2.5.3.5 Mean Total Reciprocal Rank (MTRR) Sebuah kategori dapat memiliki lebih dari satu aspek
yang benar, sebagai contoh, kategori "akupuntur dan
pengobatan alternatif" memiliki dua aspek yang benar
yaitu "akupuntur" dan "pengobatan alternatif". Jika
hasil algoritma cluster labeling meranking
"akupuntur" dan "pengobatan alternatif" sebagai label ke 2 dan ke 4, maka nilai total reciprocal rank (TRR)
adalah 1/2 + 1/4 = 3/4 sementara nilai RR adalah 1/2.
3.4 Penilaian Kinerja Hasil Clustering
dengan GA-HAC Pengukuran kinerja hasil clustering dokumen dengan
GA-HAC menggunakan metrik evaluasi Purity,
Precision, Recall dan F1 dengan B-Cubed Metric.
Eksperimen-eksperimen yang dilakukan pada
pengukuran kinerja hasil clustering dengan GA-HAC
adalah:
Tidak digunakannya pembuangan stopwords dalam
clustering (Tanpa Stopwords),
Menggunakan daftar stopword yang digunakan pada
penelitian efek stemming dalam information
retrieval untuk Bahasa Indonesia [27] dengan 357
kata dari corpus Bahasa Indonesia umum
(Stopwords Umum).
Menggunakan daftar stopwords yang diperoleh dari
koleksi seluruh dokumen penelitian dengan 20% term yang paling sering muncul (20% Stopwords).
Berdasarkan hasil evaluasi eksperimen-eksperimen
clustering pada tabel 3.2 diatas, dapat disimpulkan
bahwa:
1. GA-HAC dengan menggunakan stopwords yang
umum tidak memberikan perubahan yang signifikan
dibandingkan dengan GA-HAC tanpa menggunakan
stopwords, ini mengindikasikan penggunaan term
yang terlalu umum sebagai stopwords tidak
memberikan banyak perubahan terhadap
diskriminasi dokumen dibandingkan dengan tidak
menggunakan stopwords sama sekali.
2. GA-HAC dengan menggunakan 20% stopwords term paling sering muncul dari koleksi dokumen
yang diacu dapat memberikan diskriminasi
dokumen yang lebih baik dalam proses clustering
dibandingkan dengan menggunakan stopwords yang
terlalu umum dan tidak menggunakan stopwords
sama sekali.
3. Jumlah cluster yang paling sedikit yang juga hasil
evaluasi yang paling kecil didapatkan pada
clustering data jam ke 48. Hal yang menarik dari
hasil clustering data jam ke 48 ini adalah bahwa
penggunaan 20% stopwords menghasilkan jumlah
cluster yang paling mendekati dibandingkan dengan penggunaan stopwords lain, dimana total cluster
secara manual adalah 84 dan hasil clustering
otomatis dengan 20% stopwords adalah 45, dua kali
lipat dari jumlah cluster yang dihasilkan oleh
penggunaan stopwords yang lain, 20 cluster (tanpa
stopwords) dan 22 cluster (stopwords umum).
4. Hasil clustering dengan 20% stopwords yang
dihasilkan oleh pemotongan dendogram natural
clustering memberikan nilai evaluasi F1 = 0,691
dengan precision = 0,844 dan recall 0,629. Ini
mengindikasikan bahwa hasil clustering yang dihasilkan lebih memenuhi kebutuhan informasi
web surfer umum daripada kebutuhan informasi
intelegent analyst.
8
3.5 Penilaian Kinerja Cluster Labeling Pengukuran kinerja hasil cluster labeling
menggunakan metrik evaluasi cluster labeling
Treeratpituk dan Callan [28] dengan N = 5. Hasil
clustering yang digunakan sebagai acuan dalam
cluster labeling adalah hasil clustering otomatis yang
dihasilkan oleh GA-HAC dengan menggunakan 20%
term yang paling sering muncul sebagai stopwords.
Eksperimen-eksperimen yang dilakukan pada
pengukuran kinerja hasil clustering labeling dengan
MI adalah:
Cluster labeling dengan MI untuk seluruh cluster
hasil GA-HAC
Cluster labeling dengan MI untuk 10 cluster hasil
GA-HAC yang memiliki jumlah dokumen
terbanyak.
3.5.1 Penilaian Kinerja Cluster Labeling
dengan MI untuk seluruh Cluster Penilaian kinerja cluster labeling dengan MI ini
dilakukan untuk seluruh cluster termasuk seluruh
singleton cluster yang dihasilkan oleh algoritma
clustering GA-HAC dengan menggunakan 20%
stopwords. Hasil evaluasi cluster labeling dengan MI
jam ke 24, 36 dan 48 dapat dilihat pada tabel 3.3 sampai tabel 3.5, hasil evaluasi rata-rata dapat dilihat
pada tabel 3.6.
Tabel 3.3 Hasil Evaluasi Cluster Labeling Jam ke-24 Tabel 3.5 Hasil Evaluasi Cluster Labeling Jam ke-48
N = 1 N = 2 N = 3 N = 4 N = 5
Exact Match
Match@N 0,019 0,038 0,050 0,063 0,076
P@N 0,019 0,019 0,016 0,015 0,015
MRR 0,019 0,028 0,032 0,035 0,038
MTRR 0,019 0,028 0,032 0,035 0,038
Partial Match
Match@N 0,246 0,398 0,493 0,550 0,607
P@N 0,246 0,243 0,223 0,216 0,215
MRR 0,246 0,322 0,354 0,368 0,380
MTRR 0,246 0,367 0,428 0,477 0,519
N = 1 N = 2 N = 3 N = 4 N = 5
Exact Match
Match@N 0,244 0,311 0,333 0,377 0,400
P@N 0,244 0,177 0,125 0,105 0,093
MRR 0,244 0,277 0,285 0,296 0,300
MTRR 0,244 0,300 0,307 0,318 0,327
Partial Match
Match@N 0,511 0,644 0,688 0,688 0,777
P@N 0,511 0,422 0,363 0,311 0,306
MRR 0,511 0,577 0,592 0,592 0,610
MTRR 0,511 0,677 0,759 0,798 0,855
Tabel 3.4 Hasil Evaluasi Cluster Labeling Jam ke-36 Tabel 3.6 Hasil Evaluasi Cluster Labeling Rata-rata
N = 1 N = 2 N = 3 N = 4 N = 5
Exact Match
Match@N 0,024 0,049 0,057 0,082 0,090
P@N 0,024 0,024 0,019 0,020 0,018
MRR 0,024 0,037 0,039 0,046 0,047
MTRR 0,024 0,037 0,039 0,046 0,047
Partial Match
Match@N 0,206 0,355 0,429 0,512 0,578
P@N 0,206 0,202 0,173 0,167 0,160
MRR 0,206 0,281 0,305 0,326 0,339
MTRR 0,206 0,305 0,344 0,381 0,408
N = 1 N = 2 N = 3 N = 4 N = 5
Exact Match
Match@N 0,079 0,094 0,124 0,150 0,162
P@N 0,079 0,050 0,043 0,041 0,036
MRR 0,079 0,086 0,096 0,103 0,105
MTRR 0,079 0,090 0,100 0,108 0,112
Partial Match
Match@N 0,329 0,465 0,592 0,655 0,708
P@N 0,329 0,294 0,299 0,296 0,288
MRR 0,329 0,397 0,440 0,455 0,466
MTRR 0,329 0,459 0,562 0,634 0,685
Gambar 3.1 Grafik Hasil Evaluasi Cluster Labeling Rata-rata
0
0.2
0.4
0.6
0.8
1
Match@N (Exact)
P@N (Exact)
MRR (Exact)
MTRR (Exact)
Match@N (Partial)
P@N (Partial)
MRR (Partial)
MTRR (Partial)
N = 1
N = 2
N = 3
N = 4
N = 5
9
Tabel 3.7 Sampel Hasil Cluster Labeling Jam ke-48
Cluster Nomor dan Judul Dokumen Berita Cluster Label
Manual
Cluster Label
Otomatis
Cluster 1
1 Penanganan Lamban, NII Berkembang
1. NII
2. Negara
Islam
Indonesia
1. NII
2. NKRI
3. Kampus
4. Mahasiswa
5. Otak
2 Pemerintah Diharapkan Tegas Atasi NII
3 Polisi Sudah Petakan Kantong-kantong NII
4 NII Beraksi di Pinggiran Jakarta. Polda Sebar Intel
5 Waspadalah, Ini Kantong NII di Jakarta
6 NII Jangan Hanya Dibebankan kepada Polri
... ...
28 Kementerian Agama Redam Radikalisme Agama
29 PMII Tolak Ideologisasi Negara Islam
30 PBNU : Radikalisme di Indonesia Sudah "Lampu Merah"
31 PBNU : Perlu UU Antiterorisme yang Lebih Tajam
Cluster 2
1 Dulu Bertanding, Kini Bersanding....
1. Edhie
Baskoro
Yudhoyono
2. Siti Ruby
Aliya Rajasa
1. Edhie
Baskoro
Yudhoyono
2. Siti Rubi
Aliya
Rajasa
3. Hatta 4. Ibas
5. Pertunangan
2 'Jangan Kaitkan Besanan SBY-Hatta dengan Politik'
3 "Pertunangan Jangan Dikaitkan Politik!"
4 Ibas-Aliya Bukan Perjodohan Politik
5 Pernikahan Ibas-Aliya Hasil Perjodohan Politik?
... ...
27 Pengamanan di Kediaman Hatta Diperketat
28 Acara Ibas-Aliya Bernuansa Pesta Kebun
29 Saat Dirias, Aliya Degdegan
... ... ... ... ...
Cluster 14
1 Diknas: Tidak Ada Peserta UN Susulan Bojonegoro
1. UN
2. Ujian
Nasional
1. UN
2. Sekolah
3. Siswa
4. SMP 5. Kabupaten
2 312 Peserta UN di Jember Mengundurkan Diri
3 Ikut Ujian Nasional, Siswa SMP Barut Carter Kapal
4 Disdik Bekasi Jamin Tidak Ada Kebocoran Soal
5 Konflik SMA 70 Bulungan Sampai ke Pengadilan
6 Mendiknas: 20 Daerah Belum Salurkan BOS
... ... ... ... ...
Dari hasil-hasil evaluasi rata-rata pada Tabel 3.6 diatas dapat disimpulkan bahwa:
1. Nilai rata-rata exact match Match@N untuk N = 1
adalah 0,0791 dan nilai rata-rata partial match
Match@N untuk N = 1 adalah 0,3297. Ini artinya
untuk 100 cluster, dari 100 cluster label peringkat
pertama yang dihasilkan secara otomatis oleh
algoritma MI, algoritma ini secara rata-rata dapat
memprediksi dengan benar label untuk 7,91
cluster secara exact match dan 32,97 cluster secara partial match.
2. Nilai rata-rata exact match Match@N untuk N = 5
adalah 0,1620 dan nilai rata-rata partial match
Match@N untuk N = 5 adalah 0,7081. Ini artinya
untuk 100 cluster, dari 500 cluster label peringkat
teratas yang dihasilkan secara otomatis oleh
algoritma MI, algoritma ini secara rata-rata dapat
memprediksi dengan benar label untuk 16,2
cluster secara exact match dan 70,81 cluster
secara partial match.
3. Kualitas label rata-rata yang dihasilkan dari hasil
diatas dilihat dari nilai evaluasi P@N. Nilai exact
match P@N untuk N = 5 adalah 0,0368 dan nilai partial match P@N untuk N = 5 adalah 0,2880.
Ini artinya untuk 100 cluster, dari seluruh 500
cluster label yang dihasilkan secara otomatis oleh
algoritma MI, algoritma ini secara rata-rata dapat
menghasilkan 18,4 cluster label yang benar secara
exact match dan 144 cluster label yang benar
secara partial match.
4. Dari perbandingan antara jumlah cluster dengan
hasil yang diberikan oleh algoritma dari
eksperimen ini, algoritma MI tidak memberikan
hasil yang memuaskan.
Adapun hal yang menarik pada eksperimen ini adalah
hasil evaluasi cluster labeling pada jam ke 48, dimana
hampir seluruh metrik evaluasi bernilai lebih besar
dibandingkan dengan hasil evaluasi cluster labeling
pada jam ke 24 dan 36. Perbedaan yang cukup
signifikan dari hasil evaluasi cluster labeling pada jam
ke 48 ini ditambah lagi dengan perbedaan pada hasil
evaluasi clustering, dimana pada hasil evaluasi
clustering data jam ke 48 menunjukkan nilai evaluasi
10
yang paling kecil dibandingkan dengan data pada jam-
jam lainnya.
Perbedaan ini juga terjadi pada jumlah cluster yang
dihasilkan, dimana pada jam tersebut, jumlah cluster yang dihasilkan lebih sedikit dibandingkan dengan
data pada jam lainnya. Hal tersebut menyebabkan tiap
cluster pada jam ke 48 secara umum memiliki jumlah
dokumen yang lebih banyak dibandingkan dengan
hasil clustering pada jam-jam lainnya, jumlah
dokumen yang lebih banyak memungkinkan
pendeteksian frasa utama dapat dilakukan dengan
lebih baik karena jumlah frasa-frasa utama dari tiap
dokumen pada tiap cluster tersebut jumlahnya lebih
banyak. Untuk meneliti hal ini lebih mendalam,
dilakukan ekperimen lanjutan yang hanya
menggunakan 10 cluster dengan jumlah dokumen terbanyak dari tiap data jam ke 24, 36 dan 48.
3.5.2 Penilaian Kinerja Cluster Labeling
dengan MI untuk 10 Cluster Teratas Mayoritas cluster yang dihasilkan oleh proses
clustering otomatis GA-HAC berjenis singleton cluster, yaitu cluster yang hanya terdiri dari satu
dokumen berita dan umumnya merupakan dokumen
berita dengan topik yang tidak populer. Singleton
cluster yang hanya terdiri dari satu dokumen saja
memiliki jumlah frasa utama yang sedikit, hal tersebut
membuat penentuan frasa utama sebagai cluster label
secara otomatis sulit dilakukan. Untuk itu dilakukan
eksperimen lanjutan dengan meneliti kemampuan MI
dalam cluster labeling secara otomatis untuk hanya 10 cluster dengan jumlah dokumen terbanyak. Statistik
jumlah dokumen untuk 10 cluster dengan jumlah
dokumen terbanyak tersebut adalah:
Tabel 3.8 Jumlah dokumen untuk 10 Cluster dengan
jumlah dokumen terbanyak
Jam 10 Cluster Seluruh Cluster
24 75 292
36 96 288
48 175 268
Eksperimen-eksperimen yang sama dilakukan seperti
pada pengukuran hasil kinerja cluster labeling untuk
seluruh cluster dari hasil clustering dengan GA-HAC. Hasil eksperimen cluster labeling dengan MI jam ke
24, 36 dan 48 dapat dilihat pada tabel 3.9 sampai
dengan tabel 3.11, hasil eksperimen rata-rata dapat
dilihat pada tabel 3.12.
Tabel 3.9 Hasil Evaluasi Cluster Labeling Jam ke-24 Tabel 3.11 Hasil Evaluasi Cluster Labeling Jam ke-48
N = 1 N = 2 N = 3 N = 4 N = 5
Exact Match
Match@N 0,1 0,2 0,2 0,3 0,3
P@N 0,1 0,1 0,067 0,075 0,06
MRR 0,1 0,15 0,15 0,175 0,175
MTRR 0,1 0,15 0,15 0,175 0,175
Partial Match
Match@N 0,5 0,8 0,9 0,9 0,9
P@N 0,5 0,5 0,4 0,375 0,34
MRR 0,5 0,65 0,683 0,683 0,683
MTRR 0,5 0,75 0,816 0,891 0,931
N = 1 N = 2 N = 3 N = 4 N = 5
Exact Match
Match@N 0,5 0,7 0,7 0,7 0,7
P@N 0,5 0,45 0,3 0,225 0,18
MRR 0,5 0,6 0,6 0,6 0,6
MTRR 0,5 0,7 0,7 0,7 0,7
Partial Match
Match@N 0,8 0,9 0,9 0,9 0,9
P@N 0,8 0,75 0,567 0,425 0,38
MRR 0,8 0,85 0,85 0,85 0,85
MTRR 0,8 1,15 1,216 1,216 1,256
Tabel 3.10 Hasil Evaluasi Cluster Labeling Jam ke-36 Tabel 3.12 Hasil Evaluasi Cluster Labeling Rata-Rata
10 Cluster Teratas
N = 1 N = 2 N = 3 N = 4 N = 5
Exact Match
Match@N 0,1 0,2 0,4 0,4 0,4
P@N 0,1 0,1 0,133 0,1 0,08
MRR 0,1 0,15 0,216 0,216 0,216
MTRR 0,1 0,15 0,216 0,216 0,216
Partial Match
Match@N 0,6 0,7 0,9 0,9 0,9
P@N 0,6 0,45 0,367 0,35 0,28
MRR 0,6 0,65 0,716 0,716 0,716
MTRR 0,6 0,75 0,816 0,891 0,891
N = 1 N = 2 N = 3 N = 4 N = 5
Exact Match
Match@N 0,233 0,366 0,433 0,466 0,466
P@N 0,233 0,216 0,166 0,133 0,106
MRR 0,233 0,3 0,322 0,330 0,330
MTRR 0,233 0,333 0,355 0,363 0,363
Partial Match
Match@N 0,633 0,8 0,9 0,9 0,9
P@N 0,633 0,566 0,444 0,383 0,333
MRR 0,633 0,716 0,75 0,75 0,75
MTRR 0,633 0,883 0,95 1 1,026
11
Gambar 3.2 Grafik Hasil Evaluasi Cluster Labeling Rata-Rata 10 Cluster Teratas
Berdasarkan hasil eksperimen untuk menemukan frasa
utama pada 10 cluster dengan jumlah dokumen berita
terbanyak dapat disimpulkan bahwa:
1. Nilai rata-rata exact match Match@N untuk N = 1
adalah 0,2333 dan nilai rata-rata partial match
Match@N untuk N = 1 adalah 0,6333. Ini artinya untuk 10 cluster, dari 10 cluster label peringkat
pertama yang dihasilkan secara otomatis oleh
algoritma MI, algoritma ini secara rata-rata dapat
memprediksi dengan benar label untuk 2,333
cluster secara exact match dan 6,333 cluster
secara partial match.
2. Nilai rata-rata exact match Match@N untuk N = 5
adalah 0,4667 dan nilai rata-rata partial match
Match@N untuk N = 5 adalah 0,9. Ini artinya
untuk 10 cluster, dari 50 cluster label peringkat
teratas yang dihasilkan secara otomatis oleh
algoritma MI, algoritma ini secara rata-rata dapat memprediksi dengan benar label untuk 23,335
cluster secara exact match dan 45 cluster secara
partial match.
3. Kualitas label rata-rata yang dihasilkan dari hasil
diatas dilihat dari nilai evaluasi P@N. Nilai exact
match P@N untuk N = 5 adalah 0,1067 dan nilai
partial match P@N untuk N = 5 adalah 0,3333.
Ini artinya untuk 10 cluster, dari seluruh 50
cluster label yang dihasilkan secara otomatis oleh
algoritma MI, algoritma ini secara rata-rata dapat
menghasilkan 5,335 cluster label yang benar secara exact match dan 16,65 cluster label yang
benar secara partial match.
4. Secara umum, nilai-nilai evaluasi cluster labeling
membaik pada eksperimen dengan 10 cluster
dengan jumlah dokumen terbanyak, namun sama
seperti pada eksperimen cluster labeling untuk
seluruh cluster, nilai terbesar evaluasi didapatkan
pada data jam ke 48 yang jumlah dokumen pada
10 cluster teratasnya rata-rata berjumlah dua kali
lipat dibandingkan data pada jam-jam lainnya. Hal
ini menunjukkan bahwa jumlah dokumen memiliki pengaruh dalam algoritma cluster
labeling dengan Mutual Information dan
performanya lebih baik saat jumlah dokumen
yang terkandung pada tiap cluster yang diproses
cukup banyak.
4 KESIMPULAN DAN SARAN
4.1 Kesimpulan Berdasarkan hasil penelitian, dapat disimpulkan
beberapa hal berikut:
1. Algoritma GA-HAC dengan TF-IDF, Vector
Space Model, Cosine Similarity, penggunaan 20%
stopwords dan Natural Clustering dapat
menghasilkan sekumpulan cluster yang berisi
dokumen dengan topik berita yang sama dengan
rata-rata nilai evaluasi F1 = 0,691 dengan
precision = 0,844 dan recall 0,629. Ini mengindikasikan bahwa hasil clustering yang
dihasilkan lebih memenuhi kebutuhan informasi
web surfer umum daripada kebutuhan informasi
intelegent analyst.
2. Pemilihan frasa-frasa calon cluster label dengan
frasa kata benda hasil Part-of-Speech Tagger dan
algoritma Mutual Information yang
dikombinasikan dengan Laplace Correction dapat
digunakan untuk menghasilkan cluster label yang
merepresentasikan dokumen-dokumen berita dari
tiap cluster dan bekerja paling baik saat jumlah dokumen berita yang terkandung didalamnya
cukup banyak.
3. Jika topik-topik terpopuler ditentukan dengan
jumlah dokumen yang terkandung pada tiap
cluster, maka kombinasi algoritma-algoritma yang
digunakan pada penelitian ini dapat digunakan
untuk mendefinisikan topik-topik berita
terpopuler saat itu, selain itu, dengan
digunakannya time window dan segmentasi
koleksi dokumen, kebutuhan dalam pendefinisian
topik-topik terpopuler dapat dilakukan secara
dinamis baik untuk per-hari, per-minggu, per-bulan dan lain-lain.
00.20.40.60.8
11.2
Match@N (Exact)
P@N (Exact)
MRR (Exact)
MTRR (Exact)
Match@N (Partial)
P@N (Partial)
MRR (Partial)
MTRR (Partial)
N = 1
N = 2
N = 3
N = 4
N = 5
12
4.2 Saran Solusi yang dikembangkan pada penelitian masih
belum sempurna dan dapat dikembangkan dengan
penelitian-penelitian lanjutan. Adapun beberapa hal
yang disarankan untuk penelitian lanjutan mengenai
hal ini adalah:
1. Karena jumlah dokumen berpengaruh dalam
menentukan hasil cluster labeling, maka
disarankan untuk menggunakan jumlah dokumen
yang lebih banyak pada penelitian lanjutan
mengenai cluster labeling. 2. Penentuan frasa-frasa calon cluster label pada
penelitian ini dilakukan secara sederhana, yaitu
dengan mengikut sertakan token yang memiliki
kelas kata NN atau NNP dari hasil Part-Of-
Speech Tagger Penentuan frasa-frasa calon cluster
label yang sederhana ini dapat menyebabkan
frasa-frasa kata benda yang bukan merupakan
frasa penting disertakan sebagai calon cluster
label. Salah satu pengembangan yang dapat
dilakukan untuk menentukan frasa-frasa calon
cluster label adalah dengan menggunakan algoritma Named Entity Recognizer.
3. Penggunaan frasa-frasa untuk mewakili suatu
topik kadang tidak cukup untuk menjelaskan isi
dokumen-dokumen berita pada suatu cluster
kepada pembaca berita, dibutuhkan deskripsi
lebih mendetail berupa sebuah kalimat singkat
sehingga penjelasan isi dokumen-dokumen berita
dapat dilakukan dengan lebih baik. Salah satu
solusi yang dapat dikembangkan untuk
permasalahan ini adalah dengan mengaplikasikan
algoritma document summarizer pada tiap cluster
dokumen. 4. Penggunaan time window yang tidak menyertakan
dokumen-dokumen yang melebihi batas waktu
kadaluarsa menyebabkan tidak disertakannya
dokumen-dokumen tersebut dalam hasil
clustering. Ini menyebabkan hilangnya informasi
masa lampau mengenai topik tersebut sehingga
penelusuran topik pada dokumen masa lampau
tidak dapat dilakukan. Salah satu solusi yang
dapat dikembangkan untuk mengatasi
permasalahan ini adalah dengan menggunakan
pembobotan term yang berkurang secara berkala, dimana dokumen-dokumen pada masa lampau
diberikan faktor pembobotan yang lebih kecil
dibandingkan dengan dokumen-dokumen yang
lebih baru.
DAFTAR PUSTAKA
[1] Allan, James; Carbonell, Jaime; Doddington,
George; Yamron, Jonathan; & Tang, Yiming.
1998. Topic Detection and Tracking Pilot Study
Final Report. Proceedings of the DARPA
Broadcast News Transcription and
Understanding Workshop. 194-128.
[2] Arifin, Agus Zainal; & Setiono, Ari Novan. 2007.
Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan algoritma Single
Pass Clustering. Surabaya, Indonesia: Institut
Teknologi Sepuluh November.
[3] Bagga, Amit; & Baldwin, Breck. 1998. Algorithms
for Scoring Coreference Chains. In The First
International Conference on Language
Resources and Evaluation Workshop on
Linguistics Coreference, pp. 563-566.
[4] Brants, Thorsten; Chen, Frencine; & Farat, Ayman.
2005. A System for New Event Detection.
California, USA: Palo Alto Research Center.
[5] Bun, Khoo Khyou; & Ishizuka, Mitsuru. 2006.
Emerging Topic Tracking System. Japan: The
University of Tokyo.
[6] Chun, Seokkyung; Jun Jongeun; & Mc Leod,
Dennis. 2006. Incremental Mining for News Stream. USA: University of Southern
California.
[7] Ernawati, Sari; Ardiyanti, Arie ST, MT; &
Setiawan, Erwin Budi. 2009. Klusterisasi
Dokumen Berita Berbahasa Indonesia
Menggunakan Document Index Graph.
Yogyakarta, Indonesia: Seminar Nasional
Aplikasi Teknologi Informasi 2009 (SNATI
2009).
[8] Gustafsson, Johan. 2009. New Methods for
Generation and Evaluation of Text Cluster
Descriptions. Master’s Thesis, Royal Institute
of Technology, Stockholm, Sweeden.
[9] Han, Jiawei; & Kamber, Micheline. 2006. Data
Mining Concept and Techniques. San
Fransisco, USA: Morgan Kaufmann Publisher.
[10] Hastie, Trevor; Tibshirani, Robert; Friedman,
Jerome (2010) “The Elements of Statistical
Learning: Data Mining, Inference and
Prediction”. 2nd Edition, Springer.
[11] Hu, Meishan; Sun, Aixin; & Lim, Ee-Peng. 2008.
Event Detection with Common User Interest.
Napa Valey, California, USA: WIDM 2008.
[12] Huang, Anna. 2008. Similarity Measures for Text
Document Clustering. Christchurch, New
Zealand: Departement of Computer Science,
The University of Waikato, NZCSRSC 2008.
[13] Huang, Chong; Tian, Yonghong; Zhou, Zhi; Ling,
Charles X.; & Huang, Tiejun. 2006. Keyphrase
Extraction using Semantic Networks Structure
Analysis. Proceedings of the sixth IEEE
13
International Conference on Data Mining
(ICDM 2006), Hong Kong, 2006., pp. 257-284,
IEEE press.
[14] Jain, A.K; & Dubes, R.C. 1988. Algorithm for Clustering Data. Prentice Hall Advance
Reference Series. Prentice Hall.
[15] Kontostathis, April; Galitsky, Leon M.;
Pottenger; William M.; Roy, Soma; & Phelps,
Daniel J. 1999. A Survey of Emerging Trend
Detection in Textual Data Mining. Michael
Berry (Editor), Springer-Verlag, 2003.
[16] Leuski, Anton; & Allan, James. 2002. Improving Realism of Topic Tracking Evaluation.
Tampere, Finland: SIGIR 2002.
[17] Manning, Christopher D.; Raghavan, Prabhakar;
& Schütze, Hinrich. 2009. An Introduction to
Information Retrieval. Cambridge, England:
Cambridge University Press.
[18] Nunes, Marcelo; Cabral, Luciano; Lima, Rinaldo;
Freitas, Fred; Rienaldo, Guilherme; & Prudêncio, Ricardo. 2008. Docs-Clustering: A
System for Hierarchical Clustering and
Document Labeling. Proceedings I Workshop
on Web and Text Intelligence 2008.
[19] Osiński, Stanislaw; Stefanowski, Jerzy; & Weiss,
Dawid. 2004. Lingo: Search Results Clustering
Algorithm Based on Singular Value
Decomposition. Proceedings of the
International Conference on Intelligent Information Systems (IIPWM), 2004.
[20] Pon, Raymond K.; Buttler, David; & Critchlow,
Terence. 2007. Tracking Multiple Topics for
Finding Interesting Articles. San Jose,
California, USA: KDD 2007.
[21] Rijsbergen, Keith van. 2004. The Geometry of
Information Retrieval. New York, USA:
Cambridge University Press.
[22] Roy, Soma; Gevry, David; & Pottenger, William
M. 2006. Methodologies for Trend Detection in
Textual Data Mining. USA: Leight University.
[23] Salton, G; Wong, A; & Yang, C.S. 1975. A
Vector Space Model for Automatic Indexing.
Communication of the ACM, Information
Retrieval and Language Processing, C.A. Montgomery Editor.
[24] Salton, Gerard; & Buckley, Christopher. 1988,
Term-Weighting Aproaches in Automatic Text
Retrieval. Ithaca, USA: Departement of
Computer Science, Cornell University.
[25] Smet, Wim De; & Moens, Marie-Francine. 2009.
An Aspect Based Document Representation for
Event Clustering. Proceedings of the 19th
Meeting of Computational Linguistics in the
Netherlands.
[26] Sukini. 2010. Sintaksis: Sebuah Panduan Praktis.
Yuma Pustaka, Kadipro, Surakarta.
[27] Tala, Fadilla Z. 2003. A Study of Stemming Effect
on Information Retrieval in Bahasa Indonesia.
Master’s thesis, University of Amsterdam.
[28] Treeratpituk, Pucktada; & Callan, Jamie. 2006.
Automatic Labeling Hierarchical Clusters. Proceedings of the 2006 International
Conference on Digital Government Research,
pp. 167-176, New York, NY, USA.
[29] Turney, Peter D. 2001. Learning Algorithms for
Keyphrase Extraction. NRC Publication
Archive. Published in J. Information Retrieval,
2(4): 303-336; 2000. NCR 44105. National
Research Council of Canada.
[30] Wang, Canhiu; Zhang, Min; Ma, Shaoping; &
Ru, Liyun. 2008. Automatic Online News Issue
Construction in Web Environment. Beijing,
China: State Key Lab of Intelligent Technology
& Systems, Tainghua National Laboratory for
Information Science and Technology, CS&T
Departement, Tainghua University.
[31] Wibisono, Yudi; & Khodra, Masayu Leyla. 2006.
Clustering Berita Berbahasa Indonesia. Jurnal FPMIPA UPI dan KK Informatika ITB.
Bandung, Indonesia.
[32] Wicaksono, Alfan Farizki; & Purwanti, Ayu.
2010. HMM Based Part-of-Speech Tagger for
Bahasa Indonesia. Proceedings The Forth
International MALINDO Workshop. Jakarta,
Indonesia.
[33] Zhao, Ying; & Karyapis, George. 2002. Evaluation of Hierarchical Clustering
Algorithm for Document Datasets. McLean,
Virginia, USA: CIKM 2002.
[34] Zhao, Ying; & Karyapis, George. 2002. Criterion
Functions for Document Clustering,
Experiment and Analysis. Minneapolis, USA:
Departement of Computer Science, University
of Minnesota / Army HPC Research Center.