tesis ki142502 pemilihan kata kunci untuk deteksi...
TRANSCRIPT
TESIS – KI142502
PEMILIHAN KATA KUNCI UNTUK DETEKSI KEJADIAN TRIVIAL MENGGUNAKAN AUTOCORRELATION WAVELET COEFFICIENTS PADA PERINGKASAN DOKUMEN TWITTER RIZAL SETYA PERDANA NRP. 5113201020 DOSEN PEMBIMBING: Dr.Eng. Chastine Fatichah, S.Kom, M.Kom. Diana Purwitasari, S.Kom, M.Sc. PROGRAM MAGISTER JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INFORMASI INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2015
ii
PEMILIHAN KATA KUNCI UNTUK DETEKSI KEJADIAN
TRIVIAL MENGGUNAKAN AUTOCORRELATION WAVELET
COEFFICIENTS PADA PERINGKASAN DOKUMEN
TWITTER Nama mahasiswa : Rizal Setya Perdana
NRP : 5113201020
Pembimbing : Dr.Eng. Chastine Fatichah, S.Kom, M.Kom.
Diana Purwitasari, S.Kom, M.Sc.
ABSTRAK
Sistem peringkasan multi-dokumen (Multi-document Summarization) pada
microblog Twitter tengah menjadi perhatian para peneliti beberapa tahun terakhir.
Proses peringkasan dilakukan pada kumpulan dokumen Twitter (tweet) yang
merepresentasikan kejadian penting (non-trivial) bertujuan untuk mendapatkan inti
kejadian dari kumpulan dokumen tersebut. Permasalahan yang mendasari
dilakukannya peringkasan tweet adalah pengguna harus membaca sejumlah tweet
secara manual untuk memahami suatu kejadian (event), sedangkan pengguna
Twitter memiliki batasan waktu untuk membaca seluruh tweet terkait kejadian.
Pemisahan kejadian biasa (trivial) dengan kejadian penting (non-trivial) dilakukan
untuk mengeliminasi tweet trivial sehingga dapat meningkatkan kualitas hasil
peringkasan kejadian. Salah satu cara untuk menentukan suatu kejadian dianggap
sebagai kejadian trivial dapat dilakukan dengan melakukan pemilihan kata kunci
yang dianggap merepresentasikan kejadian trivial. Kejadian yang berulang secara
periodik dianggap sebagai suatu kejadian trivial.
Pendeteksian kejadian dilakukan dengan memanfaatkan pola-pola temporal
atau sinyal dari data Twitter dalam bentuk sinyal wavelet untuk mendeteksi
kemunculan kejadian penting. Wavelet analysis merupakan metode yang sering
digunakan untuk mendeteksi perubahan dan puncak pada sinyal sehingga dapat
dimanfaatkan untuk mendeteksi kemunculan suatu kejadian pada Twitter. Namun
pendekatan tersebut tidak menjamin apakah kejadian-kejadian yang dideteksi
merupakan kejadian yang berulang secara periodik atau tidak. Pada penelitian ini
diajukan sebuah cara pendeteksian terhadap kejadian berulang secara periodik
dengan melakukan pemilihan kata kunci trivial berdasarkan perhitungan korelasi
(autocorrelation) pada wavelet coefficient kata kunci. Setelah mendapatkan kata
kunci trivial maka dilakukan eliminasi terhadap tweet yang mengandung kata kunci
trivial. Peringkasan multi-dokumen Twitter berdasarkan metode clustering tweet
dilakukan untuk mengelompokkan kejadian yang sama kedalam sebuah cluster.
Pemilihan kata kunci trivial tersebut pada peringkasan tweet diharapkan mampu
memilih kejadian penting sehingga dapat meningkatkan kualitas hasil ringkasan.
Penelitian menunjukkan bahwa nilai confidence boundary yang digunakan
adalah sebesar 0.20 dan nilai minimum korelasi 27 untuk mendapatkan kata kunci
trivial. Hasil clustering yang didahului proses eliminasi kata kunci trivial
menghasilkan akurasi lebih baik yaitu 12 cluster dengan nilai sihlouette sebesar
0.45.
Kata kunci: peringkasan, autocorrelation, Twitter, event detection, K-Medoids
iii
KEYWORDS SELECTION
FOR DETECTING TRIVIAL EVENTS USING
AUTOCORRELATION WAVELET COEFFICIENTS IN
TWITTER DOCUMENT SUMMARIZATION Student Name : Rizal Setya Perdana
Student Identity Number : 5113201020
Supervisors : Dr.Eng. Chastine Fatichah, S.Kom, M.Kom.
Diana Purwitasari, S.Kom, M.Sc.
ABSTRACT
Multi-document summarization system on Twitter is a new topic of
researchers in recent years. One of summarization is applied in Twitter's document
(tweets) to the results of the detection of a significant event (non-trivial) to obtain
information that includes a collection of tweets that represents an event. Underlying
issues does summarization is needed in tweet because Twitter's users should read
manually to understand from an event, whereas Twitter users have limit time to read
all related tweets.
Separation of normal incidence (trivially) with important events (nontrivial)
done to eliminate the trivial tweets in order to improve the quality of the results of
summarization of events. One way to determine an important event or not can be
done by choosing keywords that are considered to represent an important event.
Periodically recurring events regarded as a trivial incident that required a special
method to detect the occurrence of such events for the next eliminated.
Event detection is done by exploiting temporal patterns or signals of Twitter
data in the form of signal wavelet to detect the emergence of important events.
Wavelet analysis is a method often used to detect changes and peaks in the signal
so it can be used to detect the occurrence of an event on Twitter. However, such
approaches do not guarantee whether the detected events are periodically recurring
events or not.
This study aimed at detecting the occurrence of a repeated periodically for
important events keyword selection by calculating the correlation (autocorrelation)
in the wavelet coefficients in multi-document peringkasan Twitter tweets based
clustering methods. The selection of the keywords in a tweet peringkasan expected
to choose important events so as to improve the quality of the summaries.
Keywords: multi-document summarization, event detection, Twitter, K-Medoids,
clustering keyword phrase.
iv
DAFTAR ISI
halaman
JUDUL ……...…………….………………………………………………………………i
ABSTRAK .............................................................................................................. ii
ABSTRACT .......................................................................................................... iiii
DAFTAR ISI ......................................................................................................... iiv
DAFTAR GAMBAR ............................................................................................ vii
DAFTAR TABEL .................................................................................................. ix
BAB 1 PENDAHULUAN ....................................................................................... 1
1.1 Latar Belakang ...................................................................................... 1
1.2 Perumusan Masalah............................................................................... 3
1.3 Tujuan dan Manfaat Penelitian ............................................................. 3
1.4 Batasan Penelitian ................................................................................. 4
BAB 2 DASAR TEORI ........................................................................................... 5
2.1 Peringkasan Teks Otomatis ................................................................... 5
2.2 Clustering .............................................................................................. 6
2.3 K-medoids.............................................................................................. 7
2.4 Clustering Dokumen Twitter ................................................................ 8
2.5 Ekstraksi Fitur Tweet pada Cluster ....................................................... 8
2.6 Deteksi Kejadian pada Twitter .............................................................. 9
2.7 Wavelet Analysis................................................................................. 11
2.8 Wavelet Autocorrelation ..................................................................... 13
BAB 3 METODOLOGI PENELITIAN................................................................. 15
3.1 Studi Literatur ..................................................................................... 15
3.2 Desain Model Sistem .......................................................................... 16
3.2.1 Fase Text Preprocessing .......................................................... 16
3.2.2 Fase Transformasi Teks Frekuensi Kata Kunci tiap Periode .. 16
3.2.3 Fase Transformasi Sinyal Wavelet Kata Kunci ...................... 19
3.2.4 Fase Clustering Tweet dengan K-medoids .............................. 21
3.2.5 Fase Pemilihan Kalimat Representatif .................................... 21
3.2.6 Fase Penyusunan Ringkasan ................................................... 21
v
3.3 Pembuatan Perangkat Lunak ............................................................... 21
3.4 Skenario Uji coba ................................................................................ 22
3.5 Metode Evaluasi .................................................................................. 24
BAB 4 HASIL DAN PEMBAHASAN.................................................................. 27
4.1 Implementasi Metode .......................................................................... 27
4.1.1 Implementasi Fase Text Preprocessing ................................... 27
4.1.2 Implementasi Fase Transformasi Wavelet Kata Kunci ........... 29
4.1.3 Implementasi Fase Autocorrelation Wavelet .......................... 29
4.1.4 Implementasi Fase Clustering Teks Tweet ............................. 30
4.1.5 Implementasi Fase Peringkasan Tweet ................................... 32
4.2 Data Ujicoba ........................................................................................ 33
4.3 Hasil dan Ujicoba ................................................................................ 36
4.3.1 Ujicoba 1: Pengujian Autocorrelation Wavelet Kata Kunci ... 37
4.3.2 Ujicoba 2: Pengukuran Kualitas Clustering dan Peringkasan . 42
4.4 Analisa dan Pembahasan ..................................................................... 47
4.4.1 Analisa Pemilihan Kata Kunci Kejadian Trivial ..................... 47
4.4.2 Analisa Pengelompokan Tweets dan Peringkasan .................. 48
BAB 5 KESIMPULAN DAN SARAN ................................................................. 51
DAFTAR PUSTAKA ............................................................................................ 53
LAMPIRAN 1- Word Frequency (WF) ................................................................ 57
LAMPIRAN 2(A) - Urutan Kata Berdasar Nilau Autocorrelation (cb=0.05) ....... 62
LAMPIRAN 2(B) - Urutan Kata Berdasar Nilau Autocorrelation (cb=0.10) ....... 64
LAMPIRAN 2(C) - Urutan Kata Berdasar Nilau Autocorrelation (cb=0.15) ....... 66
LAMPIRAN 2(D) - Urutan Kata Berdasar Nilau Autocorrelation (cb=0.20) ....... 68
LAMPIRAN 2(E) - Urutan Kata Berdasar Nilau Autocorrelation (cb=0.25) ....... 70
LAMPIRAN 3(A) - Gambar Wavelet dan Correlogram Kata Kunci (koef > 50) 72
LAMPIRAN 3(B) - Gambar Wavelet dan Correlogram Kata Kunci (koef < 10) 74
LAMPIRAN 4.(A) -Sampel Tweet (Melalui Tahap Preproses,tanpa Eliminasi) .. 75
LAMPIRAN 4.(B) -Sampel Tweet (Melalui Tahap Preproses,dengan Eliminasi) 77
LAMPIRAN 5.(A) – Hasil Percobaan untuk Optimasi Nilai k Pada Tweet dengan
Eliminasi Kata Kunci Trivial ................................................................................. 79
vi
LAMPIRAN 5.(B) – Hasil Percobaan untuk Optimasi Nilai k Pada Tweet tanpa
Eliminasi Kata Kunci Trivial ................................................................................. 82
LAMPIRAN 6 – Kuesioner Hasil Peringkasan oleh Responden ........................... 83
LAMPIRAN 7 – Groundtruth dan Hasil Peringkasan ........................................... 86
vii
DAFTAR GAMBAR
halaman
Gambar 2.1 Ilustrasi Clustering Data ..................................................................... 6
Gambar 2.2 Wavelet Kata Kunci 'pagi' ................................................................. 13
Gambar 2.3 Correlogram kejadian yang berulang secara periodik ....................... 14
Gambar 3.1 Alur metodologi penelitian................................................................ 15
Gambar 3.2 Framework peringkasan dokumen twitter dengan mendeteksi kejadian
trivial untuk pemilihan kata kunci ........................................................................ 17
Gambar 3.3 Flowchart transformasi teks menjadi frekuensi kata kunci tiap periode
waktu ..................................................................................................................... 18
Gambar 3.4 Flowchart clustering dokumen twitter dengan menggunakan
algoritma K-medoids ............................................................................................. 20
Gambar 4.1 Format dokumen tweets sebagai dataset ujicoba .............................. 28
Gambar 4.2 Potongan Kode Program untuk Fase Text Preprocessing ................. 28
Gambar 4.3 Potongan Kode Program untuk Fase Transformasi Wavelet ............ 29
Gambar 4.4 Potongan Kode Program untuk Proses Autocorrelation ................... 30
Gambar 4.5 Potongan Kode Program untuk proses clustering tweet.................... 31
Gambar 4.6 Potongan Kode Program untuk proses peringkasan .......................... 32
Gambar 4.7 Potongan Kode Program untuk menentukan Tweet hasil ringkasan . 33
Gambar 4.8 Struktur data penyimpanan tweet format JSON ................................ 34
Gambar 4.9 Struktur data collection term frequency format JSON ...................... 35
Gambar 4.10 Struktur data collection detail frequency format JSON .................. 35
Gambar 4.11 Wavelet kata kunci ‘pagi’ ............................................................... 40
Gambar 4.12 Wavelet dan correlogram kata kunci ‘pagi’ yang memiliki nilai
korelasi tinggi ........................................................................................................ 41
Gambar 4.13 Wavelet dan correlogram kata kunci ‘polri’ yang memiliki nilai
korelasi rendah ...................................................................................................... 42
viii
Gambar 4.14 Wavelet dan correlogram kata kunci ‘kerja’ yang memiliki nilai
korelasi sedang ...................................................................................................... 42
Gambar 4.15. Proses pengelompokkan tweets dengan k-medoids ....................... 43
Gambar 4.16. Tweet hasil proses peringkasan ...................................................... 47
ix
DAFTAR TABEL
halaman
Tabel 3.1 Parameter-parameter yang Diestimasi .................................................. 22
Tabel 4.1 Struktur Tabel Penyimpanan Tweet ...................................................... 34
Tabel 4.2 Struktur Tabel Term Frequency ............................................................ 34
Tabel 4.3 Struktur Tabel Term Detail Frequency ................................................. 35
Tabel 4.4 Tabel Frequency Kata Kunci ................................................................ 38
Tabel 4.5 Tabel Frekuensi Kata Kunci Per Interval .............................................. 38
Tabel 4.6 Tabel Koefisien Wavelet ....................................................................... 39
Tabel 4.7 Tabel Jumlah Nilai Autocorrelation Kata Kunci .................................. 40
Tabel 4.8 Tabel Kata Kunci Masing-masing Cluster pada Tweet yang Sudah
Dieliminasi Kata Kunci Periodik .......................................................................... 44
Tabel 4.9 Tabel Kata Kunci Masing-masing Cluster pada Tweet yang Tidak
Dieliminasi Kata Kunci Periodik .......................................................................... 45
Tabel 4.10 Contoh Kuisioner Hasil Peringkasan dengan Masukan Berupa Ranking
............................................................................................................................... 47
x
[Halaman ini sengaja dikosongkan]
1
1 BAB 1
PENDAHULUAN
1.1 Latar Belakang
Sistem peringkasan multi-dokumen (Multi-document Summarization)
pada microblog Twitter tengah menjadi perhatian para peneliti beberapa tahun
terakhir (El-Fishawy dkk, 2014; Winatmoko dkk, 2013; Lioret dkk, 2013; Sharifi
dkk, 2010; Olariu, 2012). Beberapa penelitian melakukan peringkasan pada
dokumen Twitter (tweet) terhadap hasil pendeteksian suatu kejadian penting (non-
trivial) untuk mendapatkan informasi yang mencakup kumpulan tweet yang
merepresentasikan sebuah kejadian (Long dkk, 2011; Cordeiro, 2012). Pemisahan
kejadian biasa (trivial) dengan kejadian penting (non-trivial) dilakukan untuk
mengeliminasi tweet trivial sehingga dapat meningkatkan kualitas hasil
peringkasan kejadian. Salah satu cara untuk menentukan suatu kejadian penting
atau tidak dapat dilakukan dengan melakukan pemilihan kata kunci yang dianggap
merepresentasikan sebuah kejadian penting (Long dkk, 2011). Kejadian yang
berulang secara periodik dianggap sebagai suatu kejadian trivial sehingga
diperlukan metode khusus untuk mendeteksi kemunculan kejadian tersebut untuk
selanjutnya dieliminasi.
Permasalahan yang mendasari dilakukannya peringkasan tweet adalah
pengguna harus membaca sejumlah tweet secara manual untuk memahami suatu
kejadian (event), sedangkan pengguna Twitter memiliki batasan waktu untuk
membaca seluruh tweet terkait (El-Fishawy dkk, 2014). Peringkasan dilakukan
dengan memilih tweet yang mewakili informasi pada suatu kejadian tertentu
sehingga ringkasan yang dihasilkan memeberikan gambaran singkat tentang suatu
kejadian secara cepat.
Ringkasan yang baik adalah ringkasan yang mampu mencakup (coverage)
sebanyak mungkin konsep-konsep penting (saliency) yang ada pada dokumen
sumber (Ouyang dkk, 2013). Menurut jenis pendekatan peringkasan yang dilakukan
pada tweet, pendekatan metode extractive lebih sesuai digunakan karena struktur
keberagaman data yang dimiliki oleh tweet (Sharifi dkk, 2010). Peringkasan
berdasarkan metode extractive terdiri dari proses pemilihan tweet penting dari
2
dokumen sumber dan proses penyusunan tweet-tweet penting tersebut menjadi lebih
singkat (Gupta dkk, 2010). Jika diterapkan pada tweet, pemilihan kalimat penting
adalah memilih tweet mana yang masuk ke dalam kelompok tweet penting.
Clustering tweet merupakan salah satu metode yang mampu memeberikan
coverage yang baik pada ringkasan (Boros dkk, 2001; Wan dan Yang 2008; Sarkar,
2009; Ge dkk, 2011). Cluster yang baik adalah cluster yang memiliki koherensi
yang baik antar cluster. Cluster tweet yang telah terbentuk selanjutnya akan
dihitung word frequency (WF) atau frekuensi kemunculan kata pada masing-
masing cluster. Cluster tweet yang terbentuk selanjutnya diurutkan berdasarkan
tingkat kemiripan dengan kata kunci yang memiliki nilai WF yang tinggi untuk
kemudian dipililih sebuah tweet representatif pada setiap cluster. Tweet
representatif tersebut adalah tweet penting yang dianggap sebagai hasil ringkasan
dari sebuah cluster.
Twitter merupakan layanan jejaring sosial yang memiliki perbedaan
dengan jejaring sosial media yang lain yaitu memiliki ukuran panjang teks terbatas
140 karakter (Cordeiro, 2012). Pesan yang dikirim cenderung ditulis secara singkat
dan langsung pada inti dari informasi apa yang ingin disampaikan. Namun, data
Twitter mengandung banyak tweet yang tidak memiliki arti atau tidak merujuk pada
kejadian tertentu (pointless babbles) (Hurlock dkk, 2011).
Beberapa penelitian melakukan pendeteksian kejadian dengan
memanfaatkan pola-pola secara temporal atau sinyal dari data twitter seperti
penelitian yang dilakukan pada (Cordeiro, 2012; Weng dkk, 2011; Chen dkk, 2009)
yang memanfaatkan sinyal wavelet untuk mendeteksi munculnya kejadian penting.
Berdasarkan penelitian sebelumnya, sinyal individu dari masing-masing kata atau
term dibentuk dengan berdasarkan wavelet analysis pada frekuensi masing-masing
kemunculan kata (Weng dkk, 2011). Dalam pemrosesan sinyal, wavelet analysis
merupakan metode yang sering digunakan untuk mendeteksi perubahan dan puncak
pada sinyal sehingga dapat dimanfaatkan untuk mendeteksi kemunculan suatu
kejadian. Inti dari wavelet analysis adalah pada wavelet transformation yaitu
merubah sinyal dari time domain menjadi time-scale domain (Weng dkk, 2011).
Penggunaan wavelet analysis masih belum dapat mendeteksi kejadian
yang berulang secara periodik yang dapat dianggap sebagai kejadian trivial. Salah
3
satu penelitian yang berusaha menemukan sinyal yang berulang secara periodik
dilakukan pada (Rafiee dkk, 2009) dengan metode wavelet autocorrelation.
Pencarian kejadian berulang dengan mencari korelasi antar coefficient sehingga
dapat dideteksi kemunculan kejadian yang berulang secara periodik untuk
kemudian dilakukan eliminasi terhadap kata kunci sebelum proses peringkasan.
Untuk meningkatkan hasil peringkasan, dilakukan pengelompokkan antar kata
kunci yang merujuk pada satu kejadian yang sama.
Oleh karena itu, dibutuhkan sebuah langkah untuk mendeteksi kata kunci
yang berulang secara periodik dan mengelompokkan tweet yang memiliki
kemiripan untuk diproses dalam satu proses peringkasan. Tweet yang mengandung
kata kunci yang termasuk kedalam kejadian trivial akan dieliminasi pada
peringkasan sebagai hasil deteksi kejadian pada Twitter sehingga ringkasan yang
dihasilkan mampu mencakup informasi penting pada kumpulan tweet.
1.2 Perumusan Masalah
Berdasarkan uraian yang telah dijelaskan pada latar belakang, maka
permasalahan-permasalahan yang akan diselesaikan dirumuskan sebagai berikut:
1. Bagaimana mendeteksi kejadian trivial pada Twitter untuk menemukan kejadian
yang berulang secara periodik untuk pemilihan kata kunci ?
2. Bagaimana mengelompokkan beberapa kata kunci yang merupakan representasi
dari kejadian yang sama untuk diringkas menjadi informasi ?
1.3 Tujuan dan Manfaat Penelitian
Tujuan dari penelitian ini adalah mendeteksi kejadian trivial karena
kemunculan kejadian berulang secara periodik untuk memilih kata kunci pada
peringkasan data Twitter berbasis wavelet sehingga diharapkan menghasilkan
akurasi yang lebih tinggi dibandingkan dengan metode sebelumnya.
Manfaat yang didapat dari penelitian ini secara khusus adalah untuk
menjelaskan metode pendeteksian kejadian yang terjadi berulang secara periodik
yang dianggap bukan sebagai kejadian penting pada peringkasan tweet. Kejadian
berulang dianggap sebagai kejadian tidak penting untuk selanjutnya dieliminasi
pada proses peringkasan.
Adapun kontribusi yang diberikan dalam penelitian ini terkait peringkasan
dokumen Twitter, yaitu:
4
1. Perhitungan korelasi dari coefficient wavelet untuk mendeteksi kejadian berulang
secara periodik pada pemilihan kata kunci tertentu.
2. Pengelompokan tweet yang merupakan representasi pada kejadian yang sama
untuk diringkas dalam sebuah kejadian
1.4 Batasan Penelitian
Mengingat permasalahan deteksi kejadian merupakan hal yang kompleks
dan luas maka penelitian ini dibatasi sesuai dengan poin-poin berikut:
1. Data yang dijadikan data uji adalah dokumen Twitter unspecified berbahasa
Indonesia yang dikumpulkan melalui API stream Twitter
2. Kejadian yang dianggap trivial adalah kejadian yang dibentuk oleh kata kunci
yang berulang secara periodik.
3. Jenis peringkasan otomatis yang dibangun adalah generic multi-document
summarization yang berbasiskan metode extractive.
4. Sistem yang dibangun mengunakan bahasa pemrograman Python, PHP, NodeJS
dan database server MongoDB.
5
2 BAB 2
DASAR TEORI
Pada bagian ini akan dipaparkan konsep dasar tentang teori-teori yang
dipakai sebagai pegangan dalam melakukan penelitian ini.
2.1 Peringkasan Teks Otomatis
Peringkasan teks otomatis didefinisikan sebagai sebuah teks yang
dihasilkan dari satu atau banyak teks yang menyampaikan informasi penting dari
teks sumber (Zhu dan Li, 2012).
Terdapat dua arah dari penelitian-penelitian pada bidang peringkasan teks
otomatis yaitu extractive dan abstractive. Metode peringkasan extractive umumnya
fokus terhadap konten-konten mana yang harus menjadi ringkasan. Metode ini
sepenuhnya mengandalkan ekstraksi kalimat-kalimat yang ada pada dokumen
sumber (Das dan Martin, 2007). Metode peringkasan abstractive mengedepankan
penekanan yang kuat pada bentuk ringkasan dan bertujuan untuk menghasilkan
ringkasan sesuai dengan tata bahasa (Zhu dan Li, 2012). Pada penelitian digunakan
metode extractive untuk memilih dokumen twitter mana yang dapat mewakili suatu
kejadian yang dianggap sama.
Metode peringkasan teks dapat diaplikasikan pada single atau multi-
dokumen. Peringkasan single-dokumen adalah peringkasan berdasarkan sebuah
dokumen sumber, sedangkan peringkasan multi-dokumen adalah peringkasan
berdasarkan berberapa dokumen sumber. Pada peringkasan multi-dokumen,
dokumen-dokumen sumber terlebih dahulu dikelompok-kelompokkan dalam
cluster-cluster tertentu. Pada penelitian tweet yang memiliki kesamaan kata kunci
atau kata kunci lain yang memiliki kemiripan akan dijadikan kedalam sebuah
cluster. Fokus pada penelitian ini adalah peringkasan teks otomatis berdasarkan
metode extractive yang diaplikasikan pada multi dokumen twitter. Sedangkan jenis
peringkasan yang dikembangkan adalah generic summarization.
6
2.2 Clustering
Clustering adalah pembagian data kedalam kelompok-kelompok dari
objek-objek yang serupa (similar) (Rai dan Singh, 2010). Setiap kelompok yang
disebut cluster terdiri dari objek-objek yang serupa satu dengan yang lainya dan
tidak serupa (dissimilar) dengan objek-objek pada cluster lain. Secara intuitif, pola-
pola objek yang berada pada cluster yang sama lebih serupa satu sama lain
dibandingkan dengan pola-pola objek pada cluster lainnya (Jain dkk, 1999). Contoh
dari clustering data diilustrasikan pada Gambar 2.1. Pola elemen-elemen input
ditunjukkan pada Gambar 2.1(a) dan bentuk-bentuk cluster yang diinginkan
ditunjukkan pada Gambar 2.1(b). Titik-titik yang terdapat pada cluster yang sama
diberikan label yang sama.
Gambar 2.1 Ilustrasi Clustering Data
(Jain dkk, 1999)
Teknik-teknik clustering yang digunakan untuk menempatkan objek-
objek ke dalam cluster-cluster harus memenuhi dua kriteria:
1. Setiap cluster adalah homogeneous; objek-objek yang berada pada satu cluster
serupa satu dengan lainnya.
2. Setiap cluster yang terbentuk harus berbeda dari cluster-cluster yang lainnya;
objek-objek yang berada pada suatu cluster harus tak serupa dengan objek-objek
yang ada pada cluster lain.
7
2.3 K-medoids
Clustering adalah metode pengelompokan data secara otomatis
berdasarkan pola dari data itu sendiri atau tanpa menggunakan data latih
(unsupervised). Berdasarkan cara pengelompokan data menjadi cluster, metode
clustering dibedakan menjadi dua jenis, yaitu hierarchical dan partitioning. Salah
satu jenis partitioning clustering yang akan digunakan pada penelitian ini adalah K-
medoids. K-medoids atau yang sering disebut juga dengan Partitioning Around
Medoids (PAM) merupakan algoritma clustering yang hampir sama dengan K-
means diperkenalkan pertama kali oleh (Kaufman, 1987). Konsep dari K-medoids
adalah memecah dataset menjadi kelompok-kelompok. Perbedaan antara K-
medoids dengan K-means adalah bahwa K-medoids menggunakan medoids yang
merupakan entitas dari dataset dan merupakan perwakilan dari kelompok dimana
dia dimasukkan. Sedangkan K-means bekerja dengan centroid biasanya berupa
nilai rata-rata dari jarak antar objek dalam satu kelompok yang sama. Pada
persamaan 2.1 𝑥𝑖 adalah masing-masing titik dan 𝑐𝑖 adalah centroid atau pusat
cluster.
𝑐𝑜𝑠𝑡(𝑥, 𝑐) = ∑ |𝑥𝑖 − 𝑐𝑖|𝑑𝑖=1 (2.1)
K-medoids akan mengelompokkan sekumpulan n obyek menjadi sejumlah
k cluster. Algoritma ini menggunakan obyek pada kumpulan objek untuk mewakili
sebuah cluster. Objek yang mewakili sebuah cluster inilah yang disebut dengan
medoids.
Algoritma K-medoids
Input : 𝐷 = {𝑑1, 𝑑2, … , 𝑑𝑛}
1. Tentukan jumlah cluster yang akan dibentuk (k)
2. Pilih k obyek secara random pada sekumpulan n obyek sebagai medoid
3. Hitung kemiripan antara objek non-medoids dengan k medoids
4. Dapatkan kemiripan yang paling besar antara obyek non-medoids dengan
medoids
5. Update medoids dengan cara memilih secara acak objek non-medoids
6. Hitung total biaya S (current total cost – past total cost)
7. Jika current total cost > past total cost maka update medoids, jika tidak
medoids tetap
8. Ulangi langkah 3 sampai 7 sampai tidak ada perubahan
8
,
2.4 Clustering Dokumen Twitter
Clustering tweet adalah bagian yang penting dalam sistem peringkasan
otomatis karena setiap topik dalam kumpulan tweet harus diidentifikasi secara tepat
untuk menemukan similarity dan dissimilarity yang ada dalam dokumen sehingga
menjamin good coverage (Sarkar, 2009). Pada penelitian ini digunakan algoritma
K-medoids untuk melakukan clustering.
Salah satu faktor penting dari setiap teknik clustering adalah bagaimana
untuk menghitung similarity antara dua objek. Cosine similarity adalah metode
pengukuran yang sering digunakan clustering dan peringkasan (Erkan dan Randev,
2004). Tweet direpresentasikan ke dalam bobot vector ketika menghitung cosine
similarity. Namun fitur vector yang menunjukkan similarity dari kalimat-kalimat
menjadi sangat jarang (too sparse) karena kalimat terlalu pendek ketika
dibandingkan satu dengan yang lain. Kadang-kadang dalam sebuah tweet hanya
terdapat sebuah kata yang sama yang menunjukkan nilai cosine similarity. Untuk
mengatasi hal tersebut diajukan metode uni-gram matching-based similarity
measure (Sarkar, 2009):
(2.1)
dimana si dan sj adalah tweet s ke-i dan ke-j. | si | | sj | merepresentasikan jumlah
dari kata-kata yang sesuai (match) antara tweet s ke-i dan kalimat s ke-j. |si| adalah
panjang tweet s ke-i yaitu jumlah kata yang menyusun tweet tersebut. Metode uni-
gram matching-based similarity measure adalah metode yang digunakan untuk
mengukur similarity untuk setiap pasangan tweet pada cluster dan kandidat anggota
cluster baru dalam K-medoid.
Penambahan suatu tweet dalam suatu cluster berdasarkan distribusi
peningkatan similarity dapat menciptakan suatu masalah pada kasus cluster
sempurna. Tweet mungkin saja dapat ditolak oleh cluster yang sempurna walaupun
tweet tersebut memiliki similarity yang tinggi pada sebagian besar anggota cluster.
2.5 Ekstraksi Fitur Tweet pada Cluster
Ekstraksi fitur-fitur tweet yang ada pada cluster dilakukan untuk
mendapatkan fitur-fitur yang ada pada tweet sebagai acuan perhitungan skor tweet.
||||
|)|||*2(),(
ji
ji
jiss
sssssim
9
Semakin besar skor tweet merepresentasikan bahwa tweet tersebut adalah tweet
yang semakin penting/representatif. Konsep fitur local importance dan global
importance adalah suatu konsep fitur yang diajukan oleh (Sarkar, 2009) untuk
menentukan tweet representatif. Konsep tersebut mencerminkan seberapa central
suatu tweet terhadap suatu cluster dan seberapa banyak multi sub-topik yang
dicakup oleh kalimat tersebut (Sarkar, 2009). Dalam local importance
diperkenalkan konsep cluster term frequency (CTF) yang menghitung bobot kata
penting dengan persamaan log (1+CTF), dimana CTF adalah jumlah dari suatu kata
w pada suatu cluster. Global importance dihitung dengan log (1+CF) dimana
cluster frequency (CF) adalah jumlah cluster yang mengandung kata w. Skor suatu
kalimat s ke-k yang terdapat pada cluster ke-j dihitung dengan Persamaan (2.5)
sedangkan bobot suatu kata w dihitung dengan Persamaan (2.6) berikut:
, (2.5)
, (2.6)
dimana mengindikasikan pentingnya tweet s ke-k pada cluster ke-j dan
adalah pentingnya kata w yang dihitung berdasarkan bobot local
importance dan global importance dari kata w. Nilai bobot fitur dan bobot fitur
yang digunakan adalah 0,5 (Sarkar, 2009). Proses perhitungan pada persamaan
2.6 logritma difungsikan untuk menormalisasi perhitungan bobot w.
2.6 Deteksi Kejadan pada Twitter
Deteksi kejadian memiliki tujuan untuk menemukan peristiwa yang telah
terjadi dimana masing-masing kejadian tersebut merujuk pada kejadian yang
memiliki waktu dan tempat spesifik (Allan dkk, 1998). Dilihat dari jenis kejadian
yang dideteksi, penelitian dibagi menjadi dua bagian yaitu kejadian yang terspesifik
dan kejadian yang tidak terspesifik. Twitter berisi pesan singkat yang berisi
reportase dari seluruh kejadian baik dari lingkup sempit atau lokal maupun global.
Pesan-pesan yang tergolong tidak memiliki arti (trivial) atau merujuk pada kejadian
tertentu sebagai contoh adalah iklan, konten pornografi, pengguna yang hanya
sekedar ingin menaikkan reputasi saja, dan kejadian yang berulang secara periodik.
kjsw
kjLG wWeightsSkor )()(
)1log()1log()( 21 CFCTFwWeight
)( kjLG sSkor
)(wWeight
1
2
10
Hal ini menjadi tantangan utama dalam melakukan deteksi kejadian pada twitter
untuk memisahkan kejadian biasa dan pesan yang tidak memiliki arti dengan pesan
singkat yang mengandung kejadian atau peristiwa dalam dunia nyata.
Twitter merupakan layanan jejaring sosial yang memiliki perbedaan
dengan jejaring sosial media yang lain yaitu memiliki ukuran panjang teks terbatas
140 karakter (Cordeiro, 2012). Batasan tersebut menyebabkan pengguna dengan
mudah mengirim tweet dengan cepat tentang informasi yang akan disampaikan.
Pengguna mengirim pesan singkat berisi kritik, saran, opini, kabar berita, suasana
hati penulis, peristiwa, fakta, dan hal lain yang tidak terkategorikan. Pesan yang
dikirim cenderung ditulis secara singkat dan langsung pada inti dari informasi apa
yang ingin disampaikan.
Saat ini jumlah pengguna twitter telah mencapai angka 140 juta pengguna
aktif yang rata-rata per hari mengirimkan pesan singkat sejumlah 400 juta pesan
(Atefeh dkk, 2013). Angka-angka tersebut menunjukkan bahwa twitter banyak
digunakan karena beberapa hal seperti portabilitas, mudah dalam penggunaan,
berisi pesan yang singkat, dan tidak ada batasan pengguna untuk menyebarkan
informasi melalui media tersebut. Dari sekian banyak pesan singkat yang
dikirimkan tersebut, sebagian besar tweet merupakan laporan peristiwa atau
kejadian yang dialami atau diketahui oleh pengguna (Sakaki dkk, 2010). Sebagai
contoh peristiwa yang dibahas tersebut adalah kejadian terkait sosial seperti adanya
kejadian yang menimpa tokoh di masyarakat, pesta olahraga, pemilu presiden,
kemacetan di suatu wilayah, bencana alam, dan sebagainya.
Beberapa penelitian tentang deteksi kejadian pada twitter secara umum
dapat diklasifikasikan menjadi tiga fokus penelitian yaitu kejadian yang sudah
spesifik ditentukan, kejadian yang terfokus pada seorang tokoh, dan deteksi
kejadian umum atau tidak spesifik (Zhao dkk, 2014). Pada penelitian yang akan
dilakukan termasuk ke dalam kategori yang ketiga yaitu melakukan deteksi
kejadian yang tidak spesifik atau yang bersifat umum. Oleh karena tidak memiliki
informasi tentang kejadian yang akan dideteksi, beberapa penelitian melakukan
pendeteksian kejadian dengan memanfaatkan pola-pola secara temporal atau sinyal
dari data twitter seperti penelitian yang dilakukan pada (Cordeiro, 2012) dan (Weng
dkk, 2011). Selain memanfaatkan pola-pola sinyal, metode lain yang banyak
11
digunakan adalah metode klaster seperti yang dilakukan pada penelitian-penelitian
(Zhao dkk, 2014), (Becker dkk, 2011), dan (Petrovic dkk, 2010). Metode klaster
mengelompokkan kata-kata yang sering muncul ke dalam klaster tertentu dimana
kata-kata yang terdapat pada satu klaster dianggap sebagai representasi kejadian
yang sama.
2.7 Wavelet Analysis
Kebutuhan akan resolusi tinggi dalam analisis sinyal non-stasioner telah
mengakibatkan perkembangan berbagai sarana (tools) untuk menganalisis data-
data sinyal non-stasioner (yaitu sinyal yang kandungan frekuensinya bervariasi
terhadap waktu). Metode Transformasi berbasis Wavelet merupakan suatu sarana
yang dapat digunakan untuk menganalisis sinyal-sinyal non-stasioner. Dalam
beberapa tahun terakhir ini, metode ini telah dibuktikan kegunaannya dan sangat
populer di berbagai bidang ilmu. Analisis Wavelet dapat digunakan untuk
menunjukkan kelakuan secara temporal pada suatu sinyal. Metode Transformasi
Wavelet dapat digunakan untuk menyaring data, menghilangkan sinyal-sinyal yang
tidak diinginkan serta mendeteksi kejadian-kejadian tertentu pada sinyal (Foster
dkk., 1994).
Transformasi Wavelet juga sangat berguna untuk menganalisis sinyal-
sinyal non-stasioner karena berkaitan dengan kemampuannya untuk memisahkan
berbagai macam karakteristik pada berbagai skala (Anant dan Dowla, 1997). Pada
data twitter yang akan diproses frekuensi kata kunci yang muncul tidak konstan
atau non-stasioner sehingga penggunaan Wavelet sesuai dengan data yang
digunakan. Proses yang dilakukan dalam transformasi wavelet adalah pertama kali
membentuk sinyal yang berasal dari data frekuensi terhadap waktu. Tahap
selanjutnya adalah mendekomposisi sinyal menggunakan beberapa jenis wavelet
yang salah satunya adalah db1 dan coiflet yang nantinya akan digunakan dalam
penelitian ini karena sifatnya menghasilkan wavelet yang baik untuk aproksimasi
maupun detail. Hasil dari proses dekomposisi adalah coefficients yang nantinya
akan dilakukan proses scaling atau translating sehingga coefficients disusun
kembali pada tahap constructing.
12
Secara khusus Wavelet digunakan dalam dua cara yaitu sebagai alat untuk
mengekstraksi informasi suatu data dan sebagai penyajian atau karakterisasi suatu
data. Dalam mengekstraksi informasi, merujuk pada sifat utama Wavelet yaitu
time-frequency localization dimana analisis sinyal menggunakan Wavelet adalah
bahwa dapat dipelajarinya karakteristik sinyal secara lokal dan detail, sesuai dengan
skalanya. Penyajian data menggunakan Wavelet dilakukan dengan cara ekspansi
tak berhingga dari Wavelet yang diulur (dilated) dan digeser (translated) (Kumar
dan Foufoula-Georgiou, 1994). Wavelet merupakan fungsi matematik yang
membagi-bagi data menjadi beberapa komponen frekuensi yang berbeda-beda,
kemudian dilakukan analisis untuk masing-masing komponen menggunakan
resolusi yang sesuai dengan skalanya (Graps, 1995).
Wavelet analysis merupakan metode untuk melakukan pengukuran terkait
kapan dan bagaimana frekuensi dari sinyal berubah terhadap waktu (Weng dkk,
2011). Apabila dibandingkan dengan Fourier, kedua metode ini dalam menganalisis
sinyal diawali dengan memecah sinyal mencadi potongan-potongan sinyal. Wavelet
baik digunakan untuk memproses sinyal yang tidak teratur dan berubah-ubah
bentuk. Keunggulan wavelet adalah mampu menemukan korelasi atau hubungan
antara waktu dan frekuensi pada domain sinyal. Inti dari wavelet analysis adalah
wavelet transformation yaitu merubah sinyal dari time domain menjadi time-scale
domain (Weng dkk, 2011). Proses pemecahan sinyal akan menghasilkan wavelet
coefficients dan himpunan basis fungsi. Himpunan basis fungsi disebut sebagai
wavelet family terbentuk dari proses scaling dan translating dari mother wavelet
ψ(t). Proses scaling pada wavelet adalah melakukan peregangan atau penyusutan
ψ(t), sedangkan proses translation hanya memindahkan posisi temporal tanpa
melakukan perubahan pada sinyal itu sendiri. Wavelet family didefinisikan sebagai
berikut (Weng dkk, 2011) :
𝜑𝑎,𝑏(𝑡) = 𝑎−1/2𝜑 (𝑡−𝑏
𝑎) (2.7)
𝑎, 𝑏 ∈ ℝ dimana 𝑎 dan 𝑏 adalah nilai scaling dan translating dan t adalah
waktu.
Wavelet transformation dibagi menjadi continuous wavelet
transformation (CWT) dan discrete wavelet transformation (DWT). Secara umum,
pada saat proses analisis CWT menghasilkan representasi sinyal yang berulang atau
13
redundant. Selain itu CWT apabila dilakukan pemrosesan atau transformasi secara
langsung membutuhkan waktu yang cukup lama. Berkebalikan dengan DWT,
proses yang dilakukan akan menghasilkan representasi sinyal yang tidak berulang
atau non-redundant dan tidak membutuhkan waktu yang banyak ketika melakukan
tranformasi. Pada penelitian akan digunakan DWT sebagai pemroses Wavelet
karena data frekuensi twitter berupa data diskrit. Gambar 2.2 merupakan contoh
wavelet kata kunci kejadian yang berulang secara periodik.
Gambar 2.2 Wavelet Kata Kunci ‘pagi’
2.8 Wavelet Autocorrelation
Korelasi merupakan operasi matematika yang mirip dengan proses
konvolusi. Sebagaimana pada konvolusi, korelasi menggunakan dua siyal untuk
menghasilkan sinyal ketiga. Sinyal ketiga ini disebut dengan cross correlation dari
dua sinyal masukan. Jika sinyal dikorelasikan dengan dirinya sendiri, maka
hasilnya disebut autocorrelation. Pendeteksian sinyal berulang secara periodik
pada sinyal non-stasioner dapat dilakukan dengan metode autocorrelation pada
Wavelet. Sinyal yang berulang secara periodik merepresentasikan kejadian yang
berulang pada data twitter sehingga tidak diperlukan dalam proses peringkasan.
Autocorrelation digunakan dalam analisis sinyal dengan membaca perubahan
sinyal berdasarkan waktu menggunakan hubungan probabilitas. Perhitungan
dilakukan dengan membandingkan coefficients yang berasal dari proses
transformasi sinyal Wavelet sehingga dapat membandingkan apakah antar
14
coefficient (Rafiee dkk, 2009). Prinsip kerja pada autocorrelation adalah dengan
menggeser sinyal dengan beberapa penyesuaian pada waktu atau periode yang
dinyatakan sebagai berikut :
(2.8)
dimana C adalah fungsi autocorrelation, x(n) adalah koefisien Wavelet dan m
adalah pergeseran waktu. Setelah ditemukan sinyal-sinyal yang berulang pada
wavelet maka kata kunci tersebut tidak diperhitungkan dalam melakukan
peringkasan dokumen yang dilakukan selanjutnya. Perhitungan autocorrelation
ditampilkan dalam diagram correlogram seperti nampak pada gambar dibawah ini
pada Lag pertama nilai korelasi melebihi batas threshold yang telah ditentukan
sehingga hal tersebut dapat disimpulkan sebagai kejadian berulang karena memiliki
korelasi tinggi pada sebuah Wavelet.
Gambar 2.3 Correlogram kejadian yang berulang secara periodik
15
3 BAB 3
METODOLOGI PENELITIAN
Tahapan-tahapan yang dilalui pada penelitian ini meliputi (1) Studi
Literatur, (2) Desain Model Sistem, (3) Pembuatan Perangkat Lunak, (4) Uji Coba,
dan (5) Analisa Hasil. Alur tahapan-tahapan tersebut dapat dilihat pada Gambar 3.1.
Gambar 3.1 Alur Metodologi Penelitian
3.1 Studi Literatur
Studi literatur dilakukan untuk mendapatkan informasi dari berbagai
literatur yang akan digunakan, perkembangan, serta metode yang pernah dipelajari
sebelumnya. Studi literatur yang dilakukan diharapkan dapat memberikan data,
informasi, dan fakta mengenai peringkasan dokumen Twitter dengan deteksi
kejadian trivial untuk pemilihan kata kunci yang akan dikembangkan. Studi
literatur yang dilakukan mencakup pencarian dan mempelajari referensi-referensi
yang terkait, seperti:
Studi Literatur
Desain Model Sistem
Pembuatan Perangkat Lunak
Uji Coba
Analisa Hasil
16
1. Text preprocessing yaitu segmentation (tweet), stopword removal dan
stemming Bahasa Indonesia.
2. Metode transformasi wavelet dan autocorrelation coefficient
3. Metode unigram matching based similarity dan metode K-medoids untuk
clustering tweet.
4. Ekstraksi fitur dari tweet berdasarkan fitur kata kunci cluster tweet berdasarkan
hasil pembobotan.
5. Metode evaluasi hasil ringkasan dengan mengadopsi ROUGE yaitu perhitungan
nilai Recall.
3.2 Desain Model Sistem
Secara global, desain model sistem yang digunakan diadopsi dari
(Cordeiro, 2012) yang ditunjukkan pada Gambar 3.2. Sesuai dengan uraian pada
sub-bab 1.4, sistem yang dibangun diuji dengan data streaming twitter unspecified
berdasarkan API twitter Berbahasa Indonesia. Data diambil dengan proses
streaming secara berkelanjutan atau terus menerus pada rentang waktu tertentu
sehingga data yang dihasilkan tidak terpotong-potong waktu.
3.2.1 Fase Text Preprocessing
Fase Text preprocessing adalah fase yang pertama dilakukan sebelum
dokumen diproses untuk dibentuk menjadi dokumen frekuensi dan sinyal Wavelet.
Data yang digunakan merupakan data teks twitter yang diperoleh dari Stream API
Twitter yang dibatasi pada wilayah geografis Indonesia sehingga bahasa yang
dituliskan oleh pengguna yang menggunakan Bahasa Indonesia pada rentang waktu
tertentu. Data twitter yang dimanfaatkan pada penelitian adalah dokumen teks dan
waktu pengirimannya. Dokumen teks tweets yang digunakan merupakan dokumen
teks yang tidak spesifik pada sebuah kejadian (unspecified) sehingga dokumen-
dokumen tersebut tidak memiliki prior knowledge mengenai isi dari dokumen.
Adapun tahap yang dilalui dalam text preprocessing adalah sebagai berikut :
Segmentation
Segmentasi merupakan proses untuk mencari kata-kata yang menyusun sebuah
tweet dari dokumen-dokumen twitter. Segmentasi kata dilakukan dengan
memisahkan setiap kata berdasarkan spasi dan tanda baca.
17
Dokumen Twitter
Teks
Preprocessing
Transformasi sinyal
Wavelet frekuensi kata
kunci
Pemilihan kata kunci
kejadian
(autocorrelation)
Clustering tweet Peringkasan tweet pada
setiap cluster
Ringkasan
kejadian
Eliminasi tweet
mengandung kata kunci
trivial
Dekomposisi sinyal
Perhitungan coefficient
correlation
Gambar 3.2 Framework peringkasan dokumen twitter dengan mendeteksi
kejadian trivial untuk pemilihan kata kunci
Stopword removal
Stopword removal berguna untuk menghilangkan kata-kata yang dianggap
tidak penting dalam suatu dokumen. Kata-kata yang dimaksud adalah kata-kata
seperti ‘di, ‘adalah‘, ‘tidak’, ‘lalu’, dan sebagainya. Kamus stopword list yang
digunakan merupakan kumpulan Bahasa Indonesia yang didapatkan pada
appendix pada sebuah penelitian (Tala, 2003). Selain kata-kata yang terdapat
pada daftar proses ini juga melakukan penghapusan terhadap URL dan kata
yang sering muncul pada Twitter seperti "RT".
18
Stemming
Stemming dilakukan untuk mendapatkan kata dasar dari semua kata-kata
penyusun dokumen. Algoritma stemming Bahasa Indonesia yang digunakan
dalam penelitian ini adalah algoritma yang ada pada sebuah penelitian (Arifin,
2001).
3.2.2 Fase Transformasi Teks menjadi Frekuensi Kata Kunci tiap Periode
Kata kunci yang dihasilkan pada tahap preproses diurutkan berdasarkan
frekuensi kemunculan untuk kemudian dipilih kata kunci mana yang masuk
kedalam top-N frequency. Fase ini bertujuan merubah representasi data teks
menjadi numerik berupa frekuensi dan periode waktu untuk dibentuk menjadi
Wavelet. Kata kunci disimpan dengan disertai informasi waktu kemunculan dari
tweet yang mengandung kata tersebut. Frekuensi yang dibentuk merupakan
pengelompokan pada rentang periode waktu tertentu, pada penelitian dilakukan
pengelompokan frekuensi setiap enam puluh menit. Proses transformasi teks
menjadi frekuensi tiap periode dilakukan berdasarkan beberapa tahap pada Gambar
3.3.
Mulai
Term dan waktu
kemunculan
Pengurutan kemunculan term
berdasarkan waktu
Pengelompokkan frekuensi term
per periode
Pengurutan frekuensi term per
periode berdasarkan waktu
Selesai
Gambar 3.3 Flowchart transformasi teks menjadi frekuensi kata kunci tiap periode
waktu
19
3.2.3 Fase Transformasi Sinyal Wavelet Kata Kunci
Frekuensi kemunculan kata yang pada tahap sebelumnya disimpan dengan
disertai informasi waktu kemunculan dari tweet yang mengandung kata tersebut.
Dari data-data tersebut dapat ditentukan frekuensi kemunculan sebuah kata pada
rentang atau interval waktu tertentu. Adapun tahap yang dilalui dalam transformasi
sinyal wavelet adalah sebagai berikut :
Dekomposisi sinyal
Dekomposisi sinyal adalah proses merubah data frekuensi kemunculan kata
yang sudah tersusun dalam urutan waktu menjadi coefficients. Proses ini dilakukan
pada kata-kata yang memiliki document frequency N besar dari keseluruhan
kemunculan kata pada rentang interval waktu ternetu. Pada penelitian ini jenis
Wavelet yang dihasilkan adalah bersinyal diskrit karena kejadian kemunculan
bersifat diskrit dengan jenis Wavelet Coifman atau yang disebut sebagai Coiflet.
Jenis Wavelet ini memiliki memiliki sifat pemampatan yang sama baik untuk
coefficient aproksimasi maupun detail.
Deteksi puncak (peak) sinyal
Deteksi puncak dari wavelet dilakukan untuk menentukan kata kunci mana
yang dianggap sebagai representasi suatu kejadian penting. Apabila sebuah wavelet
dari kata kunci tidak terdeteksi peak maka kata kunci tidak akan dianggap sebagai
kata kunci pada kejadian penting.
Perhitungan coefficient correlation
Perhitungan korelasi coefficient dilakukan dengan proses autocorrelation
yaitu dengan menghitung korelasi antara coefficient sebuah wavelet dengan wavelet
itu sendiri. Bagian ini merupakan kontribusi dalam penelitian ini untuk menentukan
apakah kata kunci untuk menentukan apakah kata kunci pada wavelet tersebut
mengalami perulangan secara periodik atau tidak. Wavelet dari kata kunci yang
terjadi perulangan akan dieliminasi dari kata kunci penting dan dianggap sebagai
kejadian trivial. Hasil dari proses ini adalah nilai korelasi dari sebuah kata kunci
apakah akan diproses pada tahap clustering atau tidak sehingga diproses untuk
peringkasan.
20
3.2.4 Fase Clustering Tweet dengan K-medoids
Tweet yang berisi kata kunci yang terpilih sebagai representasi kejadian
penting akan diproses pada bagian ini. Tujuan dari tahap ini adalah untuk
mengumpulkan tweet yang memiliki kesamaan bahasan atau topik kejadian
sehingga tweet akan terkumpul dalam kelompok-kelompok. Pada saat clustering
tweet menggunakan K-medoids terdapat perhitungan similarity yang dilakukan
untuk setiap tweet yang belum diproses dengan semua tweet yang ada pada cluster.
Secara umum proses clustering dokumen twitter melalui tahap seperti pada Gambar
3.4.
start
Kumpulan
tweets
Inisialisasi k,
Inisialisasi medoids,
Hitung jarak similarity
tweets terhadap medoids
(cost baru)
Update medoids
Hitung jarak similarity
tweets terhadap medoids
(cost lama)
Cost baru>cost lama? Update cost
End
N
Y
Gambar 3.4 Flowchart clustering dokumen twitter dengan menggunakan
algoritma K-medoids
Fungsi similarity yang digunakan adalah uni-gram matching-based
similarity yang ditunjukkan pada Persamaan 2.1. Proses clustering kalimat
menggunakan algoritma K-medoids dapat dilihat pada pseudocode yang
ditunjukkan pada Gambar 3.4.
21
3.2.5 Fase Pemilihan Tweet Representatif
Pemilihan tweet representatif ditentukan berdasarkan skor kalimat.
Semakin besar skor sebuah tweet di dalam cluster merepresentasikan bahwa tweet
tersebut adalah semakin penting atau representatif. Perhitungan skor dilakukan
berdasarkan kemiripan tweet dengan kata kunci yang masuk kedalam word
frequency tertinggi. Konsep ini mengindikasikan perhitungan skor dilihat dari
seberapa sentral sebuah tweet terhadap cluster dan seberapa banyak sub-topik lain
yang dicakup. Pembobotan dilakukan berdasar fitur kata yang sering muncul pada
sebuah cluster dengan persamaan pada 2.5.
3.2.6 Fase Penyusunan Ringkasan
Setelah tweet terkelompok dalam cluster maka akan terbentuk beberapa
cluster sesuai dengan nilai k yang dikehendaki. Jumlah k menandakan banyaknya
kelompok tweet yang masing-masing kelompok dianggap mewakili sebuah
kejadian. Pada masing-masing cluster memiliki word frequency yang merupakan
kata kunci yang paling sering muncul dalam sebuah cluster. Tweet akan diurutkan
berdasarkan tingkat kemiripannya dengan daftar word frequency dimana tweet yang
menduduki urutan tertinggi akan dianggap sebagai tweet representatif dalam
cluster.
3.3 Pembuatan Perangkat Lunak
Pada tahapan ini dilakukan implementasi desain model sistem ke dalam
kode program sehingga dapat dimengerti oleh komputer. Sistem yang dibangun
adalah berbasis web dimana pada tahap preprocessing serta proses perhitungan
yang lain dengan bahasa pemrograman Python dan database MongoDB. Proses
analisis wavelet dilakukan menggunakan library bahasa Python. Data dokumen
Twitter didapatkan pada API Streaming Twitter dengan metode Firehouse yaitu
mengambil stream data tweet dengan batasan letak geografis tertentu. Setelah
melalui proses text preprocessing data disimpan kedalam database untuk proses
selanjutnya data-data hasil ekstraksi menggunakan data yang tersimpan pada
database.
22
Terdapat dua komponen utama dalam fase ini yaitu pengembangan sistem
peringkasan multi-dokumen sesuai dengan metode yang diusulkan dan
pengembangan interface sistem sebagai sarana interaksi sistem dengan pengguna.
3.4 Skenario Uji Coba
Uji coba sistem dilakukan untuk menguji atau menjalankan sistem dengan
beberapa parameter yang ada pada metode. Parameter-parameter yang digunakan
akan diestimasi untuk mendapatkan nilai yang optimal sehingga memberikan hasil
pengujian yang terbaik. Pada Tabel 3.1 dijelasakan beberapa parameter yang akan
diestimasi.
Tabel 3.1 Parameter-parameter yang Diestimasi
Parameter Keterangan
confidence boundary Nilai batas atas dan bawah koefisien pada correlogram
yang menentukan sebuah wavelet dianggap memiliki
tingkat keperiodikan tinggi atau rendah
nilai minimum kata
kunci trivial (R)
Nilai batas bawah jumlah koefisien yang berada diatas nilai
confidence boundary yang dianggap sebagai kata kunci
trivial.
nilai k Jumlah cluster yang akan dibentuk dalam proses
perhitungan k-medoids
Skenario pengujian sistem merupakan kumpulan langkah-langkah yang
menjelaskan apa dan bagaimana alur pengujian sistem. Pada penelitian ini kinerja
dari metode yang diajukan dievaluasi berdasarkan nilai recall dan silhouette.
Parameter pengujian secara umum dibagi menjadi dua bagian yaitu :
Pemilihan kata kunci trivial
Nilai batas atas dan bawah koefisien pada correlogram yang menentukan
sebuah wavelet dianggap memiliki tingkat keperiodikan tinggi atau rendah
Nilai 𝑅 yang menentukan nilai autocorrelation yang dianggap sebagai
kejadian berulang (trivial) dengan beberapa variasi.
Peringkasan
Jumlah cluster (k) yang digunakan dalam proses pengelompokkan
23
Batas frekuensi minimal kata w dalam proses cluster ordering dengan
beberapa variasi.
Semua parameter yang ada diuji dengan berbagai kombinasi nilai untuk
menghasilkan ringkasan yang bertujuan untuk mengoptimalkan nilai recall dan
silhouette dengan membandingkan apakah didahului oleh proses eliminasi terhadap
tweet yang mengandung kata kunci trivial atau tidak. Silhouette merupakan nilai
kualitas cluster yang mengindikasikan derajat kepemilikan setiap objek yang
berada di dalam cluster, sedangkan recall merupakan tingkat keberhasilan sistem
dalam menghasilkan sebuah ringkasan yang paling sesuai dibandingkan secara
manual. Proses evaluasi sistem mengacu pada nilai parameter-parameter yang telah
dioptimalkan sehingga mendapatkan hasil yang baik. Ringkasan akhir yang
terbentuk berdasarkan parameter-paramter optimal selanjutnya dievaluasi
berdasarkan nilai recall yang membandingkan dengan Groundtruth atau proses
manual.
Lingkungan pengembangan penelitian yang digunakan dalam penelitian
ini sebagai berikut:
1. Spesifikasi perangkat lunak yang digunakan:
a. Sistem operasi Centos 7 64-bit
b. IDE Aptana 3
c. Bahasa pemrograman Python, PHP, NodeJS
d. DBMS berbasis NoSQL MongoDB
2. Spesifikasi perangkat keras yang digunakan:
a. Intel(R) Xeon(R) CPU E5-2630L V2 @ 2.40GHz, RAM 512 MB,
hardisk 20 GB Memory (RAM) 8 GB
b. Implementasi dilakukan pada virtual machine Digital Ocean Singapura
dengan alamat http://socmed.io
Penelitian ini dilaksanakan di laboratorium Pascasarjana Fakultas
Teknologi Informasi, Jurusan Teknik Informatika, Institut Teknologi Sepuluh
Nopember. Penelitian ini dimulai dari bulan Oktober 2014 s/d April 2015.
24
3.5 Metode Evaluasi
Kualitas hasil pengelompokkan pada penelitian ini dievaluasi dengan
metode silhouette untuk kemudian dilakukan evaluasi pada hasil ringkasan
menggunakan recall. Nilai silhouette merupakan merupakan nilai kualitas cluster
yang menunjukkan derajat kedekatan antar objek di dalam sebuah cluster. Pada
penelitian ini akan dibandingkan hasil perhitungan cluster antara kumpulan data
tweet yang telah mengalami eliminasi untuk tweet yang mengandung kata kunci
trivial dengan kumpulan data tweet yang tidak mengalami proses eliminasi. Hasil
perhitungan terhadap kata kunci yang berulang secara periodik (trivial) akan
mengeliminasi sebagian besar tweet yang mengandung kata kunci trivial.
Pengukuran kualitas cluster digunakan metode evaluasi Silhouette
Coefficient (Rousseeuw, 1987). Silhouette Coefficient akan mengukur kualitas
cluster yang dihasilkan sekaligus mengindikasikan derajat kepemilikan setiap objek
yang berada di dalam cluster. Nilai Silhouette dari sebuah objek Oj berada pada
rentang antara -1 sampai dengan 1. Semakin dekat nilai Silhouette objek Oj ke 1,
maka semakin tinggi derajat Oj di dalam klaster. Dimana pada penelitian ini Oj
direpresentasikan dengan tweet. Adapun penghitungan nilai Silhouette (𝑠(𝑖)) untuk
tiap tweet menggunakan persamaan 3.1 dan 3.2. Dimana a(i) adalah jarak kedekatan
tweet i terhadap seluruh tweets yang ada di cluster internal, yaitu cluster tempat
tweet i berada. Sedangkan b adalah jarak kedekatan antara tweet i terhadap seluruh
cluster eksternal, yatiu seluruh cluster selain cluster internal.
𝑏(𝑖) = max𝑐𝑗≠𝐴
𝑑(𝑖, 𝑐𝑗) (3.1)
𝑠(𝑖) =𝑏(𝑖)−𝑎(𝑖)
max {𝑎(𝑖),𝑏(𝑖)} (3.2)
𝑟𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃
𝑇𝑃+𝐹𝑁 (3.3)
Setelah didapatkan nilai (𝑠(𝑖)) untuk tiap tweet pada tiap cluster langkah
selanjutnya adalah rata-rata nilai (𝑠(𝑖)) untuk tiap cluster atau yang lebih dikenal
dengan Average Silhouette Width (ASW). Nilai ASW ini mampu mengindikasikan
kualitas clustering. Berdasarkan range nilai ASW yang dihasilkan dibedakan
menjadi 4 kriteria (Rousseeuw, 1987), yaitu : sangat baik ( dengan range 0.71 ≤
ASW ≤ 1), sudah baik (0.51 ≤ ASW < 0.71), cukup baik (0.26 ≤ ASW < 0.51), dan
kurang baik (ASW < 0.26).
25
Nilai parameter yang terpengaruh untuk mendapatkan hasil silhouette dan
recall telah disebutkan pada bagian 3.4 yang kemudian dilakukan pencarian nilai
optimal untuk mendapatkan hasil evaluasi yang paling baik. Perbandingan kualitas
hasil pengelompokkan berdasarkan nilai silhouette dilakukan untuk mengetahui
apakah metode yang diajukan dapat berjalan efektif atau tidak. Metode-metode
yang diajukan adalah yang ada pada fase pemilihan tweet kejadian penting yang
dilakukan dengan mengeliminasi tweet yang mengandung kata kunci kejadian yang
berulang secara periodik. Setelah diketahui bahwa metode tersebut akan
menghasilkan hasil pengelompokkan yang baik, maka perhitungan ringkasan
dilakukan dengan metode recall seperti pada persaman 3.3 dimana tujuan utama
dari evaluasi ini adalah membandingkan hasil peringkasan yang dilakukan oleh
sistem terhadap hasil ringkasan yang dilakukan secara manual atau yang disebut
dengan groundtruth.
26
27
BAB 4
HASIL DAN PEMBAHASAN
Pada bab ini dipaparkan hasil uji coba penelitian yang telah dilakukan
terkait dengan peringkasan dokumen Twitter dengan melakukan pendeteksian
kejadian penting (non-trivial) untuk pemilihan kata kunci menggunakan metode
autocorrelation wavelet coefficient.
4.1 Implementasi Metode
Mengacu pada Gambar 3.2, ada lima fase yang dilalui dalam membangun
sistem deteksi kejadian trivial untuk pemilihan kata kunci pada peringkasan
dokumen Twitter yaitu text preprocessing, transformasi wavelet kata kunci,
autocorrelation wavelet, clustering tweet, dan peringkasan tweet. Spesifikasi
komputer server pemroses yang digunakan dalam implementasi adalah proses
Intel(R) Xeon(R) CPU E5-2630L v2 @ 2.40GHz, RAM 512 MB, hardisk 20 GB
dan alamat server socmed.io. Sistem operasi yang digunakan adalah Centos 7 64-
bit. Sedangkan spesifikasi perangkat lunak yang digunakan adalah Python 3.4,
PHP, NodeJS dengan IDE Aptana 3. Sistem diimplementasikan menggunakan
database NoSQL berbasis dokumen MongoDB yang disimpan dengan struktur file
JSON.
4.1.1 Implementasi Fase Text Preprocessing
Sesuai dengan sub sub-bab 3.2.1 terdapat tiga buah proses utama yang
terdapat pada fase ini yaitu segmentation (segmentasi), stopword removal, dan
stemming. Semua proses tersebut dilakukan secara langsung sebelum tweets
disimpan pada collections atau tabel pada database MongoDB. Tweets disimpan
dalam kondisi asli dan disertai juga dengan bentuk sudah melalui tahap preproses.
Langkah pertama yang dilakukan dalam fase ini adalah memproses
masing-masing tweet yang berformat JSON untuk diproses menghasilkan teks yang
siap diproses pada tahap selanjutnya. Gambar 4.1 merupakan contoh format
dokumen yang digunakan dalam penelitian ini.
28
Gambar 4.1 Format dokumen tweets sebagai dataset ujicoba
Proses segmentasi didahului dengan menghilangkan seluruh tanda baca
sehingga dalam tweets hanya tersisa huruf dan angka saja. Selanjutnya proses
segmentasi dilakukan dengan memecah masing-masing kata berdasarkan pembatas
spasi sehingga akan dihasilkan daftar term untuk masing-masing tweets. Proses
selanjutnya adalah mengeliminasi term yang terdapat terdaftar di dalam stopword
untuk dieliminasi dari dalam daftar term. Tahap akhir dari proses text preprocess
adalah dengan melakukan proses stemming yaitu melakukan perubahan term
menjadi bentuk dasarnya. Pada Gambar 4.2 potongan kode program untuk proses
inti dari fase text preprocess.
Gambar 4.2 Potongan Kode Program untuk Fase Text Preprocessing
Kalo lg mau foto ber2 megang kaca diketawain pkony ribet
@JawabJUJUR: Buat kalian, momen seperti apa yg bisa bikin
inget sama mantan ? #JJ
#fungsi untuk menghapus stopword
def get_stopword():
with open('/twitter/nlp/stopword_list.csv') as csvfile:
reader = csv.DictReader(csvfile)
global stopword
stopword=[]
for row in reader:
stopword.append(row['kata'])
#fungsi untuk memeriksa kata terdapat pada kamus/tidak
def get_kata(kata):
if kata in daftar_kata:
return 1
else:
return 0
#memotong akhiran pada sebuah kata
def potong_akhiran(kata):
kata = kata.lower();
akhiran1 = get_akhiran_1();
akhiran2 = get_akhiran_2();
akhiran3 = get_akhiran_3();
akhir = [None] * 3
akhir[0] = ""
akhir[1] = ""
akhir[2] = ""
29
4.1.2 Implementasi Fase Transformasi Wavelet Kata Kunci
Pada fase ini sesuai dengan sub sub-bab 2.7 dan 3.2.3 adalah melakukan
perubahan atau transformasi frekuensi kata kunci dari time-domain menjadi time-
scale-domain. Penjelasan mengenai transformasi wavelet telah dijelaskan pada
bagian sebelumnya yaitu menggunakan mother wavelet berjenis coiflet atau juga
disebut wavelet coifman. Secara singkat langkah ini adalah untuk menunjukkan
kelakuan sinyal secara temporal sehingga dapat digunakan pada analisis
selanjutnya. Secara garis besar fase ini terdiri dari tiga langkah yaitu pembentukan
sinyal yang berasal dari data frekuensi pada interval waktu tertentu, dekomposisi
sinyal menggunakan wavelet berjenis coiflet, dan pembentukan wavelet yang
menghasilkan coefficient approximately dan detail. Potongan kode program untuk
proses transformasi wavelet pada Gambar 4.3. Proses pembentukan wavelet
dilakukan dengan memproses data masukan berupa urutan waktu detail beserta
frekuensi pada masing-masing waktu tersebut sampai menjadi koefisien wavelet.
Gambar 4.3 Potongan Kode Program untuk Fase Transformasi Wavelet
4.1.3 Implementasi Fase Autocorrelation Wavelet
Fase perhitungan autocorrelation wavelet merupakan fase inti dari proses
pemilihan kata kunci. Proses ini dilakukan setelah mendapatkan koefisien wavelet
##############################
####wavelet transformation####
import pywt
cA, cD = pywt.dwt(table, 'coif1')
ax_1 = fig_1.add_subplot(111)
ax_2 = fig_2.add_subplot(111)
ax_1.plot(cA)
ax_2.plot(cD)
fig_1.savefig('approximation-wavelet.png')
plt2.title('Wavelet Detail')
plt2.xlabel('time lags')
plt2.ylabel('frequency')
fig_2.savefig('detail-wavelet.png')
result.append({"waktu":"cA","jumlah":link_cA});
result.append({"waktu":"cD","jumlah":link_cD});
print result
30
berupa nilai approximation dari perhitungan wavelet. Setelah mendapatkan nilai
tersebut maka dilakukan perhitungan autocorrelation seperti pada Gambar 4.4.
Gambar 4.4 Potongan Kode Program untuk Proses Autocorrelation
Pada potongan kode program di atas, proses perhitungan autocorrelation
dilakukan dengan menggunakan fungsi st.stattools.acf dengan parameter
masukan berupa koefisien wavelet dari proses sebelumnya dan nlags atau jumlah
berapa kali proses penggeseran dari wavelet. Setelah menghasilkan nilai korelasi
dari perhitungan autocorrelation maka dilakukan proses penghitungan jumlah
korelasi yang lebih besar dan lebih kecil dari nilai negatif dari confidence boundary
yang telah ditentukan sebelumnya. Proses akhir dari perhitungan autocorrelation
adalah berupa nilai yang akan digunakan sebagai penentuan apakah sebuah kata
kunci merupakan kata kunci trivial atau bukan.
4.1.4 Implementasi Fase Clustering Teks Tweet
Proses implementasi clustering tweet dilakukan setelah ditentukan kata
kunci mana yang dianggap kata kunci penting setelah dieliminasi kata kunci-kata
kunci yang dianggap trivial. Proses clustering menggunakan algoritma k-medoids
bertujuan untuk mengelompokkan teks tweet yang memiliki kesamaan topik ke
dalam satu cluster. Proses pengukuran similarity dilakukan menggunakan unigram
similarity seperti pada pembahasan sub bab 2.4 yang memperhitungkan tingkat
kemiripan antar tweet. Pada bagian ini akan ditampilkan Gambar 4.5 sebagai
#autocorrelation
autocorr_count =0
autocorr =[]
autocorr_res =[];
conf_boundary =0.25
for data in st.stattools.acf(result,nlags=len(result)):
if data >= conf_boundary:
autocorr_count+=1
if data <= -(conf_boundary):
autocorr_count+=1
autocorr.append(data)
print str(i)+"-"+term['term']+"-"+str(autocorr_count)
i=i+1
31
potongan kode program untuk melakukan proses clustering seperti pada gambar di
bawah ini.
Gambar 4.5 Potongan Kode Program untuk proses clustering tweet
Pada potongan kode program clustering di atas adalah untuk melakukan
proses perhitungan penentuan jarak sebuah tweet dengan tweet yang dijadikan
centroid untuk menghitung jarak terdekat yang diperoleh dari perhitungan
similarity dengan nilai terbesar. Proses perulangan untuk mendapatkan hasil nilai
medoids tetap dilakukan maksimal sebanyak tiga puluh kali sehingga akan
menghasilkan medoids yang tetap.
i=1
for tweet in collection.find(timeout=False).limit(limit):
print i
i=i+1
if cluster_list.find({"id_str":tweet['id_str']}).count()==0:
#pemeriksaan masing-masing cluster
distance_res=[]
for cluster in cluster_list.find({"is_medoid":"1"}):
tweet1['text_clean']=tweet1['text_clean'].strip()
total=tweet1['text_clean'].strip()+"
"+cluster['text'].strip()
union =len(total.split(" "))
n = 0.
words1 = set(tweet1['text_clean'].split())
for word in cluster['text'].split():
if word in words1:
n += 1
sim=float((2*n)/union)
distance_res.append(sim)
#jarak per tweet pada masing-masing cluster
if (len(distance_res)>0):
x=np.array(distance_res)
if(max(distance_res)>0.0):
text=
[{"id_str":""+tweet1['id_str']+"","cluster":""+str(int(x.a
rgmax()+1))+"","text":""+tweet1['text_clean']+"","is_medoi
d":"0","sim":max(distance_res)}]
cluster_list.insert(text);
32
4.1.5 Implementasi Fase Peringkasan Tweet
Proses peringkasan dilakukan dengan diawali proses ekstraksi kata kunci
dari masing-masing kelompok tweet yang sebelumnya telah diproses pada fase
clustering. Proses ekstraksi dilakukan dengan menggunakan pembobotan kata
berdasarkan Word Frequency (WF) kemudian menyeleksi kata yang memiliki nilai
bobot diatas nilai ambang. Sehingga hasil akhir dari proses ini adalah masing-
masing grup cluster memiliki kumpulan kata kunci yang merepresentasikan
kejadian atau topic words. Proses ekstraksi kata kunci dilakukan dengan kode
program seperti pada Gambar 4.6 dibawah ini.
Gambar 4.6 Potongan Kode Program untuk proses peringkasan
Setelah kata kunci penting pada masing-masing cluster telah ditentukan,
maka langkah selanjutnya adalah melakukan pembobotan pada masing-masing kata
kunci penting menggunakan konsep cluster importance. Pembobotan dilakukan
untuk menyeleksi sebuah kejadian yang paling trending atau paling banyak
diperbincangkan. Metode ini melakukan pengurutan tweet berdasarkan kesamaan
kata penting yang muncul pada cluster. Proses pengurutan tweet dilakukan pada
potongan kode program seperti pada Gambar 4.7 dibawah ini.
client = pymongo.MongoClient('localhost', 27017);
db = client['twitter']
collection = db["stream.indonesia.cluster"]
tf_collection = db["cluster.tf"]
tweets = collection.find({"cluster":cluster});
tf_collection.drop()
for text in tweets:
for term in set(text['text'].split()):
tf_collection.update({'term':term}, {'$inc': {'df':
1}}, upsert=True)
for term in text['text'].split():
tf_collection.update({'term':term}, {'$inc': {'tf':
1}}, upsert=True)
33
Gambar 4.7 Potongan Kode Program untuk menentukan Tweet hasil ringkasan
4.2 Data Ujicoba
Data ujicoba yang digunakan pada penelitian ini berasal dari data teks
Twitter atau yang disebut dengan tweet berbahasa Indonesia. Tweet diambil dengan
melakukan proses crawling menggunakan Twitter API dengan memanfaatkan
library Python Twitter 1.16.0. Dokumen tweets diambil menggunakan metode
Streaming APIs Twitter dimana proses pengambilan data tidak melakukan
penyaringan atau pemilihan terhadap kata kunci tertentu (non-query).
Proses pembatasan crawling pada tweet berbahasa Indonesia dilakukan
dengan membatasi proses Stream dengan konfigurasi geolocation atau lokasi
geografis Negara Indonesia yaitu 94,-11,141,6. Proses pengambilan dilakukan
secara kontinyu atau berkelanjutan selama sepuluh hari (15-24 Januari 2015)
dengan jumlah total tweet sebesar 643.196. Proses crawling secara langsung
memproses setiap tweet dengan melakukan tahap praproses seperti segmentation,
stopword removal, dan stemming. Setelah melewati tahap praproses, data Twitter
disimpan pada tiga tabel (collection) yang berbeda yaitu penyimpanan tweet asli
beserta tweet yang sudah terpreproses, tabel ‘term.frekuensi’ untuk masing-masing
kata, dan tabel detail masing-masing term beserta waktu. Struktur tabel (collection)
sebagai penyimpanan tweet ditampilkan pada Tabel 4.1.
vectorizer = TfidfVectorizer(min_df=1)
def cosine_sim(text1, text2):
tfidf = vectorizer.fit_transform([text1, text2])
return ((tfidf * tfidf.T).A)[0,1]
centroid = (sys.argv[1]).replace("-"," ")
score=[]
for x in content:
score.append(cosine_sim(centroid,x))
print ({np.argmax(score):max(score)})
34
Tabel 4.1 Struktur tabel penyimpanan tweet
No. Field Keterangan
1. ObjectId kode otomatis sebagai key dari database
2. Id_str kode tweet
3. Created_at Waktu pengiriman tweet
4. Text tweet sebelum melalui praproses
5. Text_clean tweet setelah melalui praproses
6. Screen_name Username pengirim tweet
Dokumen tweet yang tersimpan memiliki bentuk seperti pada Gambar 4.8
disimpan dalam format JSON merupakan implementasi dalam satu baris data yang
terdiri dari ‘_id’ merupakan kode unik yang secara otomatis diperoleh dari
MongoDB, ‘screen_name’ merupakan id pengguna yang ditampilkan secara
publik, ‘text’ merupakan pesan teks dari sebuah tweet yang merupakan sumber
informasi yang akan diproses, ‘created_at’ merupakan waktu tweet tersebut
dikirim, ‘text_clean’ merupakan data pada ‘text’ yang telah melewati tahap
preproses, dan ‘id_str’ merupakan kode id masing-masing tweet.
Gambar 4.8 Struktur data penyimpanan tweet format JSON
Proses pengambilan tweet secara langsung memproses tweet untuk
dilakukan tahap praproses juga dilakukan perhitungan word frequency atau
frekuensi kemunculan kata kunci yang memiliki struktur seperti pada Tabel 4.2.
Tabel 4.2 Struktur tabel term frequency
No. Field Keterangan
1. ObjectId Id otomatis sebagai key dari database
2. Term Kata atau term identik
3. Count Jumlah kemunculan atau term frequency
{
"_id" : ObjectId("54de48ab86b6a96291f1f274"),
"screen_name" : "nyonk_ambone",
"text":"Happy valentine buat kamu http://t.co/bZCCOc",
"created_at" : "2015-02-14 01:55:38",
"text_clean" : "happy valentine ",
"id_str" : "566309298242736128"
}
35
Pemrosesan dipercepat dengan melakukan penyimpanan frekuensi masing-
masing kata atau word frequency yang dilakukan dengan menyimpan kata kunci
beserta frekuensi seperti yang ditampilkan pada Gambar 4.9.
Gambar 4.9 Struktur data collection term frequency format JSON
Setiap kemunculan kata kunci akan disimpan ke dalam tabel ‘term detail
frequency’ yang akan mencatat secara historikal kemunculan kata kunci yang
disertai dengan waktu kemunculan seperti pada Tabel 4.3. Data ini dibutuhkan saat
proses transformasi wavelet yang memperhatikan urutan kemunculan kata kunci.
Tabel 4.3 Struktur tabel term detail frequency
No. Field Keterangan
1. ObjectId Id otomatis sebagai key dari database
2. Term Kata atau term
3. Created at Waktu kemunculan term pada tweet
Proses perhitungan transformasi wavelet membutuhkan informasi waktu
kemunculan pada masing-masing kata kunci, maka masing-masing kemunculan
kata kunci disimpan di dalam sebuah struktur tabel yang memberikan informasi
kemunculan kata kunci dengan informasi waktu kemunculannya seperti pada
Gambar 4.10.
Gambar 4.10 Struktur data collection detail frequency format JSON
Seluruh data disimpan pada database MongoDB dengan format JSON
memiliki ukuran total sebesar 1046.89 MB.
{
"_id" : ObjectId("54e2925bbb50ee6a113c420b"),
"term" : "pagi",
"count" : 12560
}
{
"_id" : ObjectId("54e288acbb50ee6a112b1a87"),
"term" : "tinggi",
"created_at" : "2015-01-15 00:00:00"
}
36
4.3 Hasil dan Ujicoba
Pada sub-bab ini dipaparkan hasil ujicoba dari sistem pemilihan kata kunci
untuk pendeteksian kejadian trivial pada peringkasan dokumen twitter dengan
metode perhitungan yang ditentukan. Ujicoba yang akan dilakukan terdiri dari dua
skenario yaitu ujicoba 1 dan ujicoba 2.
Ujicoba 1 terkait dengan pengujian perhitungan wavelet autocorrelation pada
kata kunci yang merupakan kontribusi pada penelitian ini. Pengujian ini akan
mendapatkan nilai optimal confidence boundary dan nilai minimum koefisien
wavelet pada kata kunci yang tergolong trivial. Setelah didapatkan nilai yang
optimal maka selanjutnya akan didapatkan kata kunci-kata kunci yang berulang
secara periodik yang merupakan kejadian trivial. Kejadian trivial seperti yang
dijelaskan pada bagian sebelumnya adalah kejadian yang muncul berulang secara
periodik. Setelah dilakukan eliminasi pada tweet yang mengandung kata kunci
trivial maka langkah selanjutnya adalah proses clustering yaitu membagi tweet
menjadi beberapa kelompok cluster. Penentuan nilai optimal confidence boundary
dan minimum nilai autocorrelation dilakukan dengan pengamatan secara manual
terhadap kata kunci yang muncul pada nilai tertentu. Nilai terbaik muncul ketika
seluruh kata kunci pada rentang nilai-nilai tersebut merupakan tergolong kata kunci
trivial.
Ujicoba 2 terkait dengan pengukuran kualitas pengelompokan dan
peringkasan tweet dalam cluster. Pengukuran kualitas clustering dilakukan untuk
melihat pengaruh proses perhitungan autocorrelation pada wavelet kata kunci
dengan membandingkan pada kumpulan tweet yang sebelumnya telah dilakukan
proses eliminasi tweet yang mengandung kata kunci trivial dengan yang tidak
melalui tahap eliminasi. Setelah dilakukan eliminasi pada tweet yang mengandung
kata kunci trivial maka langkah selanjutnya adalah proses clustering yaitu membagi
tweet menjadi beberapa kelompok cluster. Hasil dari pengelompokkan tweet inilah
yang nantinya akan dimanfaatkan pada tahap peringkasan. Untuk pengelompokan
tweet, penelitian ini menggunakan algoritma K-medoids. Sedangkan untuk
mengukur kualitas clustering digunakan metode evaluasi Silhouette. Pengujian
peringkasan dilakukan pada masing-masing cluster yang telah terbentuk dari proses
sebelumnya. Metode peringkasan dilakukan secara ekstraktif seperti yang telah
37
dijelaskan pada bagian 2.1 yang memiliki fokus mencari bagian mana yang dapat
digunakan sebagai hasil peringkasan. Proses peringkasan yang dilakukan dengan
menghitung similarity masing-masing tweet dalam cluster dengan N kata kunci
yang memiliki word frequency tinggi setelah proses clustering. Pengukuran
performa peringkasan pada masing-masing cluster metode evaluasi berupa recall
seperti pada sub bab 3.5. Penelitian ini menggunakan Groundtruth yang
membandingkan ringkasan yang dihasilkan oleh sistem. Groundtruth diperoleh
dengan melakukan kuesioner pada kelas mata kuliah Analisis Sosial Media dengan
jumlah responden sebanyak 33 mahasiswa pada tahun 2015.
4.3.1 Ujicoba 1 : Pengujian Autocorrelation Wavelet Kata Kunci
Tujuan dari ujicoba 1 ini adalah untuk menentukan nilai confidence
boundary atau nilai ambang batas apakah sebuah wavelet tergolong periodik atau
tidak. Proses penentuan tingkat keperiodikan sebuah wavelet dilakukan dengan
melakukan perhitungan autocorrelation seperti pada persamaan 2.8 yang
menghasilkan nilai koefisien yang direpresentasikan secara grafis ke dalam
correlogram. Apabila sebuah koefisien correlogram dari kata kunci melewati batas
tersebut maka kata kunci tergolong statistically significant atau bisa dianggap kata
kunci memiliki tingkat keperiodikan tinggi. Pada penelitian ini digunakan nilai
Bartlett’s formula yang merupakan tetapan yang biasa digunakan pada perhitungan
autocorrelation sebesar 0.05 sebagai confidence boundary dengan disertai beberapa
nilai lain yang berada dibawah ataupun diatas nilai berdasarkan Bartlett’s formula.
Proses perhitungan dilakukan dengan memperhatikan frekuensi
kemunculan kata kunci atau word frequency (WF) dengan memperhatikan kata
kunci yang memiliki kemunculan frekuensi tinggi. Pada Tabel 4.4 ditampilkan 50
kata kunci WF tertinggi yang merupakan cuplikan dari 4000 kata kunci WF
tertinggi yang akan diproses dalam perhitungan autocorrelation. Nilai 4000 WF
tertinggi tersebut ditentukan karena apabila lebih dari 4000 WF terbesar, maka nilai
autocorrelation akan kurang dari sama dengan 0 yang bermakna bahwa kata kunci
tersebut tidak muncul secara periodik (non-trivial).
38
Tabel 4.4 Tabel frekuensi kata kunci
No. Kata Kunci Frekuensi No. Kata Kunci Frekuensi
1 pagi 12560 26 kerja 3259
2 selamat 8411 27 follow 3257
3 orang 6956 28 jakarta 3256
4 tidur 6231 29 wkwk 3221
5 hati 5561 30 indonesia 3192
6 makan 5545 31 anak 3184
7 kalo 5479 32 bangun 3171
8 morning 5239 33 semangat 2996
9 happy 4753 34 kali 2840
10 malam 4713 35 indah 2807
11 sayang 4641 36 mata 2729
12 love 4522 37 main 2718
13 rumah 4399 38 hidup 2709
14 polri 4375 39 lupa 2707
15 good 4228 40 dont 2694
16 cinta 4090 41 follback 2673
17 jalan 3942 42 salah 2668
18 sakit 3939 43 sekolah 2627
19 banget 3791 44 alhamdulillah 2500
20 moga 3715 45 hujan 2460
21 suka 3442 46 bambang 2447
22 time 3382 47 rindu 2440
23 savekpk 3374 48 kangen 2401
24 negeri 3349 49 Bang 2400
25 biar 3345 50 Hehe 2383
Proses perhitungan autocorrelation dilakukan pada masing-masing kata
kunci yang didahului dengan proses transformasi wavelet. Pembentukan atau
transformasi wavelet dilakukan dengan mengelompokan kemunculan kejadian ke
dalam kelompok interval waktu, pada penelitian ini interval waktu adalah selama
60 menit. Tabel 4.5 merupakan contoh frekuensi kemunculan pada interval waktu.
Pada contoh kata ‘pagi’ dalam satu hari terdapat 1207 tweet yang terdapat kata
‘pagi’ yang terbagi dalam frekuensi pada Tabel 4.5 dengan total tweet sekitar
85000.
Tabel 4.5 Tabel frekuensi kata kunci per interval kata kunci ‘pagi’
No. Interval waktu Frekuensi
1 2015-01-15 00:00:00 16
2 2015-01-15 01:00:00 25
3 2015-01-15 02:00:00 50
4 2015-01-15 03:00:00 81
5 2015-01-15 04:00:00 141
6 2015-01-15 05:00:00 253
7 2015-01-15 06:00:00 186
8 2015-01-15 07:00:00 183
9 2015-01-15 08:00:00 119
39
10 2015-01-15 09:00:00 49
11 2015-01-15 10:00:00 37
12 2015-01-15 11:00:00 14
13 2015-01-15 12:00:00 10
14 2015-01-15 13:00:00 7
15 2015-01-15 14:00:00 10
16 2015-01-15 15:00:00 6
17 2015-01-15 16:00:00 4
18 2015-01-15 17:00:00 3
19 2015-01-15 18:00:00 5
20 2015-01-15 19:00:00 8
Frekuensi kemunculan kata kunci per interval waktu selanjutnya akan
digunakan dalam proses transformasi wavelet yang pada proses ini menggunakan
mother wavelet jenis coiflet seperti pada penjelasan bagian 2.7 dan 3.2.3. Proses
pembentukan wavelet akan menghasilkan koefisien wavelet yang nantinya akan
digunakan dalam merepresentasikan wavelet secara grafis. Pada Tabel 4.6
merupakan contoh nilai koefisien dari kata kunci ‘pagi’ yang telah dikelompokan
pada interval per 60 menit pada Tabel 4.5. Setelah koefisien wavelet diperoleh dari
proses sebelumnya, maka langkah selanjutnya merepresentasikan koefisien-
koefisien tersebut secara grafis seperti pada Gambar 4.7 yang merupakan wavelet
pada kata kunci ‘pagi’.
Tabel 4.6 Tabel koefisien wavelet pada kata kunci ‘pagi’
No. Koefisien wavelet
1 36.920
2 21.946
3 66.870
4 224.923
5 294.819
6 165.711
7 43.998
8 12.437
9 12.134
10 5.376
11 7.331
12 11.458
13 8.028
14 16.075
15 34.367
16 179.361
17 262.927
18 124.119
19 37.585
20 9.994
40
Gambar 4.11 Wavelet kata kunci ‘pagi’
Setelah kata kunci melalui tahap transformasi wavelet dalam bentuk
koefisien wavelet, selanjutnya adalah melakukan perhitungan nilai autocorrelation
yang menghasilkan correlogram dengan variasi nilai confidence boundary.
Penentuan nilai autocorrelation dipengaruhi oleh nilai confidence boundary yang
digunakan sebagai batasan kriteria sebuah kata kunci merupakan kata kunci trivial
atau tidak. Pada uji coba digunakan acuan nilai Bartlett’s formula sebesar 5% (0.05)
sebagai nilai yang biasa digunakan sebagai confidence boundary serta beberapa
variasi nilai untuk mencari nilai yang lebih optimal seperti 0.10, 0.15, 0.20, dan
0.25. Tabel 4.7 merupakan hasil perhitungan autocorrelation yang paling optimal
dengan confidence boundary 0.20 berdasarkan hasil pengamatan secara manual
pada masing-masing confidence boundary. Kriteria penentuan nilai confidence
boundary secara manual dipertimbangkan berdasarkan kedekatan hubungan sebuah
kata kunci dengan keterangan waktu atau kata kunci terkait dengan hal-hal yang
dilakukan secara jelas pada waktu-waktu tertentu.
Tabel 4.7 Tabel jumlah nilai autocorrelation kata kunci
No. Kata Kunci Jumlah autocorrelation > 0.20
1 tidur 61
2 night 61
3 good 60
4 pagi 58
5 malam 52
6 bangun 51
7 sleep 45
8 mall 45
9 selamat 43
10 morning 38
41
No. Kata Kunci Jumlah autocorrelation >0.20
11 cafe 38
12 ayam 38
13 bismillah 36
14 sarap 36
15 lunch 34
16 semangat 31
17 ngantuk 31
18 langor 30
19 mimpi 29
20 besok 27
Pada Tabel 4.7 merupakan hasil perhitungan autocorrelation kata kunci
yang didasarkan pada jumlah kemunculan kata berfrekuensi tinggi. Semakin tinggi
jumlah autocorrelation mengindikasikan bahwa kata kunci tersebut memiliki
tingkat keperiodikan yang tinggi pula. Berikut adalah beberapa gambar pasangan
wavelet dengan correlogram dari kata kunci yang memiliki nilai autocorrelation
yang bervariasi. Pada bagian ini akan ditampilkan Gambar 4.12, Gambar 4.13, dan
Gambar 4.14 yang merupakan variasi wavelet dan correlogram untuk kata kunci
yang memiliki nilai jumlah autocorrelation tinggi, rendah, dan sedang. Proses
selanjutnya adalah eliminasi tweet yang mengandung kata kunci yang memiliki
jumlah autocorrelation tinggi. Perhitungan autocorrelation dilakukan dengan
dengan menghitung jumlah koefisien yang berada di luar batas confidence
boundary sebagai nilai koefisien. Pada correlogram terdapat lag yang merupakan
jumlah tingkat pergeseran wavelet dalam proses mengkorelasikan.
Gambar 4.12 Wavelet dan correlogram kata kunci ‘pagi’ yang memiliki nilai
korelasi tinggi (akan dilakukan proses eliminasi pada tweet yang mengandung kata
kunci yang memiliki tingkat korelasi tinggi)
42
Gambar 4.13 Wavelet dan correlogram kata kunci ‘polri’ yang memiliki nilai
korelasi rendah (tidak dilakukan proses eliminasi pada kata kunci yang
mengandung kata kunci yang memiliki tingkat korelasi rendah)
Gambar 4.14 Wavelet dan correlogram kata kunci ‘kerja’ yang memiliki nilai
korelasi sedang (akan dilakukan eliminasi apabila perhitungan autocorrelation
pada correlogram lebih dari atau sama dengan batas yang ditentukan manual)
4.3.2. Ujicoba 2 : Pengukuran Kualitas Clustering dan Peringkasan
Tujuan dari ujicoba 2 ini adalah untuk mengukur kualitas clustering dan
peringkasan. Dimana clustering merupakan salah satu fase pada penelitian ini yang
bertujuan untuk mengelompokkan tweet yang selanjutnya akan digunakan pada
proses peringkasan. Proses clustering dilakukan pada kumpulan tweet yang belum
dieliminasi oleh kata kunci yang berulang periodik dan yang sudah dieliminasi
seperti kata kunci pada Tabel 4.7. Sebagaimana dijelaskan pada bab 3 bahwa
43
penelitian menggunakan algoritma K-medoids untuk pengelompokkan tweet.
Adapun langkah-langkah pengelompokkan tweet dijelaskan pada Gambar 4.15.
start
Kumpulan
tweets
Inisialisasi k,
Inisialisasi medoids,
Hitung jarak similarity
tweets terhadap medoids
(cost baru)
Update medoids
Hitung jarak similarity
tweets terhadap medoids
(cost lama)
Cost baru>cost lama? Update cost
End
N
Y
Gambar 4.15. Proses pengelompokkan tweets dengan k-medoids
Skenario pengujian clustering akan dilakukan dengan memberikan
beberapa variasi jumlah centroid (k) atau titik pusat untuk mendapatkan satu hasil
clustering yang terbaik yang selanjutnya hasil pengelompokkan akan digunakan
untuk proses peringkasan. Pengukuran kualitas clustering menggunakan metode
evaluasi Silhouette yang telah dibahas pada sub bab 3.4 dan 3.5.
Salah satu permasalahan yang mempengaruhi hasil clustering adalah
penentuan jumlah centroid (k). Dalam penelitian ini, untuk mendapatkan nilai k
yang optimal dilakukan ujicoba dari beberapa nilai k untuk kemudian dipilih jumlah
k terbaik. Ujicoba nilai k dimulai dari k=2 sampai nilai k yang menunjukkan nilai
Silhouette yang memiliki kecenderungan menurun. Hasil clustering untuk setiap
nilai k akan dihitung validasinya menggunakan metode Silhouette (s) tweet i sesuai
dengan Persamaan 3.1 dan Persamaan 3.2.
Selanjutnya akan dihitung rata-rata nilai Silhouette untuk tiap cluster
(ASW) untuk mengetahui kualitas dari clustering, penjelasan tentang Silhouette dan
ASW dapat dilihat pada subbab 3.5. Clustering dengan k terbaik adalah yang
memiliki nilai rata-rata Silhouette paling besar. Selanjutnya hasil clustering dengan
44
nilai k terbaik atau k optimal inilah yang digunakan untuk melakukan peringkasan
tweet.
Tabel 4.8 menunjukkan hasil perhitungan cluster dengan jumlah k terbaik
(k optimal) berdasarkan besar nilai ASW sekaligus inisialisasi centroid. Berikut
kata kunci dengan Medoid pada masing-masing cluster dengan nilai rata-rata
Silhouette clustering yang terbaik dengan nilai 0.45 dengan nilai k adalah 12.
Tabel 4.8 Tabel Kata Kunci Masing-masing Cluster pada Tweet yang Sudah
Dieliminasi Kata Kunci Periodik
Cluster Kata kunci Waktu Id Tweet Medoid Silhouette
0
jakarta, dki, smkn, selat, pusat,
smpn, barat, timur indonesia,
smk
2015-01-17
06:08:15
554731350964453377 0.45
1
mati, pas, temu, hukum, lampu,
moga, hujan, narkoba,
koruptor, korupsi
2015-01-16
03:07:15
554911882503405568
2
moga, amin, doa, aamiin, hasil,
sembuh, berkah, cepat, sukses,
CR7
2015-01-15
01:57:48
554713811211386881
3
budi, calon, sangka, kapolri,
kpk, gunawan, jokowi, komjen,
dpr, bg
2015-01-15
15:47:52
554922719599271936
4
bahagia, sederhana, cinta,
senyum, buat, doa, sedih,
syukur, sakit, temu
2015-01-17
04:01:59
554745127239831552
5 turun, harga, bbm, hujan, latih
tarif, premium, rp, rncn
2015-01-20
05:13:23
554763061324554240
6
hujan, deras, reda, turun,
pulang, henti, awet, cuaca,
lebat, ringan
2015-01-20
01:38:28
554708949648166912
7
ronaldo, dor, ballon, cristiano,
congrats, fifa, ssi, neuer,
congratulation
2015-01-24
01:23:56
554705310653218816
8 kawan, gila, main, suka, moga,
sukses, tarik, salah, sangka
2015-01-16
01:42:03
554709908055011329
9
sukses, moga, hbd, amin, gagal,
theworldofaliando, doa, raih,
usaha, keras,
2015-01-16
05:28:09
555129165045723137
10 kerja, moga, gila, coba, dunia,
menang, turun, pilih, rasa, serah
2015-01-15
14:51:20
554908266212237312
11
mkwikku, mobilenya, kwikku,
jejaring, saran, sosial, kritik,
mohon, indonesia
2015-01-20
04:29:50
555114522520723456
Pada Tabel 4.8 dan Tabel 4.9 terdapat ‘Id Tweet medoid’ atau titik pusat
cluster, dimana masing-masing cluster memiliki medoids sebanyak satu. Jumlah
medoids ditentukan oleh nilai k yang telah ditentukan sebelumnya. Dimana dalam
penelitian ini menggunakan nilai k yang paling optimal. Tiap medoids tersebut akan
45
menunjuk pada angka yang merupakan id_str atau kode unik yang dimiliki oleh
masing-masing tweet yang ditampilkan pada kolom ‘Id Tweet Medoid’.
Tweet yang ditunjuk sebagai medoids ini nantinya yang akan dibandingkan
kemiripannya dengan tweet lainnya. Perhitungan jarak kemiripan antara tweets
terhadap medoids menggunakan uni-gram similarity. Setelah dihitung jarak
kemiripan tweets terhadap medoids langkah selanjutnya adalah menghitung total
cost dari cluster. Total cost inilah yang akan menentukan perlu tidaknya dilakukan
update medoids. Jika total cost baru (current) lebih besar dari total cost lama (past)
maka akan dilakukan update medoids, jika tidak maka medoids yang digunakan
adalah medoids lama.
Pada Tabel 4.9 menunjukkan hasil perhitungan clustering dari tweet yang
tidak didahului dengan proses eliminasi pada tweet yang mengandung kata kunci
yang berulang secara periodik. Hasil terbaik untuk nilai ASW cluster yang
terbentuk adalah sebesar 0.03 dengan menghasilkan sejumlah 22 cluster. Pada
Tabel 4.9 terlihat kata-kata yang muncul merupakan kata kunci trivial seperti kata
‘morning’ pada cluster 1, ‘pagi’ pada cluster 3, ‘bismillah’ pada cluster 16 dan kata
kunci lainnya.
Tabel 4.9 Tabel Kata Kunci Masing-masing Cluster pada Tweet yang tidak
Dieliminasi Kata Kunci Periodik
Cluster Kata kunci Id Tweet Medoid Silhouette
0 banget, kadang, chat, orang, baper, grup, ken,
sih, hati, sakit,
555116871743901000 0.0300
1 morning, tidur, love, good, malam, follow,
happy, makan, selamat, hati
555116800918129000
2 mall, tang, town, city, george, ioi, bayan,
square, avenue, lepas
555117026777323000
3 Alhamdulillah, masuk, al, selamat, syukur,
pagi, jam, sekolah, rumah, sampe
555117462146595000
4 Je, dgn, sikit, t, goal, mcm, nk, kat, org, haah 555116697161832000
5 Pagi, selamat, hotel, ayam, sarap, semangat,
bubur, bangun, mie, sayang
555116319531410000
6 Semangat, lupa, jaga, sehat, moga, jgn, hati,
shooting, al, yaa
555116811958817000
7 Negeri, sma, smk, makassar, smp, jakarta,
sembilan, surabaya, politeknik, seremban
555117409467819000
8 Kena, pulak, t, la, je, kat, esok, mcm, nk, dgn 555116529303495000
9 Kangen, salah, bgt, m, dr, kabar, ahaha, sih,
hati, ta
555114714295078000
10 Sayang, kalo, nggak, ngerti, gin, ta, banget,
mah, sih, hati
555117118225055000
11 Hujan, kuliah, berangkat, pagipagi, pagi, gin,
turun, jam, deras, sekolah
555116320346657000
46
Cluster Kata kunci Id Tweet Medoid
12 Today, day, good, persijaday, happy,
morning, yesterday, birthday, tomorrow, time
555114617394532000
13 Follback, yaa, follow, tion, mksh, ka, min,
yah, makasih, donk
555115474441955000
14 La, duit, t, je, nk, kat, mcm, org, tido, dh 555114577825990000
15 Orang, suka, tungg, rela, sayang, cinta, hati, t,
hidup, bahagia
555117148492563000
16 Bismillah, moga, lancar, al, pagi, semangat,
otw, selamat, uas, amin
555115700929121000
17 Kuala, lumpur, wp, music, international,
airport, langor, sepang, federal, territory
555116417949716000
18 Np, bareng, kpk, goyang, md, cc, polri,
dumang, justmusic, savekpk
555115946840681000
19 Lfie, otw, gor, cibubur, likeforlike, latepost,
bimasakti, instalike, foto, kota
555114726967285000
20 Ketem, ade, kantor, bakar, intan, roti, ayam,
mad, ikan, pusat
555117334184103000
21 Banget, kadang, chat, orang, baper, grup, ken 555116871743901000
Proses perhitungan cluster yang dilakukan dengan menggunakan algoritma
k-medoids kemudian diikuti dengan perhitungan WF (Word Frequency) pada
masing-masing cluster sehingga menghasilkan kata kunci yang memiliki frekuensi
kemunculan yang tinggi. Kata kunci yang sering muncul selanjutnya digunakan
untuk menentukan tweet yang paling mewakili dalam sebuah cluster untuk menjadi
tweet hasil peringkasan. Nilai WF menunjukkan banyaknya term i yang muncul
pada cluster j. Semakin banyak kemunculan term maka nilai WF dari term tersebut
semakin besar dan term tersebut dianggap semakin penting. Pada Tabel 4.7 dan
Tabel 4.8 dimunculkan sepuluh kata kunci yang memiliki frekuensi tinggi. Pada uji
coba dilakukan penggunaan nilai WF > 1 untuk masing-masing cluster.
Selanjutnya dari hasil proses ekstraksi untuk setiap cluster yang telah
didapatkan selanjutnya dilakukan pembobotan masing-masing tweet dalam cluster
yang memiliki bobot paling besar sesuai kata kunci yang muncul setelah proses
perhitungan WF. Pemilihan tweet yang paling mewakili dilakukan dengan
menghitung jarak atau similarity kata kunci hasil perhitungan WF dengan masing-
masing tweet sehingga akan ditemukan satu tweet yang paling mewakili dan
nantinya dianggap sebagai hasil peringkasan karena merupakan tweet paling
penting pada sebuah cluster.
Tabel 4.7 dan Tabel 4.8 menunjukkan hasil ekstraksi kata kunci yang
dihitung pada masing-masing cluster dengan membandingkan antara proses yang
47
didahului dengan pendeteksian kata yang berulang secara periodik dan tidak. Hasil
menunjukkan apabila tidak dilakukan proses eliminasi terhadap tweet yang
mengandung kata yang berulang secara periodik akan menghasilkan jumlah cluster
yang lebih besar untuk mendapatkan nilai Silhouette yang paling baik pada uji coba.
Proses peringkasan yang dihasilkan oleh sistem didapatkan dengan mencari
tweet yang paling mewakili topik dalam sebuah cluster. Tweet yang paling
mewakili merupakan tweet yang memiliki nilai similarity terbesar terhadap topical
word atau kata kunci yang memiliki word frequency tinggi dalam sebuah cluster.
Proses pengukuran akurasi terhadap hasil peringkasan dilakukan dengan
membandingkan hasil ringkasan yang dihasilkan oleh sistem dengan groundtruth
yang merupakan hasil peringkasan secara manual melalui kuesioner dari 33
responden yang berasal dari mahasiswa mata kuliah Analisis Sosial Media. Pada
Tabel 4.10 proses pengambilan kuisioner dengan menentukan mana yang dianggap
sebagai hasil ringkasan. Penghitungan akurasi mengadopsi perhitungan ROUGE
yaitu berdasarkan nilai recall yang merupakan tingkat keberhasilan sistem dalam
melakukan peringkasan dibandingkan dengan yang telah dilakukan secara manual
seperti yang telah dijelaskan pada bagian sub bab 3.5. Contoh tweet hasil
peringkasan ditunjukkan pada Gambar 4.16.
Gambar 4.16 Tweet hasil proses peringkasan
Tabel 4.10 Contoh Kuisioner Hasil Peringkasan dengan Masukan Berupa Ranking
No Tweet Ranking
( 1 – 4 )
1 SMK Jakarta Pusat 1 http://t.co/Nnfmsd739a
2 I'm at @PlazaIndonesia in Jakarta Pusat, DKI Jakarta https://t.co/KLL5bPGI2c
3 I'm at @ChatimeIndo in Jakarta Pusat, DKI Jakarta https://t.co/BZFoHb9xuF
4 Hangout (at @PlazaSenayan in Jakarta Pusat, DKI Jakarta)
http://t.co/exKTjhQBB6
4.4 Analisa dan Pembahasan
4.4.1. Analisa Pemilihan Kata Kunci Kejadian Trivial
Pada subbab 3.2.3 telah dijelaskan bahwa pada pendeteksian kejadian
Trivial dilakukan dengan mendeteksi kata kunci yang berulang secara periodik.
Proses dilakukan dengan melakukan pengurutan kata kunci berdasarkan WF (Word
@GunRomli: Jokowi payah RT @kompascom KPK Tetapkan Calon
Kapolri Budi Gunawan sebagai Tersangka http://t.co/H0yCqMQCg2
48
Frequency) untuk selanjutnya dihitung frekuensi yang dikumpulkan pada interval
tertentu. Pada proses ujicoba digunakan waktu interval sebesar satu jam yang
nantinya masing-masing interval akan digunakan untuk proses transformasi
wavelet. Setelah masing-masing kata kunci sudah melalui proses transformasi,
maka selanjutnya adalah perhitungan nilai autocorrelation untuk mengetahui
tingkat keperiodikan kemunculan kata kunci yang akan menjadi pertimbangan
dalam menentukan kata kunci tersebut merupakan kejadian trivial atau tidak.
Hasil dari perhitungan frekuensi kemunculan kata kunci yang sudah
dikelompakan berdasarkan interval waktu terdapat pada Tabel 4.5 yang kemudian
digunakan sebagai masukan untuk proses transformasi wavelet yang akan
menghasilkan wavelet coefficient seperti pada Tabel 4.6. Setelah proses
transformasi, untuk mendapatkan hasil apakah sebuah kata kunci merupakan kata
kunci yang berulang secara periodik adalah dengan melakukan perhitungan
autocorrelation dengan menghitung koefisien yang berada diatas confidence
boundary yang telah ditentukan. Hasil pengamatan secara manual menunjukkan
bahwa nilai confidence boundary yang paling optimal adalah sebesar 0.20 dengan
nilai minimal autocorrelation sebesar 27. Kata kunci hasil perhitungan
autocorrelation yang berada diatas nilai minimal adalah tidur, night, good, pagi,
malam, bangun, sleep, mall, selamat, morning, cafe, ayam, bismillah, sarap, lunch,
semangat, ngantuk, mimpi, besok. Pemilihan confidence boundary dan nilai
minimal autocorrelation dilakukan dengan pengamatan secara manual apakah
sebuah kata tergolong kata kunci trivial atau tidak. Nilai autocorrelation diperoleh
untuk menentukan apakah kata kunci tergolong representasi kejadian trivial atau
tidak. Hasil penelitian menunjukkan bahwa kata kunci yang memiliki nilai
autocorrelation tinggi adalah kata kunci yang memiliki kedekatan makna dengan
kata keterangan waktu dan kata yang kemunculannya jelas pada waktu-waktu
tertentu.
Selanjutnya akan dilakukan proses eliminasi terhadap tweet yang
mengandung kata kunci yang memiliki nilai minimal autocorrelation dan
confidence boundary yang ditentukan pada proses sebelumnya. Proses eliminasi
akan mempengaruhi jumlah tweets yang diproses pada tahap pengelompokkan dan
peringkasan.
49
4.4.2. Analisa Pengelompokkan Tweets dan Peringkasan
Pada subbab 3.5 telah dijelaskan tentang empat kriteria kualitas clustering
berdasarkan nilai ASW yang dihasilkan. Tabel 4.7 dan 4.8 menunjukkan hasil k
atau jumlah cluster optimal berdasarkan nilai ASW terbesar untuk kumpulan tweets
yang belum dieliminasi (Tabel 4.8) dan sudah dieliminasi kata kunci yang berulang
secara periodik (Tabel 4.7). Apabila dilihat dari kualitas cluster dari kedua buah
tabel maka hasil perhitungan menunjukkan bahwa pada Tabel 4.8 dari kumpulan
tweets yang tidak didahului dengan proses eliminasi maka hasil optimal
berdasarkan ASW menghasilkan 21 cluster dengan nilai ASW 0.0300 dimana
memiliki kriteria kualitas cluster “kurang baik”. Sedangkan pada Tabel 4.7 dari
kumpulan tweets yang dilakukan tahap eliminasi pada tweets yang mengandung
kata kunci yang berulang secara periodik berdasarkan ASW menghasilkan 11
cluster dengan nilai ASW 0.45 dimana memiliki kualitas cluster “cukup baik”.
Hasil analisa tentang kualitas cluster dengan menggunakan metode evaluasi
Silhoutte dapat disimpulkan bahwa nilai ASW untuk kumpulan tweets yang
didahului dengan eliminasi pada tweets yang mengandung kata kunci trivial yaitu
kata kunci yang berulang secara periodik akan menghasilkan nilai yang lebih tinggi
yaitu 0.45 dengan kualitas “cukup baik” karena jumlah tweets yang diproses lebih
kecil dan terfokus pada kejadian penting saja.
Pada algoritma K-medoids akan dilakukan update centroid ketika
memenuhi kondisi cost baru bernilai lebih besar daripada cost lama (current cost>
past cost). Hal ini dilakukan sampai kondisi cost baru bernilai lebih kecil sama
dengan cost lama (current cost <= past cost). Kelemahan dari algoritma medoids
adalah jika pada iterasi pertama sudah memenuhi kondisi current cost <= past cost
sehingga iterasi hanya dilakukans sekali. Hal ini mengakibatkan update centroid
tidak pernah dilakukan yang akan mengakibatkan hasil clustering menjadi kurang
optimal. Selain ketidakoptimalan pada proses pengelompokan tweets juga
mengalami adanya data outlier.
Proses peringkasan yang dilakukan pada masing-masing cluster
menghasilkan sebuah ringkasan berupa sebuah tweet yang dianggap paling
mewakili dalam sebuah cluster. Proses peringkasan dilakukan secara extractive
merupakan metode peringkasan yang berfokus dalam mencari tweet mana yang
50
paling mewakili dalam sebuah cluster yang harus menjadi ringkasan. Penenentuan
ringkasan dilakukan dengan menghitung 10 word frequency pada masing-masing
cluster dan selanjutnya melakukan perhitungan kedekatan unigram similarity
dengan masing-masing tweet dalam cluster sehingga ditemukan nilai kedekatan
yang paling tinggi. Proses pengujian peringkasan memanfaatkan prinsip kerja
ROUGE yaitu memperhitungkan nilai recall yaitu dengan memanfaatkan groundtruth
yang merupakan hasil peringkasan yang dilakukan secara manual. Hasil rata-rata recall
dari keseluruhan cluster adalah sebesar 0.50 yang menandakan jumlah tweet yang dapat
diringkas oleh sistem secara benar menurut hasil groundtruth.
51
BAB 5
KESIMPULAN DAN SARAN
Berdasarkan ujicoba dan analisa hasil, maka dapat ditarik beberapa
kesimpulan antara lain :
1. Hasil ujicoba perhitungan autocorrelation wavelet pada kata kunci
menghasilkan nilai optimal untuk confidence boundary pada correlogram
sebesar 0.20 (batas koefisien dalam correlogram yang menunjukkan
tingkat keperiodikan) dan jumlah nilai minimal autocorrelation sebesar 27
untuk menentukan apakah kata kunci merupakan kata kunci kejadian
trivial atau bukan. Kata kunci yang memiliki nilai minimal autocorrelation
kurang lebih dari atau sama dengan 27 dianggap sebagai kata kunci trivial
yaitu berulang secara periodik. Contoh kata-kata yang ada pada nilai ini
adalah tidur, night, good, pagi, malam, bangun, sleep, mall, selamat,
morning.
2. Hasil ujicoba pengelompokkan tweet dilakukan pada dua kelompok data
tweet yaitu kelompok data yang dikelompokkan tanpa didahului proses
eliminasi dan kelompok data yang dikelompokkan dengan didahuli proses
eliminasi pada tweet yang mengandung kata kunci kejadian trivial.
Kelompok yang didahului proses eliminasi masuk kriteria “cukup baik”
yaitu pengguna dapat melihat kejelasan topik pada masing-masing cluster
dengan nilai ASW sebesar 0.45 dengan 12 cluster dan kelompok yang
tidak didahului prose eliminasi masuk kriteria “kurang baik” yaitu
pengguna tidak dapat melihat topik bahasan pada cluster dengan nilai
ASW sebesar 0.03 dengan 22 cluster .
3. Proses eliminasi tweet yang mengandung kata kunci trivial terbukti dapat
digunakan untuk mendeteksi kejadian penting pada proses
pengelompokkan dan peringkasan tweet. Hasil proses peringkasan pada
kelompok tweet yang didahului proses eliminasi memiliki rata-rata recall
dari keseluruhan cluster adalah sebesar 0.50 dengan nilai tertinggi pada
sebuah cluster sebesar 0.89.
52
Adapun saran untuk pengembangan selanjutnya dari metode pemilihan kata
kunci untuk deteksi kejadian trivial pada peringkasan dokumen Twitter adalah :
1. Proses pendeteksian kata kunci kejadian berulang secara periodik dilakukan
dengan memperhatikan kata kunci yang sebelumnya telah terdeteksi berulang
(proses inkremental).
2. Proses penentuan kata kunci trivial berdasar nilai autocorrelation dilakukan
secara otomatis tanpa ada proses manual.
3. Confidence Boundary pada correlogram dapat ditentukan menggunakan
standar error ACF
53
5 DAFTAR PUSTAKA
Allan, J., Carbonell, J. G., Doddington, G., Yamron, J., & Yang, Y. (1998). Topic
detection and tracking pilot study final report.
Anant, K. S. dan F.U. Dowla, (1997). Wavelet Transform Methods for Phase
Identification in Three-Component Seismograms, Bulletins of Seismological
Society America, Vol. 87, No.5, 1598 - 1612
Atefeh, F., & Khreich, W. (2013). A survey of techniques for event detection in
Twitter. Computational Intelligence.
Becker, H., Naaman, M., & Gravano, L. (2011). Beyond Trending Topics: Real-
World Event Identification on Twitter. ICWSM, 11, 438-441.
Boros, E. Kantor, P. B. dan Neu, D. J. (2001), “A Clustering Based Approach to
Creating Multi-Document Summaries”. In Proceedings of the 24th ACM
SIGIR Conference, Eds: Kraft, D. H. et al., ACM, New Orleans, Los Angeles,
hal. 1-4.
Chen, L., & Roy, A. (2009, November). Event detection from flickr data through
wavelet-based spatial analysis. In Proceedings of the 18th ACM conference
on Information and knowledge management (pp. 523-532). ACM.
Cordeiro, Mário. "Twitter event detection: Combining wavelet analysis and topic
inference summarization." Doctoral Symposium on Informatics Engineering,
DSIE. 2012.
Das, D. dan Martins, A. F. T. (2007), A Survey on Automatic Text Summarization,
Technical Report Literature Survey for the Language and Statistics II course
Carnegie Mellon University, Pittsburgh.
El-Fishawy, N., Hamouda, A., Attiya, G. M., & Atef, M. (2014). Arabic
summarization in Twitter social network. Ain Shams Engineering Journal,
5(2), 411-420.
Erkan, G. dan Radev, D. R. (2004), “LexRank: Graph-Based Lexical Centrality as
Salience in Text Summarization”, Journal of Artificial Intelligence Research
(JAIR) 22, Vol. 22 Issue 1, hal. 457-479.
54
Foster, D. J., C.C. Mosher, dan S. Hassanazadeh, (1994). Wavelet Transform
Methods for Geophsical Application, 64th Annual International Meeting,
Soc. Expl. Geophys., Ecpanded Abstract, 1465 - 1468
Ge, S. S., Zhang Z., dan He, H. (2011), “Weighted Graph Model Based Sentence
Clustering and Ranking for Document Summarization” Proceeding of 2011
4th International Conference on Interaction Sciences (ICIS), National
University of Singapore, Singapore, hal. 90-95.
Graps, A., (1995), "An Introduction to Wavelets, IEEE Computational Science and
Engineering, vol.2, Wavelet in Geophysics, Academic Press Inc., USA, 1-43
Gupta, V., & Lehal, G. S. (2010). A survey of text summarization extractive
techniques. Journal of Emerging Technologies in Web Intelligence, 2(3), 258-
268.
Hammouda, K. M. dan Kamel, M. S. (2003), “Incremental Document Clustering
Using Cluster Similarity Histograms” Proceeding of the 2003 IEEE/WIC
International Conference on Web Intelligence, Eds: Liu, J. et al., University
of Waterloo, Halifax, Canada, hal. 597-601.
Hurlock, J., & Wilson, M. L. (2011, May). Searching Twitter: Separating the Tweet
from the Chaff. In ICWSM (pp. 161-168).
Jain, A. K., Murty, M. N., dan Flynn, P. J. (1999), “Data Clustering: A Review”,
Journal of ACM Computing Surveys, Vol. 31, No. 3, hal. 264-323.
Kumar, P., & Foufoula Georglou, E. (1997). Wavelet analysis for geophysical
application. Reviews of Geophysics, 35(4), 385-412.
Lin, C. Y. (2004), “ROUGE: a Package for Automatic Evaluation of Summaries”,
In Proceedings of Workshop on Text Summarization Brances Out, Eds:
Moens, M. F. dan Szpakowicz, S., Association for Computational Linguistics,
Barcelona, hal. 74-81.
Lloret, E., & Palomar, M. (2013). Towards automatic tweet generation: A
comparative study from the text summarization perspective in the journalism
genre. Expert Systems with Applications, 40(16), 6624-6630.
Long, R., Wang, H., Chen, Y., Jin, O., & Yu, Y. (2011). Towards effective event
detection, tracking and summarization on microblog data. In Web-Age
55
Information Management (pp. 652-663). Springer Berlin Heidelberg.
Chicago
Olariu, A. (2012, September). Clustering to improve microblog stream
summarization. In Symbolic and Numeric Algorithms for Scientific
Computing (SYNASC), 2012 14th International Symposium on (pp. 220-
226). IEEE.
Ouyang, Y., Li, W., Zhang, R., Li, S., & Lu, Q. (2013). A progressive sentence
selection strategy for document summarization. Information Processing &
Management, 49(1), 213-221.Chicago
Petrović, S., Osborne, M., & Lavrenko, V. (2010, June). Streaming first story
detection with application to twitter. In Human Language Technologies: The
2010 Annual Conference of the North American Chapter of the Association
for Computational Linguistics (pp. 181-189). Association for Computational
Linguistics.
Rafiee, J., & Tse, P. W. (2009). Use of autocorrelation of wavelet coefficients for
fault diagnosis. Mechanical Systems and Signal Processing, 23(5), 1554-
1572.
Rai, P. dan Singh, S. (2010), “A Survey of Clustering Techniques”, International
Journal of Computer Applications (0975 – 8887), Vol. 7, No.12, hal. 1-5.
Sakaki, T., Okazaki, M., & Matsuo, Y. (2010, April). Earthquake shakes Twitter
users: real-time event detection by social sensors. In Proceedings of the 19th
international conference on World wide web (pp. 851-860). ACM.
Sarkar, K. (2009), “Sentence Clustering-based Summarization of Multiple Text
Documents”, International Journal of Computing Science and
Communication Technologies, Vol. 2, No. 1, hal. 325-335.
Sharifi, B., Hutton, M. A., & Kalita, J. K. (2010, August). Experiments in microblog
summarization. In Social Computing (SocialCom), 2010 IEEE Second
International Conference on (pp. 49-56). IEEE. Chicago
Wan, X. dan Yang, J. (2008), “Multi-Document Summarization Using Cluster-
Based Link Analysis”, Proceedings of the 31st annual international ACM
SIGIR conference on Research and Development in Information Retrieval,
56
Eds: Chua T. S. et al., Association for Computational Linguistics, New York,
hal. 181-184.
Weng, Jianshu, and Bu-Sung Lee. "Event Detection in Twitter." ICWSM 11 (2011):
401-408.
Winatmoko, Y. A., & Khodra, M. L. (2013). Automatic Summarization of Tweets
in Providing Indonesian Trending Topic Explanation. Procedia Technology,
11, 1027-1033.
Zhao, J., Wang, X., & Ma, Z. (2014). Towards Events Detection from Microblog
Messages. International Journal of Hybrid Information Technology, 7(1).
Zhu T., dan Li, K. (2012), “The Similarity Measure based on LDA for Automatic
Summarization”, International workshop on Information and Electronics
Engineering (IWIEE), Vol. 29, hal. 2944-2949.
57
LAMPIRAN 1 – Word Frequency (WF)
No Kata Frekuensi No Kata Frekuensi No Kata Frekuensi
1 pagi 12560 41 hidup 2709 81 night 1868
2 selamat 8411 42 lupa 2707 82 sabar 1863
3 orang 6956 43 dont 2694 83 sampe 1860
4 tidur 6231 44 follback 2673 84 ketua 1856
5 hati 5561 45 salah 2668 85 ayam 1825
6 makan 5545 46 sekolah 2627 86 alam 1819
7 kalo 5479 47 alhamdulillah 2500 87 pergi 1811
8 morning 5239 48 hujan 2460 88 besok 1810
9 kuala 5163 49 bambang 2447 89 mana 1792
10 happy 4753 50 rindu 2440 90 liat 1784
11 malam 4713 51 kangen 2401 91 tuhan 1773
12 lumpur 4675 52 bang 2400 92 harap 1743
13 sayang 4641 53 hehe 2383 93 ajar 1741
14 love 4522 54 hahahaha 2370 94 pacar 1706
15 rumah 4399 55 jaya 2369 95 siang 1684
16 polri 4375 56 foto 2307 96 dukung 1667
17 good 4228 57 kota 2278 97 sman 1661
18 cinta 4090 58 pulang 2208 98 susah 1660
19 langor 4080 59 tangkap 2205 99 kelas 1655
20 jalan 3942 60 bikin 2186 100 nasi 1626
21 sakit 3939 61 waktu 2159 101 pake 1607
22 banget 3791 62 kena 2146 102 emang 1606
23 moga 3715 63 kasih 2128 103 mati 1598
24 suka 3442 64 bandung 2122 104 minggu 1597
25 time 3382 65 kaya 2114 105 kirim 1596
26 savekpk 3374 66 tunggu 2090 106 international 1575
27 negeri 3349 67 birthday 2046 107 room 1571
28 biar 3345 68 cari 2033 108 beli 1569
29 kerja 3259 69 masuk 2031 109 dunia 1561
30 follow 3257 70 singapore 2022 110 life 1556
31 jakarta 3256 71 hotel 2022 111 teman 1539
32 wkwk 3221 72 gitu 1992 112 jokowi 1539
33 indonesia 3192 73 lagu 1990 113 coba 1535
34 anak 3184 74 bismillah 1983 114 makasih 1522
35 bangun 3171 75 nama 1951 115 universitas 1515
36 semangat 2996 76 cafe 1950 116 enak 1492
37 kali 2840 77 bahagia 1941 117 johor 1492
38 indah 2807 78 cantik 1928 118 sleep 1486
39 mata 2729 79 taman 1876 119 sehat 1479
40 main 2718 80 tinggal 1870 120 habis 1446
58
No Kata Frekuensi No Kata Frekuensi No Kata Frekuensi
121 wakil 1444 161 libur 1195 201 badan 1047
122 cerita 1429 162 senyum 1192 202 hahah 1046
123 jaga 1422 163 bilang 1190 203 raya 1044
124 esok 1418 164 nggak 1179 204 salam 1042
125 warung 1414 165 neng 1177 205 skrg 1038
126 lepas 1412 166 tang 1173 206 abis 1036
127 maaf 1408 167 lunch 1165 207 house 1035
128 airport 1405 168 surabaya 1163 208 kenal 1033
129 mimpi 1388 169 butuh 1161 209 gedung 1028
130 awak 1369 170 baca 1160 210 movie 1026
131 pulak 1368 171 pantai 1159 211 atuh 1023
132 kuat 1366 172 buka 1156 212 pakai 1022
133 baik 1362 173 buku 1156 213 stay 1006
134 terima 1359 174 bareng 1150 214 wkwkwk 1002
135 subuh 1357 175 kantor 1150 215 tengok 1002
136 mall 1341 176 kampus 1149 216 duit 996
137 gila 1334 177 sedih 1148 217 sore 995
138 school 1329 178 hilang 1145 218 restoran 993
139 mama 1325 179 presiden 1136 219 masjid 992
140 today 1315 180 pasar 1128 220 family 991
141 nonton 1314 181 photo 1128 221 diri 986
142 city 1314 182 kurang 1128 222 mandi 986
143 muka 1311 183 dapet 1127 223 kuliah 983
144 widjojanto 1306 184 langsung 1122 224 sarap 982
145 malem 1293 185 tweet 1121 225 lfie 977
146 amin 1269 186 makassar 1119 226 pikir 973
147 ketemu 1263 187 nice 1114 227 cepat 972
148 gimana 1260 188 latepost 1114 228 malaysia 965
149 shah 1250 189 kadang 1108 229 sahabat 960
150 tido 1248 190 bagus 1103 230 ikut 960
151 lihat 1232 191 fakultas 1095 231 guys 955
152 ngantuk 1229 192 laku 1091 232 nunggu 954
153 twitter 1225 193 kawan 1090 233 manusia 953
154 coffee 1214 194 batu 1077 234 ngga 951
155 kakak 1213 195 order 1067 235 tugas 951
156 bawa 1208 196 dingin 1061 236 lapar 947
157 takut 1207 197 temen 1060 237 karna 940
158 kembali 1207 198 sukses 1052 238 tahan 939
159 kayak 1204 199 ople 1050 239 bukit 933
160 harga 1204 200 sweet 1048 240 bogor 932
59
No Kata Frekuensi No Kata Frekuensi No Kata Frekuensi
241 muhammad 931 281 bakar 832 321 weekend 756
242 cakap 931 282 usaha 829 322 marah 750
243 petaling 924 283 sikit 827 323 hihi 750
244 abang 923 284 malas 827 324 hari 749
245 kopi 923 285 jumpa 826 325 barat 749
246 galau 921 286 class 822 326 kaki 742
247 layan 910 287 bosan 822 327 ajak 741
248 mudah 907 288 subang 820 328 jogja 739
249 mari 906 289 keluarga 820 329 jatuh 739
250 free 904 290 jual 817 330 buat 738
251 doang 900 291 ronaldo 815 331 goodnight 731
252 laka 897 292 watching 814 332 breakfast 730
253 perut 895 293 kabar 807 333 medan 730
254 feel 893 294 lewat 805 334 terminal 729
255 jugak 891 295 yogyakarta 804 335 ubah 727
256 lancar 891 296 lapang 801 336 cewek 725
257 mulu 884 297 posted 799 337 males 724
258 food 879 298 ganti 796 338 marang 722
259 futsal 877 299 mantan 795 339 ayah 721
260 malang 876 300 film 795 340 hahahahaha 721
261 baju 875 301 ulang 793 341 sabtu 721
262 temu 870 302 bandar 787 342 ujan 719
263 percaya 863 303 tangan 786 343 iyaa 718
264 yaaa 858 304 menang 784 344 start 717
265 mesti 858 305 engga 782 345 tenang 717
266 work 854 306 takde 778 346 long 715
267 tolong 854 307 kuis 776 347 keren 715
268 baby 852 308 hehehe 775 348 ready 714
269 beda 851 309 syukur 772 349 gunung 713
270 luar 851 310 selesai 769 350 umur 712
271 centre 847 311 putri 766 351 cepet 712
272 goreng 847 312 hasil 765 352 center 710
273 panas 846 313 suruh 765 353 perak 710
274 jawa 845 314 trus 764 354 kang 709
275 mbak 844 315 park 763 355 minum 709
276 care 838 316 pilih 762 356 diam 707
277 senang 834 317 info 760 357 bantu 706
278 lanjut 834 318 tion 759 358 lelah 706
279 bank 833 319 bakso 757 359 perumahan 706
280 turun 832 320 plaza 756 360 sini 704
60
No Kata Frekuensi No Kata Frekuensi No Kata Frekuensi
361 rasa 702 401 ballon 644 441 muda 595
362 timur 701 402 ruang 643 442 pahang 592
363 hope 701 403 bobo 642 443 penat 592
364 kepala 701 404 girl 640 444 acara 590
365 nner 701 405 live 640 445 dream 590
366 dengar 698 406 kampung 637 446 ntar 588
367 manis 697 407 waiting 636 447 henti 580
368 tangerang 695 408 lari 636 448 cuti 580
369 kaka 694 409 inget 635 449 istirahat 579
370 black 690 410 putih 635 450 negara 579
371 suara 689 411 selat 631 451 kenang 578
372 sepi 689 412 jomblo 630 452 tuju 578
373 malu 685 413 study 629 453 kedai 578
374 janji 684 414 sembuh 626 454 hmmm 577
375 kamar 683 415 fuck 625 455 sadar 576
376 pondok 683 416 mohon 625 456 sapa 575
377 wanita 683 417 duduk 623 457 berat 575
378 real 682 418 pusat 623 458 smkn 574
379 adik 681 419 gambar 622 459 office 571
380 budak 681 420 mending 622 460 shopping 569
381 vscocam 681 421 setia 620 461 perempuan 567
382 restaurant 679 422 puncak 617 462 yakin 567
383 hubung 677 423 club 617 463 guru 567
384 dear 675 424 tawa 617 464 pulau 564
385 tetep 675 425 terimakasih 617 465 situ 562
386 untung 672 426 assalamualaikum 616 466 niat 559
387 motor 667 427 ganteng 615 467 grand 558
388 ilmu 664 428 pasal 614 468 gonna 557
389 juang 663 429 madrid 614 469 benci 556
390 jadi 662 430 otak 613 470 video 555
391 heart 661 431 ngapain 613 471 utama 555
392 late 660 432 penuh 612 472 benda 554
393 komplek 659 433 friends 612 473 ambil 554
394 kalah 657 434 villa 611 474 kira 552
395 uang 656 435 nangis 610 475 nasib 551
396 finally 655 436 lucu 607 476 moment 551
397 test 653 437 great 606 477 padang 551
398 game 649 438 kasi 603 478 super 551
399 sibuk 649 439 wanna 596 479 studio 550
400 online 647 440 hahahah 596 480 latih 548
61
No Kata Frekuensi No Kata Frekuensi No Kata Frekuensi
481 minat 548 521 bumi 513 561 lepak 476
482 sungguh 547 522 nilai 513 562 ngomong 476
483 tanah 546 523 resort 513 563 maju 476
484 jahat 546 524 lampu 512 564 cowok 475
485 join 543 525 smile 509 565 capek 475
486 januari 543 526 antan 508 566 eting 473
487 masak 543 527 laper 508 567 cuaca 472
488 blok 542 528 rest 506 568 barang 472
489 sholat 542 529 kecewa 506 569 nnti 472
490 jumat 542 530 maen 506 570 lelaki 467
491 lambat 541 531 kemarin 506 571 smpai 466
492 resto 541 532 desa 506 572 angin 466
493 hukum 541 533 mood 505 573 sumpah 466
494 bintang 540 534 papa 504 574 hadap 465
495 holiday 540 535 hang 500 575 soto 465
496 friend 539 536 sari 500 576 nyaman 464
497 bahru 538 537 sana 499 577 asli 463
498 tutup 537 538 islam 499 578 nyari 463
499 hahaa 536 539 serius 498 579 check 462
500 sunday 532 540 fans 498 580 engkau 462
501 wait 532 541 tulis 497 581 utiful 462
502 bodoh 531 542 ramai 497 582 luck 462
503 wisata 531 543 feat 495 583 sulit 461
504 yaudah 529 544 cuman 494 584 dasar 460
505 bentar 528 545 merah 494 585 seru 460
506 agung 528 546 bola 494 586 paper 459
507 telat 526 547 hate 492 587 ampun 459
508 putus 526 548 tired 490 588 utara 459
509 nemenin 525 549 roti 489 589 urus 459
510 bahasa 525 550 alas 488 590 university 458
511 sultan 524 551 college 485 591 chelsea 458
512 jodoh 524 552 putrajaya 485 592 residence 456
513 aamiin 523 553 pasang 484 593 team 456
514 budi 520 554 sing 483 594 pusing 455
515 hard 516 555 pindah 481 595 turut 455
516 huhu 516 556 murah 481 596 shit 454
517 nampak 514 557 yeah 480 597 song 453
518 tarik 514 558 nyata 480 598 hadiah 452
519 adek 514 559 music 479 599 bingung 452
520 ikan 513 560 solo 479 600 ngopi 451
62
LAMPIRAN 2.(A) – Urutan Kata Berdasar Nilai Autocorrelation (confidence
boundary = 0.05)
No Kata Autocor. No Kata Autocor. No Kata Autocor.
1 rumah 148 41 room 107 81 goreng 90
2 tidur 145 42 besok 105 82 kuala 89
3 mata 138 43 kali 104 83 pake 89
4 malam 137 44 bandung 104 84 makasih 88
5 good 132 45 esok 104 85 today 88
6 pagi 130 46 sekolah 103 86 sore 88
7 semangat 128 47 banget 102 87 layan 88
8 selamat 127 48 gila 102 88 awak 87
9 wkwk 126 49 kalo 101 89 ketemu 87
10 bangun 123 50 negeri 101 90 dingin 87
11 jaya 123 51 gitu 100 91 plaza 87
12 waktu 123 52 cantik 100 92 mall 86
13 love 122 53 kelas 100 93 salam 86
14 hati 121 54 indah 99 94 food 86
15 night 121 55 sampe 99 95 morning 85
16 tuhan 120 56 suka 97 96 main 85
17 jalan 119 57 alhamdulillah 97 97 cari 85
18 hidup 119 58 nice 97 98 ajar 85
19 ayam 119 59 tido 96 99 life 85
20 kota 118 60 time 95 100 kakak 85
21 sayang 117 61 pulang 95 101 tolong 85
22 sakit 117 62 universitas 95 102 school 84
23 mana 116 63 sleep 95 103 kantor 84
24 langor 115 64 nama 94 104 warung 83
25 mimpi 115 65 kampus 94 105 pasal 83
26 rindu 114 66 tweet 94 106 mudah 82
27 orang 113 67 kena 93 107 assalamualaikum 82
28 bismillah 113 68 cafe 93 108 hotel 81
29 ngantuk 113 69 bawa 93 109 alam 81
30 makan 112 70 diri 93 110 pulak 81
31 kaya 111 71 hujan 92 111 lihat 81
32 anak 110 72 birthday 92 112 surabaya 81
33 hahahaha 109 73 susah 92 113 makassar 81
34 sehat 109 74 international 92 114 work 81
35 moga 108 75 baik 92 115 kuat 80
36 siang 108 76 lancar 92 116 nonton 80
37 kirim 108 77 happy 91 117 libur 80
38 cinta 107 78 airport 91 118 kawan 80
39 lupa 107 79 lumpur 90 119 abis 79
40 dont 107 80 bang 90 120 movie 79
63
No Kata Autocor. No Kata Autocor. No Kata Autocor.
121 jugak 79 161 manusia 72 201 benci 67
122 coffee 78 162 malang 72 202 benda 67
123 buku 78 163 muka 71 203 exam 67
124 dapet 78 164 kembali 71 204 shah 66
125 perut 78 165 sedih 71 205 takut 66
126 sabar 77 166 sukses 71 206 latepost 66
127 amin 77 167 house 71 207 sweet 66
128 temen 77 168 mbak 71 208 kenal 66
129 badan 77 169 bakso 71 209 bank 66
130 petaling 77 170 bobo 71 210 murah 66
131 centre 77 171 singapore 70 211 cowok 66
132 class 77 172 johor 70 212 indonesia 65
133 kerja 76 173 ikut 70 213 bikin 65
134 jakarta 76 174 muhammad 70 214 lapar 65
135 bahagia 76 175 mulu 70 215 mari 65
136 harap 76 176 subang 70 216 mesti 65
137 minggu 76 177 ulang 70 217 panas 65
138 malem 76 178 hasil 70 218 putri 65
139 stay 76 179 trus 70 219 hihi 65
140 kuliah 76 180 cewek 70 220 medan 65
141 sarap 76 181 game 70 221 kalah 65
142 bogor 76 182 study 70 222 hmmm 65
143 feel 76 183 januari 70 223 luck 65
144 sman 75 184 bareng 69 224 nasi 64
145 hahah 75 185 laku 69 225 lunch 64
146 karna 75 186 pakai 69 226 photo 64
147 ganggu 75 187 nunggu 69 227 abang 64
148 pergi 74 188 sikit 69 228 malas 64
149 mati 74 189 komplek 69 229 keluarga 64
150 gimana 74 190 nnti 69 230 film 64
151 pusat 74 191 takde 68 231 great 64
152 pacar 73 192 ntar 68 232 maksud 64
153 futsal 73 193 istirahat 68 233 kolej 64
154 umur 73 194 sapa 68 234 mama 63
155 center 73 195 office 68 235 wkwkwk 63
156 hope 73 196 yakin 68 236 bandar 63
157 budi 73 197 beli 67 237 timur 63
158 biar 72 198 enak 67 238 tangerang 63
159 maaf 72 199 family 67 239 kamar 63
160 bilang 72 200 care 67 240 friends 63
64
LAMPIRAN 2.(B) – Urutan Kata Berdasar Nilai Autocorrelation (confidence
boundary = 0.10)
No Kata
Autocor
.
N
o Kata
Autocor
. No Kata
Autocor
.
1 malam 109 41 jalan 61 81 food 46
2 good 108 42 room 61 82 center 46
3 rumah 106 43 orang 60 83 makan 45
4 tidur 103 44 lupa 60 84 kuala 45
5 night 102 45 internationa 60 85 petaling 45
6 pagi 99 46 lancar 60 86 suka 44
7 semangat 97 47 sarap 59 87 kali 44
8 bangun 91 48 plaza 58 88 nice 44
9 selamat 82 49 rindu 57 89 sore 44
10 waktu 82 50 coffee 56 90 class 43
11 ayam 82 51 centre 56 91 today 42
12 sayang 80 52 hahahaha 55 92 assalamualaiku 42
13 bismillah 80 53 lunch 54 93 pasal 42
14 ngantuk 77 54 cinta 53 94 kantor 41
15 hidup 74 55 bandung 53 95 family 41
16 mimpi 73 56 gila 53 96 putri 41
17 mata 72 57 dapet 53 97 breakfast 41
18 besok 72 58 dingin 53 98 nner 41
19 langor 71 59 airport 52 99 party 41
20 hati 70 60 moga 51 100 time 40
21 sleep 70 61 malem 51 101 cantik 40
22 tuhan 69 62 goreng 51 102 sampe 40
23 universitas 69 63 lumpur 50 103 layan 40
24 esok 69 64 indah 50 104 shopping 40
25 banget 68 65 movie 50 105 fakultas 39
26 wkwk 68 66 anak 49 106 bakar 39
27 jaya 68 67 mana 49 107 petang 39
28 siang 68 68 tweet 49 108 dont 38
29 negeri 67 69 happy 48 109 hujan 38
30 kota 67 70 libur 48 110 kaya 38
31 kampus 67 71 bakso 48 111 birthday 38
32 cafe 66 72 kelas 47 112 bank 38
33 mall 66 73 futsal 47 113 johor 37
34 minggu 64 74 pulang 46 114 sukses 37
35 kalo 63 75 sman 46 115 pake 36
36 sakit 63 76 warung 46 116 biar 35
37 tido 63 77 baik 46 117 main 35
38 morning 62 78 buku 46 118 kirim 35
39 love 62 79 diri 46 119 life 35
40 sehat 62 80 ikut 46 120 ketemu 35
65
No Kata Autocor. No Kata Autocor. No Kata Autocor.
121 lihat 35 161 pulak 29 201 sadar 27
122 tengok 35 162 pasar 29 202 benci 27
123 feel 35 163 kuis 29 203 jumat 27
124 bobo 35 164 ujan 29 204 resort 27
125 alhamdulillah 34 165 office 29 205 hospital 27
126 gitu 34 166 wisata 29 206 turu 27
127 mati 34 167 cowok 29 207 kolej 27
128 school 34 168 smpai 29 208 ganggu 27
129 tangerang 34 169 gede 29 209 friday 27
130 university 34 170 wedding 29 210 nyampe 27
131 exam 34 171 afood 29 211 chicken 27
132 cari 33 172 musik 29 212 pria 27
133 kakak 33 173 polri 28 213 dada 27
134 surabaya 33 174 sekolah 28 214 jago 27
135 house 33 175 maaf 28 215 monday 27
136 istirahat 33 176 nonton 28 216 kerja 26
137 jugak 32 177 amin 28 217 nama 26
138 ulang 32 178 muhammad 28 218 pergi 26
139 pusat 32 179 tolong 28 219 mama 26
140 smkn 32 180 panas 28 220 salam 26
141 soto 32 181 lapang 28 221 watching 26
142 gereja 32 182 hope 28 222 hasil 26
143 bahagia 31 183 kamar 28 223 resto 26
144 kuliah 31 184 restaurant 28 224 sunday 26
145 karna 31 185 benda 28 225 nnti 26
146 work 31 186 paper 28 226 gatau 26
147 murah 31 187 teknik 28 227 jujur 26
148 saturday 31 188 sentral 28 228 karaoke 26
149 salon 31 189 deui 28 229 matahari 26
150 bunyi 31 190 lembaga 28 230 lumayan 26
151 tangkap 30 191 hotel 27 231 ayat 26
152 shah 30 192 lagu 27 232 merem 26
153 hahah 30 193 susah 27 233 nabila 26
154 hmmm 30 194 bawa 27 234 lantak 26
155 yaal 30 195 kawan 27 235 makasih 25
156 smpn 30 196 stay 27 236 makassar 25
157 woman 30 197 galau 27 237 pakai 25
158 korupsi 30 198 sikit 27 238 trus 25
159 alam 29 199 subang 27 239 black 25
160 ajar 29 200 late 27 240 waiting 25
66
LAMPIRAN 2.(C) – Urutan Kata Berdasar Nilai Autocorrelation (confidence
boundary = 0.15)
No Kata Autocor. No Kata Autocor. No Kata Autocor.
1 tidur 84 41 sehat 31 81 class 22
2 good 83 42 negeri 30 82 putri 22
3 pagi 79 43 coffee 30 83 salon 22
4 night 78 44 family 30 84 gereja 22
5 malam 73 45 futsal 30 85 lembaga 22
6 bangun 71 46 bakso 30 86 rindu 21
7 sleep 64 47 hahahaha 29 87 gila 21
8 selamat 61 48 international 29 88 sore 21
9 bismillah 61 49 shopping 29 89 petaling 21
10 mall 57 50 jalan 28 90 layan 21
11 ayam 56 51 movie 28 91 sunday 21
12 semangat 55 52 hati 27 92 jumaat 21
13 langor 54 53 sman 27 93 kali 20
14 sarap 51 54 warung 27 94 bandung 20
15 kalo 50 55 malem 27 95 room 20
16 cafe 50 56 petang 27 96 assalamualaikum 20
17 morning 48 57 dapet 26 97 university 20
18 rumah 47 58 fakultas 26 98 love 19
19 besok 47 59 center 26 99 sakit 19
20 ngantuk 47 60 wkwk 25 100 cantik 19
21 tido 46 61 pulang 25 101 nyampe 19
22 universitas 43 62 airport 25 102 anak 18
23 mimpi 43 63 buku 25 103 mana 18
24 lunch 43 64 dingin 25 104 sukses 18
25 plaza 42 65 bank 25 105 teknik 18
26 mata 40 66 breakfast 25 106 operation 18
27 minggu 39 67 party 25 107 klcc 18
28 esok 39 68 banget 24 108 sadino 18
29 centre 39 69 tuhan 24 109 makan 17
30 kampus 38 70 siang 24 110 sampe 17
31 sayang 37 71 orang 23 111 kirim 17
32 nner 37 72 kelas 23 112 johor 17
33 jaya 36 73 nice 23 113 smkn 17
34 food 36 74 saturday 23 114 karaoke 17
35 lancar 35 75 happy 22 115 jago 17
36 hidup 33 76 kota 22 116 pdip 17
37 waktu 32 77 baik 22 117 biar 16
38 goreng 32 78 libur 22 118 indah 16
39 kuala 31 79 tweet 22 119 sekolah 16
40 lumpur 31 80 ikut 22 120 alhamdulillah 16
67
No Kata
Autocor
. No Kata
Autocor
. No Kata
Autocor
.
121 mati 16 161 wedding 14 201 tipe 13
122 subuh 16 162 goal 14 202 khilaf 13
123 school 16 163 musik 14 203 abdi 13
124 kantor 16 164 kirain 14 204 labil 13
125 house 16 165 konser 14 205 angkut 13
126 jumat 16 166 garagara 14 206 kena 12
127 gede 16 167 deui 14 207 gitu 12
128 begadang 16 168 tionsimilag 14 208 ajar 12
129 afood 16 169 avenged 14 209 susah 12
130 view 16 170 koruptor 14 210 pake 12
131 nayan 16 171 suke 14 211 badan 12
132 monday 16 172 cendol 14 212 tengok 12
133 korupsi 16 173 gapunya 14 213 feel 12
134 matematika 16 174 nich 14 214 tolong 12
135 lantak 16 175 luah 14 215 trus 12
136 tegak 16 176 suka 13 216 weekend 12
137 lupa 15 177 main 13 217 bobo 12
138 life 15 178 hotel 13 218 villa 12
139 pulak 15 179 mama 13 219 office 12
140 pasar 15 180 today 13 220 wisata 12
141 bakar 15 181 city 13 221 murah 12
142 kuis 15 182 pantai 13 222 soto 12
143 pasal 15 183 makassar 13 223 gatau 12
144 bubur 15 184 panas 13 224 sedap 12
145 pizza 15 185 park 13 225 kolej 12
146 matahari 15 186 restaurant 13 226 sejuk 12
147 melek 15 187 game 13 227 pontianak 12
148 woman 15 188 benda 13 228 cuba 12
149 pria 15 189 smpn 13 229 karo 12
150 merem 15 190 simpan 13 230 market 12
151 dapur 15 191 chicken 13 231 style 12
152 cicak 15 192 bunyi 13 232 kiri 12
153 prillvers 15 193 umah 13 233 nabila 12
154 cinta 14 194 anjir 13 234 suci 12
155 time 14 195 katolik 13 235 khas 12
156 dont 14 196 geram 13 236 Understa 12
157 jugak 14 197 brapa 13 237 jones 12
158 sadar 14 198 mingguan 13 238 angels 12
159 smpai 14 199 impin 13 239 cibubur 12
160 steak 14 200 magang 13 240 tahu 12
68
LAMPIRAN 2.(D) – Urutan Kata Berdasar Nilai Autocorrelation (confidence
boundary = 0.20)
No Kata Autocor. No Kata Autocor. No Kata Autocor.
1 tidur 61 41 jaya 17 81 happy 11
2 night 61 42 waktu 17 82 sekolah 11
3 good 60 43 international 17 83 kota 11
4 pagi 58 44 family 17 84 goreng 11
5 malam 52 45 sunday 17 85 bank 11
6 bangun 51 46 party 17 86 begadang 11
7 sleep 45 47 salon 17 87 teknik 11
8 mall 45 48 lumpur 16 88 tionsimilagi 11
9 selamat 43 49 sayang 16 89 jalil 11
10 morning 38 50 hidup 16 90 pdip 11
11 cafe 38 51 siang 16 91 orang 10
12 ayam 38 52 sman 16 92 banget 10
13 bismillah 36 53 minggu 16 93 time 10
14 sarap 36 54 airport 16 94 alhamdulillah 10
15 lunch 34 55 libur 16 95 tuhan 10
16 semangat 31 56 petang 16 96 kelas 10
17 ngantuk 31 57 kuala 15 97 room 10
18 langor 30 58 rindu 15 98 school 10
19 mimpi 29 59 movie 15 99 presiden 10
20 besok 27 60 saturday 15 100 sore 10
21 dinner 27 61 gereja 15 101 layan 10
22 esok 26 62 sadino 15 102 panas 10
23 centre 26 63 bandung 14 103 class 10
24 tido 25 64 warung 14 104 operation 10
25 shopping 25 65 malem 14 105 match 10
26 kalo 24 66 dapet 14 106 cendol 10
27 food 23 67 ikut 14 107 kaku 10
28 mata 22 68 love 13 108 polri 9
29 plaza 22 69 buku 13 109 sakit 9
30 universitas 21 70 fakultas 13 110 wkwk 9
31 coffee 21 71 futsal 13 111 pulang 9
32 rumah 20 72 lembaga 13 112 kirim 9
33 kampus 20 73 luah 13 113 wakil 9
34 lancar 20 74 makan 12 114 baik 9
35 bakso 20 75 jalan 12 115 subuh 9
36 negeri 19 76 lupa 12 116 gila 9
37 hahahaha 19 77 kena 12 117 tweet 9
38 sehat 18 78 petaling 12 118 makassar 9
39 breakfast 18 79 putri 12 119 sukses 9
40 jumaat 18 80 mingguan 12 120 kuis 9
69
No Kata Autocor. No Kata Autocor. No Kata Autocor.
121 resiko 9 161 pizza 8 201 johor 7
122 exam 9 162 rakyat 8 202 pasar 7
123 karaoke 9 163 deres 8 203 nice 7
124 sangka 9 164 goal 8 204 laku 7
125 wedding 9 165 kapolri 8 205 salam 7
126 polisi 9 166 view 8 206 lapar 7
127 melek 9 167 woman 8 207 umur 7
128 afood 9 168 nayan 8 208 kamar 7
129 save 9 169 masyarakat 8 209 game 7
130 pria 9 170 ggmu 8 210 pusat 7
131 monday 9 171 korupsi 8 211 negara 7
132 klcc 9 172 matematika 8 212 smkn 7
133 gelora 9 173 tuesday 8 213 jumat 7
134 keluh 9 174 error 8 214 hukum 7
135 pahlawan 9 175 brapa 8 215 gatau 7
136 wash 9 176 koruptor 8 216 lawan 7
137 makcik 9 177 gmim 8 217 olahraga 7
138 china 9 178 anda 8 218 wake 7
139 nich 9 179 akang 8 219 lemah 7
140 keroh 9 180 church 8 220 musik 7
141 azan 9 181 khilaf 8 221 lapor 7
142 bangku 9 182 indomie 8 222 telkom 7
143 sahur 9 183 pancake 8 223 bangsa 7
144 hati 8 184 borneo 8 224 jurus 7
145 kali 8 185 anter 8 225 umah 7
146 indah 8 186 kati 8 226 juta 7
147 tangkap 8 187 sumatra 8 227 khas 7
148 hotel 8 188 tahajud 8 228 email 7
149 ketua 8 189 choice 8 229 konser 7
150 dukung 8 190 madam 8 230 anti 7
151 jokowi 8 191 direktorat 8 231 tenan 7
152 kantor 8 192 satnite 8 232 dapur 7
153 dingin 8 193 hkbp 8 233 success 7
154 mudah 8 194 savekpk 7 234 jarak 7
155 jugak 8 195 anak 7 235 skripsi 7
156 center 8 196 bang 7 236 yess 7
157 bobo 8 197 cantik 7 237 atletico 7
158 budi 8 198 sampe 7 238 manchester 7
159 nyata 8 199 mana 7 239 bela 7
160 university 8 200 mati 7 240 endorphins 7
70
LAMPIRAN 2.(E) – Urutan Kata Berdasar Nilai Autocorrelation (confidence
boundary = 0.25)
No Kata Autocor. No Kata Autocor. No Kata Autocor.
1 tidur 48 41 hahahaha 11 81 nyata 8
2 night 48 42 airport 11 82 exam 8
3 pagi 43 43 plaza 11 83 rakyat 8
4 good 42 44 party 11 84 tuesday 8
5 bangun 38 45 makan 10 85 tionsimilagi 8
6 mall 36 46 kalo 10 86 jalil 8
7 sleep 34 47 negeri 10 87 lupa 7
8 malam 33 48 waktu 10 88 sekolah 7
9 sarap 29 49 esok 10 89 kota 7
10 morning 27 50 coffee 10 90 pulang 7
11 lunch 26 51 libur 10 91 kena 7
12 cafe 25 52 bakso 10 92 bandung 7
13 ayam 22 53 breakfast 10 93 ketua 7
14 bismillah 21 54 begadang 10 94 tuhan 7
15 selamat 20 55 hidup 9 95 wakil 7
16 semangat 19 56 sman 9 96 presiden 7
17 mimpi 19 57 warung 9 97 fakultas 7
18 nner 18 58 dapet 9 98 laku 7
19 shopping 17 59 movie 9 99 bobo 7
20 tido 16 60 sore 9 100 negara 7
21 mata 15 61 family 9 101 jumat 7
22 besok 15 62 lancar 9 102 saturday 7
23 minggu 14 63 sangka 9 103 lawan 7
24 food 14 64 operation 9 104 polisi 7
25 centre 14 65 sadino 9 105 save 7
26 sunday 14 66 orang 8 106 korupsi 7
27 jumaat 14 67 happy 8 107 bela 7
28 sayang 13 68 polri 8 108 koruptor 7
29 langor 13 69 banget 8 109 lembaga 7
30 siang 13 70 wkwk 8 110 azan 7
31 ngantuk 13 71 tangkap 8 111 love 6
32 salon 13 72 dukung 8 112 jalan 6
33 jaya 12 73 jokowi 8 113 sakit 6
34 international 12 74 universitas 8 114 kirim 6
35 kampus 12 75 sehat 8 115 subuh 6
36 mingguan 12 76 malem 8 116 school 6
37 kuala 11 77 tweet 8 117 goreng 6
38 lumpur 11 78 ikut 8 118 class 6
39 rumah 11 79 petaling 8 119 assalamualaikum 6
40 rindu 11 80 futsal 8 120 hukum 6
71
No Kata Autocor. No Kata Autocor. No Kata Autocor.
121 budi 6 161 dingin 5 201 tgif 5
122 petang 6 162 salam 5 202 baro 5
123 lemah 6 163 panas 5 203 gelora 5
124 goal 6 164 bank 5 204 gilang 5
125 bukti 6 165 tangan 5 205 pahlawan 5
126 lapor 6 166 kuis 5 206 anggota 5
127 ggmu 6 167 weekend 5 207 saksi 5
128 dapur 6 168 sabtu 5 208 misi 5
129 klcc 6 169 umur 5 209 gmim 5
130 bawain 6 170 pusat 5 210 astagfirullah 5
131 negri 6 171 smkn 5 211 bangang 5
132 gelar 6 172 office 5 212 ahad 5
133 sahur 6 173 chelsea 5 213 gera 5
134 bara 6 174 pizza 5 214 samarahan 5
135 gunadarma 6 175 karaoke 5 215 gramedia 5
136 tegak 6 176 pura 5 216 hohoho 5
137 nich 6 177 serang 5 217 river 5
138 nita 6 178 friday 5 218 lantak 5
139 prillvers 6 179 wedding 5 219 ckson 5
140 bangku 6 180 satu 5 220 gudeg 5
141 pdip 6 181 teknik 5 221 demo 5
142 solat 6 182 melek 5 222 tahajud 5
143 satnite 6 183 kapolri 5 223 evening 5
144 satnight 6 184 afood 5 224 madam 5
145 hkbp 6 185 sikap 5 225 pavilion 5
146 hati 5 186 woman 5 226 abraham 5
147 savekpk 5 187 gereja 5 227 promopaket 5
148 indonesia 5 188 pria 5 228 proses 5
149 dont 5 189 terbang 5 229 time 4
150 alhamdulillah 5 190 berita 5 230 biar 4
151 bambang 5 191 jago 5 231 kali 4
152 bang 5 192 monday 5 232 hujan 4
153 hotel 5 193 gunawan 5 233 pake 4
154 kelas 5 194 tari 5 234 mati 4
155 room 5 195 masyarakat 5 235 widjojanto 4
156 kuat 5 196 south 5 236 buku 4
157 gila 5 197 anti 5 237 kantor 4
158 amin 5 198 resmi 5 238 makassar 4
159 pasar 5 199 skripsi 5 239 sukses 4
160 nice 5 200 musuh 5 240 house 4
72
LAMPIRAN 3.(A) – Gambar Wavelet dan Correlogram Kata Kunci (jumlah
koefisien > 50)
73
74
LAMPIRAN 3.(B) – Gambar Wavelet dan Correlogram Kata Kunci (jumlah
koefisien < 10)
75
LAMPIRAN 4.(A) – Sampel Tweet (Melalui Tahap Preproses, Tanpa
Eliminasi Kata Kunci Trivial)
No Tweet
1 kalo foto gang kaca ketawain pkony ribet momen bikin inget mantan jj
2 maren tidur ampe jam tidur xd
3 cuba nk jd adik baik
4 boek plak perempuan tu fairplay tu mc tu pon ngehngeh
5 skrang ridur
6 nunggu waktu bgt sampe tutup mata bilang selamat tinggal dunia
7 mata sebam whut
8 huhuokay
9 sky stars
10 otak jam gin bangun
11 masuh ganjen
12 salah fokus
13 cinta ruang waktu hilang
14
gawahawkeyers atletpenggawa prgktantarabgsa obesi lehasemput lehapower lehastriker
lehaskor
15 enak bang coba
16 warhouse raise bar subang jaya langor darul ehsan
17 test drive ngilangin e simon
18 rn instapict asrama putri assalam sapen
19 question hahah
20 kangen ketemu dy harap dy ubah belomx
21 babi la poen ckp lucah
22 untung pon kelas cancel kena ganti nantiemmmtry baring lelap matamata tau jadikahhh
23 lihat sisi sempurna duli lemah jth cinta karna hati
24 malen yah ahahah
25 touchepasamoncharlie
26 akutansi kelar
27 fiewwwwiiiitttttt
28 restoran ariff kuala lumpur wp kuala lumpur
29 nemo
30
shipping goals cup semifinal country luiz silva nominated golden raspberry awards
bbcfootball
31 housemate sume dh baliktinggallh perjuangkn paper nie
32 wonderfull edge apartment baros cimahi
33 tweet
34 rindu hensem tu harap mimpi indah malam
35
omg piya menang ballon mapa mapa mapa bera bera bera bo lawey staro demo blana
blana blana
36 terima kasih awak
37 wajar din nama cintaaa wajar kaaaan banggain cowo kaya re ehehehe
38 jam gin acara tv anak yaa pusing nonton i timur depok
39 fifpro xi award congratulations angel maria je wakil epl
40 takmatured ikiran pro pleaseeeeee
41 ajis laut e makan ikan paus wkwk wetdeh jam ajis ajiz bruak
42 abis potong rambut wkwkwk
43 night sahabat sayang dtg bikin rempong jogja
44 ret
45 ceh makan satay kajang
46 anus robek beda kulit vagina lho
47 ive problems starts
48 rodo loro rodo telu papalimo
76
49 yamg pasti lapar duduk kelas
50 sia doe sape ramshit
51 perangai manusia jumpa
52 taman bahagia bukit
53 bangla mari
54 tidur
55 abai
56 hahahahhaaha waniii lynn tdoq bye yunk muah bye muah lynn
57 udh psti neuer menang brrti aneh kayak ronaldobrazil cedera cemerlang
58 travel love
59 aigo susah tidur sbb hidung sumbat
60 mahu tidur
61 imy
62 argh fuck goodnight
63 ampun
64 deg deg
65 persie header lajames girl volley
66 touchepasamoncharlie
67 dian indonesia
68 sbenarnya kanbila pergi mall feeling mcm kaya tuh muslims eat muslim restaurant
69 zonk kali ___
70 bt
71 blg gada sms batu banget
72 tido esok bangun pulak kang
73 comel hahah duhhh masuk la pnya byk mnghafal adeyh
74 atiati salah luh maksutnya sajeel eh ita gua doain biar balikan onoh
75 bangun pup apartment itc roxy mas
76 supper org stress
77 arhh rindu pagi buta hmm
78 vampir abis nongol jam gin melulu ahahah
79 sikit nyamuk ek jahanam
80 ainda rindo da foto hermano fone kkkkkkkkkkkkkkk
81 lepas niy single mika partner
82 fine mana anak vespa hoi kabarrrr
83 photography modelling xiestarmy batalyon kavaleri cobra
84 bbmme pin
85 ikut daftar diri jamin nyesel insya al nambah ilmu buka umum stais
86 whaaaaaaat lmao
87 ssappoint
88 duhh cacihan sma anak gaoll saikk
89 tir kaget
90 kejam ka kejam ka
91 volunteer hot
92
step tame negotiation kalo selesai jugok masaloh tu stage terus nye iaitu damai ngan
industrial relation
93 sayank aqhu meni dgna qm ihklas jujur hati mu
94 clvss daily activity breaktown goodluck supply breaktown hellarmy gdck
95 kill
96 bandung ka hehe uas ka
97 numec nangis wey takut esuk mistake haihh
98 sanchez deserves spot
99 ngerti ajaaaaa kalam bhahahaha
100 hmm sek mu tok bui motivasi lasung nok prekso esok
77
LAMPIRAN 4.(B) – Sampel Tweet (Melalui Tahap Preproses, Didahului
Eliminasi Kata Kunci Trivial)
No Tweet
1 kpk mntap kpk tetap calon kapolri budi gunawan sangka
2 cuba nk jd adik baik
3 enak bang coba
4
omg piya menang ballon mapa mapa mapa bera bera bera bo lawey staro demo blana
blana blana
5 jam gin acara tv anak yaa pusing nonton i timur depok
6 taman bahagia bukit
7 udh psti neuer menang brrti aneh kayak ronaldobrazil cedera cemerlang
8 babeng lambat laa sape menang
9 betapa indah dunia syukur imati nikmat
10 congrats fifa coach year german national coach joachim
11 cristiano ronaldo deserve award hope
12 rodgers menang ples cuman si rodgers nolak
13 nk tunjuk kat sapecukup malaikat maut hati ko
14 yakin baik svaha
15 thn gosok ulang kupon latih baik gan
16 nikmat syukur moga tdk amin
17 warteg hujan
18 moga kuat amin
19 ballon dor
20
gua usul fifa kne wajibkn player amek ielts minima band senang mjlis mcm ballon dor
nie xyah translator bhasa
21 kawan kutuk eh tunjuk je perangai benar muka talam
22 rgio ramos agent haa main dam je umah skrg main
23 tulah mna nk letak muka weih nk tgok piniteu live malaysia
24 hehe bahagia amat tau dua hehe mishh bby jumpaa
25 ballon safee Sali
26 lionel ssi cristiano ronaldo
27 kerja rody loyalitas
28 krn klh sma mil kmrin hwhahs latih baik carlo ancelotti yah trofi
29 stay watching fifa ballon dor gala
30 menang nasib je tu
31 won ballon dor
32 chat youtube fifa blm baca tiban gokil
33 kerja fun
34 germany dor
35 ronaldo beli arema bentar
36 masingmasing kill tunjuk pero sruh support hampehkan haa hahacc
37 beda lurah kek nye fifa pssi
38 rolling stones ruby tuesday live official lewat
39 ballon dor
40 live streamming ballon dor granada bookmart
41 nerima trophy fifa fair play award sih min ngga ngehargain trophyy taro bawa
42 tol sidoarjo surabaya
43 women ballon dor yakin marta menang
44 lul vincent kompany david luiz fifa team year
45 bahagia cipta
46 tuju adlh sakit hati jdi abai sj
47 ajar gila
48 ssi pelik dunia
49 ego godin bek baik dunia tuju
78
50 korupsi blatter fifa coach year votes ancelotti simeone cm sisa golputtt
51
joachim received percent votes winning fifa coach year carlo ancelotti ego simeone espn
fc
52 madrid bayern ain tim baik fifa
53 gila lu _ liar lahapp bibir rona wk
54 sape mng ballon dor
55 maaf hilang ingat
56 turut mbah ancelotti tetep baik
57
versi sih gk neur defender lahm hummels ramos silva midfelder maria kroos hazard
striker ssi ibra ronaldo
58 ssi takleh menang alien
59 rgio ramos ton kroos cristiano ronaldo
60 gmna kondisi yudha baik min
61 fifa fair play award
62 bilang serba salah tetehteteh bilang raisih coba maksud ubah jelma raisa gituhciao
63 hubung ujung indah sakit bahagia diri
64 bangga bahagia
65 cristiano ronaldo win ballon dor dont mind neuer win
66 tu award lagu camtu haa bola coach baik player baik laki perempuan hihihi
67 kerja kaya bgini doang bgtu
68
iniesta official fifa xi neuer lahm ramos thiago silva david luiz maria kroos iniesta robben
ssi ronaldo
69 adik main instagram hp si mama doi nggak nggak bolehin gadget
70 fifa snorting coke
71 hilang coba rubah nama tepat janji
72 iyaa serah putus jadi blum
73 player jdt masok fifa kothaha
74 madrid munchen klub baik terhabat dunia
75 sadar doa doa bahagia bahagia
76 cristiano ronaldo
77 entre los jores delanteros del fifa fifpro grande ballondor
78 kaya fifa ilai turnamen pas brazil td joachim ancelloti trofi
79 cristiano ronaldo tuju tuju tuju
80 de kat tepi tv tau
81 laaaa acara ballon dor cakap aimar main jdt seh
82 cuti kerja cari duit blh usha slow slow kerja rehat dahni pok lim
83 cristiano ronaldo fantastis menang la decima momen
84 Baik
85 ain baik ronaldo
86 dinding lewat bahagia dapat
87 wow jdts legend ballon dor
88 hahahatu mmg award rahsiakan dunia
89 nasib jgk unfollow amboi tuit skang main biar ye hmm manusia manusia
90 manuel neuer ballon dor kirakira
91 cristiano ronaldo emosional karir pergi trofi baru menang
92 sakit kerja suap nasi learning center pt tirta investama danone aqua
93 piala dunia klub
94 pacar subhanal baik moga baikan bls al tbdandyagungpratama
95 latih baik ancelotti
96 jakarta ongs
97 cristiano ronaldo eighth convective fifa fifpro award ballondor
98 moga neuer ballon dor kirakira
99 lionel ssi cristiano ronaldo
100 engkau hapusny al wlw tau anugerah indah rasa
79
LAMPIRAN 5.(A) – Hasil Percobaan untuk Optimasi Nilai k Pada Tweet dengan
Eliminasi Kata Kunci Trivial
jumlah
cluster
(k)
Waktu
(detik)
Silhouette
Coefficient Top Term per cluster
2
0.703
0.004
Cluster 0: moga kerja jakarta main bahagia ronaldo coba baik gila
dunia
Cluster 1: hujan deras reda turun pulang henti lebat cuaca awet
jebak
3
1.015
0.006
Cluster 0: moga jakarta main bahagia ronaldo coba baik gila dunia
dor
Cluster 1: kerja keras cari pulang jam malas je masuk tu kuliah
Cluster 2: hujan deras reda turun pulang henti lebat awet jebak
cuaca
4
1.046
0.015
Cluster 0: hujan moga kerja jakarta bahagia ronaldo baik gila dunia
coba
Cluster 1: budi sangka kpk kapolri gunawan calon jokowi komjen
dpr bg
Cluster 2: main game bola je suka gitar twitter la coc tu
Cluster 3: mkwikku mobilenya kwikku jejaring saran sosial kritik
mohon utk indonesia
5
2.468
0.011
Cluster 0: moga jakarta main bahagia ronaldo gila coba dor ballon
menang
Cluster 1: baik dunia al ain akhirat fantasi cinta dufan doa moga
Cluster 2: mkwikku mobilenya kwikku jejaring saran sosial kritik
mohon utk indonesia
Cluster 3: kerja keras cari pulang jam malas je masuk tu kuliah
Cluster 4: hujan deras reda turun pulang henti lebat awet jebak
cuaca
6
1.733
0.012
Cluster 0: gila dunia rasa sukses serah jadi budi gunawan sakit al
Cluster 1: hujan deras reda turun pulang henti lebat awet jebak
cuaca
Cluster 2: jakarta moga ronaldo coba baik dor ballon menang
cristiano pilih
Cluster 3: main game bola je suka gitar twitter la coc tu
Cluster 4: kerja keras cari jam pulang malas je masuk tu kuliah
Cluster 5: bahagia sederhana cinta senyum doa buat sedih syukur
moga sakit
7
0.937
0.017
Cluster 0: kerja jakarta bahagia coba gila dunia menang pilih turun
rasa
Cluster 1: tv nonton metro trans tgk liat net kompas acara lokal
Cluster 2: hujan deras reda turun pulang henti lebat awet jebak
cuaca
Cluster 3: main game bola je suka gitar twitter la coc tu
Cluster 4: ronaldo dor ballon cristiano congrats fifa ssi neuer
congratulations congratulation
Cluster 5: moga amin al doa aamiin hasil sembuh berkah cepat
sukses
Cluster 6: baik ain al dunia doa untuk laku cinta langit moga
8
1.718
0.016
Cluster 0: mkwikku mobilenya kwikku jejaring saran sosial kritik
mohon utk indonesia
80
Cluster 1: bahagia sederhana cinta senyum buat sedih doa syukur
temu mu
Cluster 2: kerja keras cari pulang jam malas je masuk tu kuliah
Cluster 3: jakarta main baik gila dunia coba menang pilih turun rasa
Cluster 4: hujan deras reda turun pulang henti awet jebak lebat
cuaca
Cluster 5: berani cinta takut ajar tindak la crush ambil nk laku
Cluster 6: moga amin al aamiin doa hasil sembuh berkah cepat
sukses
Cluster 7: ronaldo dor ballon cristiano congrats fifa ssi neuer
congratulation congratulations
9
1.11
0.016
Cluster 0: main coba baik gila dunia menang pilih turun rasa serah
Cluster 1: kerja keras cari pulang jam malas je masuk tu kuliah
Cluster 2: bahagia sederhana cinta senyum buat sedih doa syukur
temu mu
Cluster 3: ronaldo cristiano ssi congrats ballondor congratulation
neuer ain congratulations halamadrid
Cluster 4: moga amin al aamiin doa hasil sembuh berkah cepat
sukses
Cluster 5: tuju retweet dpr capai hukum satu mati cari mana arah
Cluster 6: hujan deras reda turun pulang henti awet jebak lebat
cuaca
Cluster 7: dor ballon ronaldo fifa cristiano congrats neuer kirakira
ssi congratulations
Cluster 8: jakarta dki smkn selat pusat smpn barat timur indonesia
smk
10
1.16
0.016
Cluster 0: jakarta dki smkn selat pusat smpn barat timur indonesia
smk
Cluster 1: mati pas temu hukum lampu moga hujan narkoba
koruptor korupsi
Cluster 2: beda dunia rasa dg tuju kerja pssi coba jadi donghaha
Cluster 3: budi calon sangka kapolri kpk gunawan jokowi komjen
dpr bg
Cluster 4: bahagia sederhana cinta senyum buat doa sedih syukur
sakit temu
Cluster 5: jadi al hati motivasi salah inget lajaran kuat mu hikmah
Cluster 6: hujan deras reda turun pulang henti awet cuaca lebat
ringan
Cluster 7: ronaldo dor ballon cristiano congrats fifa ssi neuer
congratulation congratulations
Cluster 8: kawan gila main suka moga sukses tu tarik salah sangka
Cluster 9: sukses moga hbd amin gagal theworldofaliando doa raih
usaha keras
11
1.16
0.016
Cluster 0: jakarta dki smkn selat pusat smpn barat timur indonesia
smk
Cluster 1: mati pas temu hukum lampu moga hujan narkoba
koruptor korupsi
Cluster 2: beda dunia rasa dg tuju kerja pssi coba jadi donghaha
Cluster 3: budi calon sangka kapolri kpk gunawan jokowi komjen
dpr bg
Cluster 4: bahagia sederhana cinta senyum buat doa sedih syukur
sakit temu
Cluster 5: jadi al hati motivasi salah inget lajaran kuat mu hikmah
81
Cluster 6: hujan deras reda turun pulang henti awet cuaca lebat
ringan
Cluster 7: ronaldo dor ballon cristiano congrats fifa ssi neuer
congratulation congratulations
Cluster 8: kawan gila main suka moga sukses tu tarik salah sangka
Cluster 9: sukses moga hbd amin gagal theworldofaliando doa raih
usaha keras
Cluster 10: main game bola je gitar suka twitter la coc tu
12 1.32 0.45 Cluster 0: jakarta, dki, smkn, selat, pusat, smpn, barat, timur indonesia, smk
Cluster 1: mati, pas, temu, hukum, lampu, moga, hujan, narkoba, koruptor, korupsi
Cluster 2: moga, amin, doa, aamiin, hasil, sembuh, berkah, cepat, sukses, CR7
Cluster 3: budi, calon, sangka, kapolri, kpk, gunawan, jokowi, komjen, dpr, bg
Cluster 4: bahagia, sederhana, cinta, senyum, buat, doa, sedih, syukur, sakit, temu
Cluster 5: turun, harga, bbm, hujan, latih tarif, premium, rp, rncn
Cluster 6: hujan, deras, reda, turun, pulang, henti, awet, cuaca, lebat, ringan
Cluster 7: ronaldo, dor, ballon, cristiano, congrats, fifa, ssi, neuer, congratulation
Cluster 8: kawan, gila, main, suka, moga, sukses, tarik, salah, sangka
Cluster 9: sukses, moga, hbd, amin, gagal, theworldofaliando, doa, raih, usaha, keras,
Cluster 10: kerja, moga, gila, coba, dunia, menang, turun, pilih, rasa, serah
Cluster 11: mkwikku, mobilenya, kwikku, jejaring, saran, sosial, kritik, mohon, indonesia
13
1.16
0.016
Cluster 0: jakarta dki smkn selat pusat smpn barat timur indonesia
smk
Cluster 1: mati pas temu hukum lampu moga hujan narkoba
koruptor korupsi
Cluster 2: beda dunia rasa dg tuju kerja pssi coba jadi donghaha
Cluster 3: budi calon sangka kapolri kpk gunawan jokowi komjen
dpr bg
Cluster 4: bahagia sederhana cinta senyum buat doa sedih syukur
sakit temu
Cluster 5: jadi al hati motivasi salah inget lajaran kuat mu hikmah
Cluster 6: hujan deras reda turun pulang henti awet cuaca lebat
ringan
Cluster 7: ronaldo dor ballon cristiano congrats fifa ssi neuer
congratulation congratulations
Cluster 8: kawan gila main suka moga sukses tu tarik salah sangka
Cluster 9: sukses moga hbd amin gagal theworldofaliando doa raih
usaha keras
Cluster 10: main game bola je gitar suka twitter la coc tu
82
Cluster 11: kerja moga gila coba dunia menang turun pilih rasa
serah
Cluster 12: mkwikku mobilenya kwikku jejaring saran sosial kritik
mohon utk indonesia
14
1.71
0.018
Cluster 0: jakarta dki smkn selat pusat smpn barat timur indonesia
smk
Cluster 1: mati pas temu hukum lampu moga hujan narkoba
koruptor korupsi
Cluster 2: beda dunia rasa dg tuju kerja pssi coba jadi donghaha
Cluster 3: budi calon sangka kapolri kpk gunawan jokowi komjen
dpr bg
Cluster 4: bahagia sederhana cinta senyum buat doa sedih syukur
sakit temu
Cluster 5: jadi al hati motivasi salah inget lajaran kuat mu hikmah
Cluster 6: hujan deras reda turun pulang henti awet cuaca lebat
ringan
Cluster 7: ronaldo dor ballon cristiano congrats fifa ssi neuer
congratulation congratulations
Cluster 8: kawan gila main suka moga sukses tu tarik salah sangka
Cluster 9: sukses moga hbd amin gagal theworldofaliando doa raih
usaha keras
Cluster 10: main game bola je gitar suka twitter la coc tu
Cluster 11: kerja moga gila coba dunia menang turun pilih rasa
serah
Cluster 12: mkwikku mobilenya kwikku jejaring saran sosial kritik
mohon utk indonesia
Cluster 13: baik ain al dunia doa moga laku cinta untuk langit
83
LAMPIRAN 5.(B) – Hasil Percobaan untuk Optimasi Nilai k Pada Tweet
tanpa Eliminasi Kata Kunci Trivial
jumlah
cluster
(k)
Waktu
(detik)
Silhouette
Coefficient Top Term per cluster
2
92.629
0.002 Cluster 0: moga kerja jakarta main bahagia ronaldo coba baik gila
dunia
Cluster 1: hujan deras reda turun pulang henti lebat cuaca awet
jebak
3
40.974
0.001
Cluster 0: moga jakarta main bahagia ronaldo coba baik gila dunia
dor
Cluster 1: kerja keras cari pulang jam malas je masuk tu kuliah
Cluster 2: hujan deras reda turun pulang henti lebat awet jebak
cuaca
4
61.752
0.001
Cluster 0: hujan moga kerja jakarta bahagia ronaldo baik gila dunia
coba
Cluster 1: budi sangka kpk kapolri gunawan calon jokowi komjen
dpr bg
Cluster 2: main game bola je suka gitar twitter la coc tu
Cluster 3: mkwikku mobilenya kwikku jejaring saran sosial kritik
mohon utk indonesia
5 32.282 0.001 Cluster 0: hahah la tu je lu tau wkwk kat main nk
Cluster 1: pagi selamat malam semangat sayang tidur dunia bangun
moga siang
Cluster 2: morning tidur follback orang love la good hati tu makan
Cluster 3: tunggu arti apa raisa waktu pagi sabar jam la cinta
Cluster 4: tau kalo orang gua lu hati kasih tu sih mana
84
LAMPIRAN 6 – Kuesioner Hasil Peringkasan oleh Responden
Cluster 0
Topik : jakarta, dki, smkn, selat, pusat, smpn, barat, timur indonesia, smk
No Tweet Ranking
( 1 – 4 )
1 SMK Jakarta Pusat 1 http://t.co/Nnfmsd739a (Terbaik)
2 I'm at @PlazaIndonesia in Jakarta Pusat, DKI Jakarta https://t.co/KLL5bPGI2c
3 I'm at @ChatimeIndo in Jakarta Pusat, DKI Jakarta https://t.co/BZFoHb9xuF
4 Hangout (at @PlazaSenayan in Jakarta Pusat, DKI Jakarta)
http://t.co/exKTjhQBB6
Cluster 1
Topik : mati, pas, temu, hukum, lampu, moga, hujan, narkoba, koruptor, korupsi
No Tweet Ranking
( 1 – 4 )
1 Pak @ridwankamil setuju koruptor di hukum mati?\nSemoga terlaksana
hukuman mati untuk koruptor, Karena itu kebijakan yang saya impikan. (Terbaik)
2 Terpidana kasus narkoba sudah dihukum mati. Terpidana kasus korupsi kapan
dihukum mati?
3 Harusnya koruptor dihukum mati
4 Hujan gini malah mati lampu
Cluster 2
Topik : moga, amin, doa, aamiin, hasil, sembuh, berkah, cepat, sukses, CR7
No Tweet Ranking
( 1 – 4 )
1 semoga berkah .amin (Terbaik)
2 Aamiin "@adelladellaide: Doa saya sama, semoga kita berjodoh. Amin.
3 Gws untuk saya dan mereka yg sedang sakit. Semoga cepat sembuh amin
4 Semoga ibu cepat sembuh. Amin In Shaa Allah
Cluster 3
Topik : budi, calon, sangka, kapolri, kpk, gunawan, jokowi, komjen, dpr, bg
No Tweet Ranking
( 1 – 4 )
1 @GunRomli: Jokowi payah RT @kompascom KPK Tetapkan Calon Kapolri
Budi Gunawan sebagai Tersangka http://t.co/H0yCqMQCg2 (Terbaik)
2 Budi Gunawan Tersangka KPK, Jokowi Harus Tarik dari Calon Kapolri
http://t.co/2vLQWMJnZc Beranii ? @PintarPolitik
3 padahal sdh d daulatkan tersangka oleh KPK RT @detikcom: DPR Sahkan
Komjen Budi Gunawan Jadi Kapolri http://t.co/AEltJWCe1e via @detik_foto
4 KPK mantap "@kompascom: KPK Tetapkan Calon Kapolri Budi Gunawan
sebagai Tersangka http://t.co/kPjyriIUek
Cluster 4
Topik : bahagia, sederhana, cinta, senyum, buat, doa, sedih, syukur, sakit, temu
No Tweet Ranking
( 1 – 4 )
1 Kesakitan menjadi sebuah kebahagiaan, saat kita sangat mencintai seseorang (Terbaik)
2 Bahagia itu sederhana. Apa yang membuatmu tersenyum, jangan dilepaskan
3 Cintai BAHAGIA karena dia membuatmu ceria, tapi cintai juga SEDIH karena
dia membuatmu dewasa
4 "Bahagia itu sederhana. Apa yang membuatmu tersenyum, jangan lepaskan!
Apa yg membuatmu menangis tinggalkan!
85
Cluster 5
Topik : turun, harga, bbm, hujan, latih tarif, premium, rp, rncn
No Tweet Ranking
( 1 – 4 )
1 Jika BBM februari turun jadi Rp 6000,- bagaimana dengan tarif angkutan dan
harga lain yg telah melambung, turunkan harga bareng agar adil. (Terbaik)
2 @Express_Group BBM turun, bakal turun juga gak tarifnya?
3 Mulai tanggal 19 januari 2015 harga bbm turun jadi Rp 6.600,-
4 Harga BBM boleh naik turun asalkan pesangon jangan naik turun :D
Cluster 6
Topik : hujan, deras, reda, turun, pulang, henti, awet, cuaca, lebat, ringan
No Tweet Ranking
( 1 – 4 )
1 Baru mau pulang... Make hujan lebat... (at @trans7) —
https://t.co/jIz40dzLVr (Terbaik)
2 Cuacanya hujan terus
3 Hujannya awet
4 Karena itu hujanku... untukmu.
Cluster 7
Topik : ronaldo, dor, ballon, cristiano, congrats, fifa, ssi, neuer, congratulation
No Tweet Ranking
( 1 – 4 )
1 Congrats Cristiano Ronaldo FIFA Ballon D'or 2014 (Terbaik)
2 Congratulation (Cristiano Ronaldo) Fifa Ballon D'or 2014.
http://t.co/JvNeF1fvX2
3 Congrats do. "@my_supersoccer: Jumlah suara FIFA Ballon d'Or 2014.
Cristiano Ronaldo: 37,66%. Lionel Messi: 15,76%. Manuel Neuer: 15,72%.
4 FIFA Ballon D'Or 2014 = Cristiano Ronaldo!!! http://t.co/paVmIdnSrs
Cluster 8
Topik : kawan, gila, main, suka, moga, sukses, tarik, salah, sangka
No Tweet Ranking
( 1 – 4 )
1 Permainan semakin menarik kawan.. (Terbaik)
2 Semoga try out nya sukses @Dwiafisa @ishakjoguess @nitasaf1
@PetraKrister @DickyGuntara
3 Bisa, suka "@MentiionSimi: Bisa main catur ? Suka ?"
4 Kau main gila dengan aku hahaha *immortal
Cluster 9
Topik : sukses, moga, hbd, amin, gagal, theworldofaliando, doa, raih, usaha, keras,
No Tweet Ranking
( 1 – 4 )
1 Semoga sukses ya bang konser nya.. Amin. @alysyarief @yhiyie23
@aliando26 @BuDhila_ #TheWorldOfAliando #TheWorldOfAliando (Terbaik)
2 Amin :) "@nadyaaptri: Semoga sukses acara nanti @BluesTroopsPKU amin!"
3 "#TheWorldOfAliando @alysyarief @yhiyie23__ @BuDhila_ sukses yaaa
bwt mini concert nya hari ini smga brjln dgn lancaarrrr......
4 #TheWorldOfAliando \n#TheWorldOfAliando\n#TheWorldOfAliando.
Sukses Abang @alysyarief @ALIANDOO_FAN @AliandoFan @yhiyie23
86
Cluster 10
Topik : kerja, moga, gila, coba, dunia, menang, turun, pilih, rasa, serah
No Tweet Ranking
( 1 – 4 )
1 Dunia semakin gila (Terbaik)
2 Semua ini bukan pilihan tapi cobaan
3 Semoga hari ini tidak ada kerjaan
4 mencoba merasakan penderitaan mereka yg kerja di jakarta… (at Macet
Kampret Gila Di Km 13 Tol Jagorawi) [pic] — https://t.co/YZS4DLoYGx
Cluster 11
Topik : mkwikku, mobilenya, kwikku, jejaring, saran, sosial, kritik, mohon, indonesia
No Tweet Ranking
( 1 – 4 )
1 @waguwiwulado coba ya :) jejaring sosial indonesia kwikku .com, utk
mobilenya di m.kwikku .com :) mohon kritik dan sarannya :) (Terbaik)
2 jejaring sosial indonesia kwikku .com lumayan nih
3 @Tips_Gadget: Nenek Kesepian Ini Temukan Dunia Baru di Jejaring Sosial
http://t.co/Mo7csTYia9”amazing!
4 Indonesia punya kwikku .com
87
LAMPIRAN 7 – Groundtruth dan Hasil Peringkasan
Cluster 0
Opsi 1 Jumlah Opsi 2 Jumlah Opsi 3 Jumlah Opsi 4 Jumlah
1 25 2 20 3 18 4 18
4 7 3 8 2 8 3 6
3 1 1 4 4 7 2 5
4 1 1 4
Peringkasan oleh sistem : SMK Jakarta Pusat 1 http://t.co/Nnfmsd739a
Peringkasan manual : SMK Jakarta Pusat 1 http://t.co/Nnfmsd739a
Nilai Recall : 0.757576
Cluster 1
Opsi 1 Jumlah Opsi 2 Jumlah Opsi 3 Jumlah Opsi 4 Jumlah
1 16 2 15 3 23 4 33
2 13 1 12 1 5
3 4 3 6 2 5
Peringkasan oleh sistem : Pak @ridwankamil setuju koruptor di hukum mati?\nSemoga
terlaksana hukuman mati untuk koruptor, Karena itu kebijakan yang saya impikan.
Peringkasan manual : Pak @ridwankamil setuju koruptor di hukum mati?\nSemoga
terlaksana hukuman mati untuk koruptor, Karena itu kebijakan yang saya impikan.
Nilai Recall : 0.484848485
Cluster 2
Opsi 1 Jumlah Opsi 2 Jumlah Opsi 3 Jumlah Opsi 4 Jumlah
3 13 4 17 2 14 1 14
4 10 3 12 1 11 2 13
1 6 2 2 3 7 4 5
2 4 1 2 4 1 3 1
Peringkasan oleh sistem : semoga berkah .amin
Peringkasan manual : Gws untuk saya dan mereka yg sedang sakit. Semoga cepat sembuh
amin
Nilai Recall : 0.393939394
88
Cluster 3
Cluster 4
Opsi 1 Jumlah Opsi 2 Jumlah Opsi 3 Jumlah Opsi 4 Jumlah
4 22 3 13 3 13 1 18
2 5 2 11 2 8 2 9
3 4 1 6 1 7 4 3
1 2 4 3 4 5 3 3
Peringkasan oleh sistem : Kesakitan menjadi sebuah kebahagiaan, saat kita sangat mencintai
seseorang
Peringkasan manual : "Bahagia itu sederhana. Apa yang membuatmu tersenyum, jangan
lepaskan! Apa yg membuatmu menangis tinggalkan!
Nilai Recall : 0.456521739
Cluster 5
Opsi 1 Jumlah Opsi 2 Jumlah Opsi 3 Jumlah Opsi 4 Jumlah
2 22 3 23 1 25 4 25
1 7 4 6 2 6 3 6
3 4 2 3 4 2 2 2
1 1
Peringkasan oleh sistem : Jika BBM februari turun jadi Rp 6000,- bagaimana dengan tarif
angkutan dan harga lain yg telah melambung, turunkan harga bareng agar adil.
Peringkasan manual : @Express_Group BBM turun, bakal turun juga gak tarifnya?
Nilai Recall : 0.666666667
Cluster 3
Opsi 1 Jumlah Opsi 2 Jumlah Opsi 3 Jumlah Opsi 4 Jumlah
4 13 1 21 3 13 3 9
2 12 3 5 4 9 4 9
3 6 2 5 2 7 2 9
1 2 4 2 1 4 1 6
Peringkasan oleh sistem : @GunRomli: Jokowi payah RT @kompascom KPK Tetapkan
Calon Kapolri Budi Gunawan sebagai Tersangka http://t.co/H0yCqMQCg2
Peringkasan manual : KPK mantap "@kompascom: KPK Tetapkan Calon Kapolri Budi
Gunawan sebagai Tersangka http://t.co/kPjyriIUek
Nilai Recall : 0.893939394
89
Cluster 6
Opsi 1 Jumlah Opsi 2 Jumlah Opsi 3 Jumlah Opsi 4 Jumlah
3 15 1 17 2 13 4 29
2 8 2 12 3 11 3 3
1 7 3 4 1 8 1 1
4 3 4 1
Peringkasan oleh sistem : Baru mau pulang... Make hujan lebat... (at @trans7) —
https://t.co/jIz40dzLVr
Peringkasan manual : Hujannya awet
Nilai Recall : 0.454545455
Cluster 7
Opsi 1 Jumlah Opsi 2 Jumlah Opsi 3 Jumlah Opsi 4 Jumlah
2 11 2 14 1 15 4 14
3 11 1 10 4 8 3 11
4 6 4 5 3 7 2 5
1 5 3 4 2 3 1 3
Peringkasan oleh sistem : Congrats Cristiano Ronaldo FIFA Ballon D'or 2014
Peringkasan manual : Congratulation (Cristiano Ronaldo) Fifa Ballon D'or 2014.
http://t.co/JvNeF1fvX2
Nilai Recall : 0.333333333
Cluster 8
Opsi 1 Jumlah Opsi 2 Jumlah Opsi 3 Jumlah Opsi 4 Jumlah
2 11 1 25 2 15 4 16
4 10 3 3 3 12 3 12
1 6 2 3 4 5 2 4
3 6 4 2 1 1 1 1
Peringkasan oleh sistem : Permainan semakin menarik kawan..
Peringkasan manual : Semoga try out nya sukses @Dwiafisa @ishakjoguess @nitasaf1
@PetraKrister @DickyGuntara
Nilai Recall : 0.333333333
90
Cluster 9
Opsi 1 Jumlah Opsi 2 Jumlah Opsi 3 Jumlah Opsi 4 Jumlah
1 17 4 16 3 11 3 11
2 7 2 9 2 10 4 10
3 5 3 6 1 9 2 7
4 4 1 2 4 3 1 5
Peringkasan oleh sistem : Semoga sukses ya bang konser nya.. Amin. @alysyarief @yhiyie23
@aliando26 @BuDhila_ #TheWorldOfAliando #TheWorldOfAliando
Peringkasan manual : Semoga sukses ya bang konser nya.. Amin. @alysyarief @yhiyie23
@aliando26 @BuDhila_ #TheWorldOfAliando #TheWorldOfAliando
Nilai Recall : 0.515151515
Cluster 10
Opsi 1 Jumlah Opsi 2 Jumlah Opsi 3 Jumlah Opsi 4 Jumlah
4 10 3 13 2 12 1 12
1 9 1 10 4 11 4 9
2 7 2 7 3 8 2 7
3 7 4 3 1 2 3 5
Peringkasan oleh sistem : Dunia semakin gila
Peringkasan manual : mencoba merasakan penderitaan mereka yg kerja di jakarta… (at
Macet Kampret Gila Di Km 13 Tol Jagorawi) [pic] — https://t.co/YZS4DLoYGx
Nilai Recall : 0.303030303
Cluster 11
Opsi 1 Jumlah Opsi 2 Jumlah Opsi 3 Jumlah Opsi 4 Jumlah
1 14 2 16 4 16 3 12
2 10 3 12 1 11 4 11
3 6 4 3 2 3 1 6
4 3 1 2 3 3 2 4
Peringkasan oleh sistem : @waguwiwulado coba ya :) jejaring sosial indonesia kwikku .com,
utk mobilenya di m.kwikku .com :) mohon kritik dan sarannya :)
Peringkasan manual : @waguwiwulado coba ya :) jejaring sosial indonesia kwikku .com,
utk mobilenya di m.kwikku .com :) mohon kritik dan sarannya :)
Nilai Recall : 0.424242424
91
6 BIOGRAFI PENULIS
Rizal Setya Perdana adalah anak pertama dari tiga
bersaudara. Lahir di Malang, tanggal 18 Januari 1991.
Penulis besar di lingkungan keluarga sederhana yang penuh
kasih sayang dari pasangan Irfan dan Dwi Orbaningsih.
Mengenyam pendidikan Sekolah Dasar di SDN Dinoyo 3
Malang Jawa Timur pada tahun 1997, Sekolah Lanjutan
Tingkat Pertama di SMP Negeri 1 Malang pada tahun 2003
dan pendidikan Sekolah Menengah Atas di SMA Negeri 3 Malang pada tahun
2006. Pada tahun 2009 melanjutkan kuliah sarjana di Teknik Informatika,
Universitas Brawijaya dan kemudian pada tahun 2013 melanjutkan pendidikan
pascasarjana di Program Magister Teknik Informatika, ITS Surabaya. Sejak tahun
2013 sampai sekarang aktif sebagai tenaga pengajar di Teknik Informatika,
Fakultas Ilmu Komputer, Universitas Brawijaya Malang.
Email: [email protected]