porter x
TRANSCRIPT
INFORMATION RETRIEVAL
PORTER STEMMER INFORMATION RETRIEVAL
MINI PAPER PROJECT
Oleh : Daniel Oscar Baskoro (10/300237/PA/13187) Habib Malik (10/297422/PA/12989) Muhammad Hafidz Anshari (10/297693/PA/13059)
COMPUTER SCIENCE GADJAH MADA UNIVERSITY
2012
INFORMATION RETRIEVAL
PORTER STEMMER
C O M P U T E R S C I E N C E U G M | 1
Stemming Stemming adalah proses pemetaan dan
penguraian berbagai bentuk (variants)
dari suatu kata menjadi bentuk kata
dasarnya . Proses ini juga disebut sebagai
conflation [3]. Proses stemming secara
luas sudah digunakan di dalam
Information retrieval (pencarian
informasi) untuk meningkatkan
kualitas informasi yang didapatkan.
Porter Stemmer
Stemming khusus bahasa Inggris yang ditemukan oleh Martin Porter 1980. Mekanisme
algoritma dalam mencari kata dasar suatu kata berimbuhan dengan membuang imbuhan–
imbuhan (atau lebih tepatnya akhiran) pada kata–kata bahasa Inggris karena dalam bahasa
Inggris tidak mengenal awalan. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa
modifikasi telah dilakukan untuk membuat Algoritma Porter sehingga dapat digunakan sesuai
dengan bahasa Indonesia
Porter Stemmer Bahasa Indonesia
Implementasi Porter Stemmer for Bahasa Indonesia berdasarkan English Porter Stemmer yang
dikembangkan oleh W.B. Frakes pada tahun 1992. Karena bahasa Inggris datang dari kelas yang
berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter dapat
digunakan sesuai dengan bahasa Indonesia. Desain dari Porter Stemmer for Bahasa Indonesia
dapat dilihat pada gambar.
INFORMATION RETRIEVAL
PORTER STEMMER
C O M P U T E R S C I E N C E U G M | 2
Desain dari Porter Stemmer for Bahasa Indonesia
Algoritma / Langkah-langkah Pada Porter Stemmer
1. Menghapus partikel seperti: -kah, -lah, -tah
2. Mengapus kata ganti (Possesive Pronoun), seperti –ku, -mu, -nya
3. Mengapus awalan pertama. Jika tidak ditemukan, maka lanjut ke langkah 4a, dan jika ada
maka lanjut ke langkah 4b.
4 .a. Menghapus awalan kedua, dan dilanjutkan pada langkah ke 5a
b. Menghapus akhiran, jika tidak ditemukan maka kata tersebut diasumsikan sebagai kata
dasar (root word). Jika ditemukan maka lanjut ke langkah 5b.
5. a. Menghapus akhiran dan kata akhir diasumsikan sebagai kata dasar (root word.
b. Menghapus awalan kedua dan kata akhir diasumsikan sebagai kata dasar (root word).
Aturan Algoritma Porter untuk Indonesia
Terdapat 5 aturan pada Algoritma Porter untuk Bahasa Indonesia. Aturan-aturan tersebut
dapat dilihat pada tabel berikut :
INFORMATION RETRIEVAL
PORTER STEMMER
C O M P U T E R S C I E N C E U G M | 3
Tabel 1: Kelompok rule pertama : inflectional particles
Tabel 2: Kelompok rule kedua :inflectional possesive pronouns
Tabel 3: Kelompok rule ketiga: first order of derivational prefixes
Tabel 4: Kelompok rule keempat: second order of derivational prefixes
Tabel 5: Kelompok rule kelima: derivational suffixes
INFORMATION RETRIEVAL
PORTER STEMMER
C O M P U T E R S C I E N C E U G M | 4
Masalah Porter Stemmer dalam Bahasa Indonesia
Namun demikian, struktur morfologi dalam bahasa Indonesia memiliki tingkat kerumitan yang
lebih tinggi daripada bahasa Inggris. Seperti misalnya,kesulitan dalam membedakan suatu kata
yang mengandung imbuhan baik prefiksmaupun sufiks dengan suatu kata dasar yang salah satu
suku katanya merupakanbagian dari imbuhan, terutama dengan kata dasar yang mempunyai
suku katalebih besar dari dua (Musthafa, Aziz. 2009).
Contoh :
sekolah sekolah (kata dasar, tidak dilakukan stemming)
duduklah duduk (dilakukan proses stemming)
Pemaksimalan Porter Stemmer
Untuk menangani masalah pada Porter Stemmer untuk Indonesia perlu ditambahkan beberapa
aturan dalam algoritma agar memberikan hasil yang lebih maksimal dan untuk mempermudah
proses stem maka dibuatlah beberapa kamus kecil,antara lain sebagai berikut :
1. Kamus kata dasar yang dilekati partikel, untuk menyimpan kata dasar yang memiliki suku
kata terakhir (partikel infleksional) serta kata tersebut tidak mendapat imbuhan apapun.
Seperti : masalah
2. Kamus kata dasar yang dilekati partikel berprefiks untuk menyimpan kata dasar yang
memiliki suku kata terakhir (partikel infleksional) dan mempunyai prefiks. Seperti : menikah
3. Kamus kata dasar yang dilekati kata ganti milik, untuk menyimpan kata dasar yang memiliki
suku kata terakhir (kata ganti infleksional) serta kata dasar tersebut tidak mendapatkan
imbuhan apapun. Seperti : bangku.
4. Kamus kata dasar yang dilekati kata ganti milik berprefiks, untuk menyimpan kata dasar yang
memiliki suku kata terakhir (kata ganti infleksional) dan mempunyai prefiks. Seperti : bersuku.
5. Kamus kata dasar yang dilekati prefiks pertama, untuk menyimpan kata dasar yang memiliki
suku kata pertama (prefiks derivasional pertama) serta kata dasar tersebut tidak mendapatkan
imbuhan apapun.. Seperti : median.
INFORMATION RETRIEVAL
PORTER STEMMER
C O M P U T E R S C I E N C E U G M | 5
6. Kamus kata dasar yang dilekati prefiks pertama bersufiks, untuk menyimpan kata dasar yang
memiliki suku kata pertama (prefiks derivasional pertama) dan mempunyai sufiks derivasional.
Seperti : terapan.
7. Kamus kata dasar yang dilekati prefiks kedua, untuk menyimpan kata dasar yang memiliki
suku kata pertama (prefiks derivasional kedua) serta kata dasar tersebut tidak mendapatkan
imbuhan apapun. Seperti : percaya
8. Kamus kata dasar yang dilekati prefiks kedua bersufiks, untuk menyimpan kata dasar yang
memiliki suku kata pertama (prefiks derivasional) dan mempunyai sufiks derivasional. Seperti :
perasaan.
9. Kamus kata dasar yang dilekati sufiks, untuk menyimpan kata dasar yang memiliki suku kata
terakhir (sufiks derivasional). Seperti : pantai
Sumber Pustaka :
Fadillah Z. Tala, A Study of Stemming Effect on Information Retrieval in Bahasa Indonesia,Netherland,Universiteit
van Amsterdam
Ummul Choiroh, Pembuatan Aplikasi Penerjemah Kalimat Tunggal Bahasa Indonesia Kedalam Kalimat Bahasa
Jawa Berbasis Kamus, Universitas Islam Negeri (UIN) Maulana Malik Ibrahim Malang