porter x

6

Click here to load reader

Upload: kidoseno85

Post on 10-Aug-2015

45 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Porter x

INFORMATION RETRIEVAL

PORTER STEMMER INFORMATION RETRIEVAL

MINI PAPER PROJECT

Oleh : Daniel Oscar Baskoro (10/300237/PA/13187) Habib Malik (10/297422/PA/12989) Muhammad Hafidz Anshari (10/297693/PA/13059)

COMPUTER SCIENCE GADJAH MADA UNIVERSITY

2012

Page 2: Porter x

INFORMATION RETRIEVAL

PORTER STEMMER

C O M P U T E R S C I E N C E U G M | 1

Stemming Stemming adalah proses pemetaan dan

penguraian berbagai bentuk (variants)

dari suatu kata menjadi bentuk kata

dasarnya . Proses ini juga disebut sebagai

conflation [3]. Proses stemming secara

luas sudah digunakan di dalam

Information retrieval (pencarian

informasi) untuk meningkatkan

kualitas informasi yang didapatkan.

Porter Stemmer

Stemming khusus bahasa Inggris yang ditemukan oleh Martin Porter 1980. Mekanisme

algoritma dalam mencari kata dasar suatu kata berimbuhan dengan membuang imbuhan–

imbuhan (atau lebih tepatnya akhiran) pada kata–kata bahasa Inggris karena dalam bahasa

Inggris tidak mengenal awalan. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa

modifikasi telah dilakukan untuk membuat Algoritma Porter sehingga dapat digunakan sesuai

dengan bahasa Indonesia

Porter Stemmer Bahasa Indonesia

Implementasi Porter Stemmer for Bahasa Indonesia berdasarkan English Porter Stemmer yang

dikembangkan oleh W.B. Frakes pada tahun 1992. Karena bahasa Inggris datang dari kelas yang

berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter dapat

digunakan sesuai dengan bahasa Indonesia. Desain dari Porter Stemmer for Bahasa Indonesia

dapat dilihat pada gambar.

Page 3: Porter x

INFORMATION RETRIEVAL

PORTER STEMMER

C O M P U T E R S C I E N C E U G M | 2

Desain dari Porter Stemmer for Bahasa Indonesia

Algoritma / Langkah-langkah Pada Porter Stemmer

1. Menghapus partikel seperti: -kah, -lah, -tah

2. Mengapus kata ganti (Possesive Pronoun), seperti –ku, -mu, -nya

3. Mengapus awalan pertama. Jika tidak ditemukan, maka lanjut ke langkah 4a, dan jika ada

maka lanjut ke langkah 4b.

4 .a. Menghapus awalan kedua, dan dilanjutkan pada langkah ke 5a

b. Menghapus akhiran, jika tidak ditemukan maka kata tersebut diasumsikan sebagai kata

dasar (root word). Jika ditemukan maka lanjut ke langkah 5b.

5. a. Menghapus akhiran dan kata akhir diasumsikan sebagai kata dasar (root word.

b. Menghapus awalan kedua dan kata akhir diasumsikan sebagai kata dasar (root word).

Aturan Algoritma Porter untuk Indonesia

Terdapat 5 aturan pada Algoritma Porter untuk Bahasa Indonesia. Aturan-aturan tersebut

dapat dilihat pada tabel berikut :

Page 4: Porter x

INFORMATION RETRIEVAL

PORTER STEMMER

C O M P U T E R S C I E N C E U G M | 3

Tabel 1: Kelompok rule pertama : inflectional particles

Tabel 2: Kelompok rule kedua :inflectional possesive pronouns

Tabel 3: Kelompok rule ketiga: first order of derivational prefixes

Tabel 4: Kelompok rule keempat: second order of derivational prefixes

Tabel 5: Kelompok rule kelima: derivational suffixes

Page 5: Porter x

INFORMATION RETRIEVAL

PORTER STEMMER

C O M P U T E R S C I E N C E U G M | 4

Masalah Porter Stemmer dalam Bahasa Indonesia

Namun demikian, struktur morfologi dalam bahasa Indonesia memiliki tingkat kerumitan yang

lebih tinggi daripada bahasa Inggris. Seperti misalnya,kesulitan dalam membedakan suatu kata

yang mengandung imbuhan baik prefiksmaupun sufiks dengan suatu kata dasar yang salah satu

suku katanya merupakanbagian dari imbuhan, terutama dengan kata dasar yang mempunyai

suku katalebih besar dari dua (Musthafa, Aziz. 2009).

Contoh :

sekolah sekolah (kata dasar, tidak dilakukan stemming)

duduklah duduk (dilakukan proses stemming)

Pemaksimalan Porter Stemmer

Untuk menangani masalah pada Porter Stemmer untuk Indonesia perlu ditambahkan beberapa

aturan dalam algoritma agar memberikan hasil yang lebih maksimal dan untuk mempermudah

proses stem maka dibuatlah beberapa kamus kecil,antara lain sebagai berikut :

1. Kamus kata dasar yang dilekati partikel, untuk menyimpan kata dasar yang memiliki suku

kata terakhir (partikel infleksional) serta kata tersebut tidak mendapat imbuhan apapun.

Seperti : masalah

2. Kamus kata dasar yang dilekati partikel berprefiks untuk menyimpan kata dasar yang

memiliki suku kata terakhir (partikel infleksional) dan mempunyai prefiks. Seperti : menikah

3. Kamus kata dasar yang dilekati kata ganti milik, untuk menyimpan kata dasar yang memiliki

suku kata terakhir (kata ganti infleksional) serta kata dasar tersebut tidak mendapatkan

imbuhan apapun. Seperti : bangku.

4. Kamus kata dasar yang dilekati kata ganti milik berprefiks, untuk menyimpan kata dasar yang

memiliki suku kata terakhir (kata ganti infleksional) dan mempunyai prefiks. Seperti : bersuku.

5. Kamus kata dasar yang dilekati prefiks pertama, untuk menyimpan kata dasar yang memiliki

suku kata pertama (prefiks derivasional pertama) serta kata dasar tersebut tidak mendapatkan

imbuhan apapun.. Seperti : median.

Page 6: Porter x

INFORMATION RETRIEVAL

PORTER STEMMER

C O M P U T E R S C I E N C E U G M | 5

6. Kamus kata dasar yang dilekati prefiks pertama bersufiks, untuk menyimpan kata dasar yang

memiliki suku kata pertama (prefiks derivasional pertama) dan mempunyai sufiks derivasional.

Seperti : terapan.

7. Kamus kata dasar yang dilekati prefiks kedua, untuk menyimpan kata dasar yang memiliki

suku kata pertama (prefiks derivasional kedua) serta kata dasar tersebut tidak mendapatkan

imbuhan apapun. Seperti : percaya

8. Kamus kata dasar yang dilekati prefiks kedua bersufiks, untuk menyimpan kata dasar yang

memiliki suku kata pertama (prefiks derivasional) dan mempunyai sufiks derivasional. Seperti :

perasaan.

9. Kamus kata dasar yang dilekati sufiks, untuk menyimpan kata dasar yang memiliki suku kata

terakhir (sufiks derivasional). Seperti : pantai

Sumber Pustaka :

Fadillah Z. Tala, A Study of Stemming Effect on Information Retrieval in Bahasa Indonesia,Netherland,Universiteit

van Amsterdam

Ummul Choiroh, Pembuatan Aplikasi Penerjemah Kalimat Tunggal Bahasa Indonesia Kedalam Kalimat Bahasa

Jawa Berbasis Kamus, Universitas Islam Negeri (UIN) Maulana Malik Ibrahim Malang