bab ii tinjauan pustaka 2.1 pemrosesan bahasa alami...
Post on 03-Apr-2018
219 Views
Preview:
TRANSCRIPT
5
BAB II
TINJAUAN PUSTAKA
2.1 Pemrosesan Bahasa Alami (Natural Language Processing)
Pemrosesan bahasa alami (Natual Language Processing - NLP)
merupakan salah satu bidang ilmu Kecerdasan Buatan (Artificial Intelligence)
yang mempelajari komunikasi antara manusia dengan komputer melalui bahasa
alami, baik lisan maupun tulisan.
Proses representasi bahasa dalam bentuk yang lebih memungkinkan untuk
dikomputasi telah dilakukan oleh seorang ahli bernama Chomsky pada tahun 1957
(Desiani dan Arhami, 2006). Pada bidang ilmu pemrosesan bahasa alami tidak
mudah untuk dilakukan karena terdapat beberapa alasan yang menyulitkan pada
pemrosesan bahasa alami (Desiani dan Arhami, 2006). Salah satu kesulitan dalam
pemrosesan bahasa alami adalah pemilihan arti yang tepat dari suatu kata
bermakna ganda seperti kata “bisa” yang dapat berarti “racun” atau “dapat” sesuai
dengan kalimatnya. Fenomena ini terjadi dalam penentuan jenis kata (part of
speech) seperti kata “advanced” yang dapat berfungsi sebagai kata kerja aktif
lampau, kata kerja pasif, atau kata sifat. Selain itu, jumlah kosa kata (vocabulary)
dalam bahasa alami besar dan terus berkembang dari waktu ke waktu (Desiani dan
Arhami, 2006).
NLP sering diterapkan pada aplikasi bahasa tertulis, tetapi saat ini
pengembangan aplikasi bahasa lisan juga dilakukan yang kesulitannya mungkin
terjadi dimana dalam bahasa lisan, manusia sangat sering membentuk ucapan
yang tidak sesuai dengan aturan-aturan yang berlaku.
Salah satu aplikasi dari pemrosesan bahasa alami adalah sistem
penerjemah bahasa alami (natural language translator) seperti sistem penerjemah
dari bahasa Inggris ke bahasa Indonesia. Translator tidak hanya dapat
menerjemahkan kata per kata (kamus) tetapi juga dapat mentranslasikan dari
bahasa asal ke bahasa target dengan maksud yang dapat dimengerti (Desiani dan
Arhami, 2006).
6
2.2 Sistem Penerjemah
Pemrosesan bahasa alami merupakan teknologi yang memungkinkan
berbagai macam jenis pemrosesan terhadap bahasa alami yang biasa digunakan
oleh manusia. Pemrosesan bahasa alami mencakup aplikasi yang sangat banyak.
Salah satu aplikasi yang sangat penting dari kajian ilmu pemrosesan bahasa alami
yaitu sistem penerjemah atau machine translation (Barkade et al, 2010).
Sistem penerjemah atau machine translation merupakan suatu sistem yang
dapat menerjemahkan bahasa sumber (source language) ke dalam bahasa tujuan
(target language). Tujuan dari sistem ini adalah untuk menerima masukan dari
bahasa sumber dan memberikan keluaran yang berarti dalam bahasa tujuan
(Fromkin et al, 2003). Penerapan sistem penerjemah dimulai sejak tahun 1940
yaitu sejak penggunaan komputer dalam memproses bahasa alami. Dalam
perkembangannya, sistem penerjemah tidak hanya berupa teks (text) tetapi juga
telah berkembang menjadi penerjemah ucapan (speech) dari satu bahasa ke bahasa
lainnya (Fromkin et al, 2003). Selain itu, dikembangkan juga sistem penerjemah
ucapan ke dalam bentuk teks maupun teks ke dalam bentuk ucapan.
Sistem penerjemah memiliki beberapa pendekatan yang digunakan dalam
menerjemahkan bahasa. Pendekatan tersebut memiliki tiga pendekatan utama
yaitu pendekatan berbasis aturan (rule based), statistik (statistical), dan berbasis
contoh (example based) (Kamatani et al, 2009). Pendekatan berbasis aturan (rule
based) menggunakan banyak aturan penerjemahan yang diuraikan secara konkret
untuk mendapatkan terjemahan yang sesuai dalam bahasa tujuan. Aturan-aturan
tersebut memberikan ketahanan yang baik pada sistem tetapi juga kadang-kadang
menyebabkan sistem menjadi kurang lancar. Sistem dengan pendekatan statistik
(statistical) menggunakan basis statistik dengan analisis korpus dwibahasa yang
dapat menghemat biaya pengembangan, tetapi dalam beberapa kasus, hasil
terjemahan sistem dengan pendekatan berbasis aturan (rule based) memiliki hasil
yang lebih sesuai daripada menggunakan pendekatan berbasis statistik. Sistem
dengan pendekatan berbasis contoh (example based) merupakan sistem dengan
memanfaatkan contoh terjemahan (dari korpus maupun kitab bahasa) sehingga
lebih alami maknanya daripada hasil dari pendekatan berbasis aturan. Namun,
7
pada sistem ini hanya tergantung pada basis data contoh sehingga memiliki
ketahanan yang rendah (Kamatani et al, 2009). Pendekatan berbasis statistik dan
pendekatan berbasis contoh menggunakan korpus dua bahasa untuk melakukan
proses-proses pada sistem (Saraswathi et al, 2011).
2.3 Sistem Penerjemah Berbasis Aturan (Rule Based)
Sistem penerjemah berbasis aturan (rule based) merupakan suatu sistem
penerjemah dengan pendekatan yang menggunakan aturan dalam proses
penerjemahan. Aturan (rule) yang diimplementasikan pada sistem dapat
dinyatakan dengan menggunakan ″If - Then″. Setiap kalimat dari bahasa asal
diklasifikasikan menurut kelasnya masing-masing menggunakan atribut (jenis
kata) dari bahasa asal yang kemudian dialihbahasakan ke bahasa target dengan
menggunakan aturan-aturan yang terdapat pada sistem penerjemah. Dalam
mengalihbahasakan bahasa asal ke bahasa target digunakan kamus (dictionary)
yang memuat kedua bahasa (Francisca et al, 2011).
Dari tiga tipe pendekatan pada penerjemah bahasa, pendekatan berbasis
aturan merupakan salah satu pendekatan yang efektif (Barkade et al, 2010).
Bagian terpenting dari sistem penerjemah berbasis aturan (rule based) adalah
koleksi dari aturan-aturan tersebut. Tidak ada standarisasi untuk implementasi dari
aturan tersebut (Arman, 2007). Beberapa contoh aturan (rule) dalam sistem
penerjemah bahasa Inggris ke bahasa Indonesia adalah sebagai berikut (Arman,
2007) :
1. Aturan kata kerja dalam tenses present continous (contoh : is eating, are
going, am waiting) adalah <TO_BE> <VERB_ING> diterjemahkan ke dalam
<sedang> <VERB>. Berikut algoritma yang digunakan untuk
mengimplementasikan aturan tersebut.
IF ((category of WORD[n]) = TO_BE) AND
((category of WORD[n+1]) = VERB_ING)
THEN do something
2. Aturan yang merepresentasikan frase benda yang menggunakan adjektif
sebagai informasi (contoh : red car, high building). Aturannya : <ADJ>
8
<NOUN> yang diterjemahkan ke <NOUN> <ADJ>. Berikut algoritma yang
digunakan untuk mengimplementasikan aturan tersebut.
IF ((category of WORD[n]) = ADJ) AND
((category of WORD[n+1]) = NOUN)
THEN do something
Sistem penerjemah berbasis aturan dapat digambarkan sebagai berikut.
Source LanguageRULE-BASED
TRANSLATORTarget Language
RULE
COLLECTIONS
(All Rules)
DICTIONARY
Gambar 2.1 Sistem Penerjemah Berbasis Aturan
(Sumber : Arman, 2007)
Beberapa penelitian sistem penerjemah berbasis aturan (rule based) dari
berbagai macam bahasa adalah sebagai berikut :
Tabel 2.1 Penelitian Mengenai Penerjemah Bahasa Berbasis Aturan
No. Peneliti Tahun Bahasa Kesimpulan
1 Nurul
Wikantyasning
(Wikantyasning,
2005)
2005 Bahasa Inggris ke
bahasa Jawa
Sistem dapat
menerjemahkan bahasa
Inggris ke bahasa Jawa
dengan baik
2 Ema Utami dan
Sri Hartati
(Utami dan
Hartati, 2007)
2007 Bahasa Inggris ke
bahasa Indonesia
Sistem dapat
menerjemahkan kalimat
dengan cukup baik
menggunakan metode rule
based
9
3 Yusuf
(Yusuf, 2008)
2008 Bahasa Inggris ke
bahasa Indonesia
Metode berbasis aturan
dengan aturan translasi
MD-DM dan Translasi
Padanan arti memberikan
rata-rata kinerja terbaik
4 Ari Triwibowo
(Triwibowo,
2009)
2009 Bahasa Inggris ke
bahasa Indonesia
Sistem yang dibuat telah
sesuai dengan aturan
penggunaan tata bahasa
Inggris dan Indonesia yang
ada
5 Muhammad
Syaukani
(Syaukani, 2010)
2010 Bahasa Inggris ke
bahasa Indonesia
Pendekatan berbasis aturan
berhasil diimplementasikan
pada aplikasi
komunikasi online Inggris-
Indonesia
6 Ms VM Barkade
(Barkade et al,
2010)
2010 Bahasa Inggris ke
bahasa Sanskrit
Implementasi modul
semantic mapper untuk
memetakan kedua bahasa
7 Judith Francisca
(Francisca et al,
2011)
2011 Bahasa Inggris ke
bahasa Bangla
Implementasi pendekatan
dengan algoritma baru pada
proses penerjemahan
2.4 Context Free Grammar
Sebagian besar sistem dalam memodelkan struktur konstituen dalam
bahasa Inggris atau bahasa alami lainnya adalah dengan menggunakan Context
Free Grammar atau CFG (Jurafsky and Martin, 1999). Konstituen adalah unsur-
unsur pembentuk kalimat yang dapat berdiri sendiri seperti noun phrase atau verb
phrase. Sebuah CFG terdiri dari rule atau productions, kumpulan kata maupun
simbol. Kalimat yang dapat diperoleh dengan tata bahasa formal (formal
grammar) disebut kalimat yang sesuai dengan tata bahasa (grammatical sentence)
sedangkan yang tidak dapat diperoleh disebut kalimat yang tidak sesuai dengan
tata bahasa (ungrammatical) (Jurafsky and Martin, 1999).
10
Simbol yang dipergunakan dalam CFG terdiri dari dua kelas yaitu simbol
terminal dan simbol non terminal. Simbol terminal merupakan kata dalam setiap
bahasa (‘the’, ‘nightclub’). Pada aturan context-free, simbol non terminal berada
di sebelah kiri tanda panah (→) dan kategori dari masing-masing simbol terminal
atau kata disebelah kanan tanda panah. Simbol non terminal merupakan suatu
ekspresi generalisasi (NP, VP). Sehingga untuk sebuah Context Free Grammar
mempunyai empat parameter (secara teknik disebut 4-tuple)
(Jurafsky and Martin, 1999) :
1. N : Kumpulan simbol non terminal (atau variabel)
2. ∑ : Kumpulan simbol terminal
3. P : Kumpulan produksi, yang dinyatakan dalam bentuk A → α dimana
A merupakan simbol non terminal
4. S : Simbol permulaan
Pada context free grammar, penggunaan pohon parsing berguna untuk
memeriksa grammar dari suatu aplikasi pengolahan kata. Suatu masukan, seperti
kalimat yang tidak dapat di parsing kemungkinan memiliki struktur gramatikal
yang salah (atau sulit untuk dibaca) (Jurafsky and Martin, 1999). Parsing atau
analisa sintaks adalah proses dalam menganalisa teks, yang terdiri dari urutan
token (seperti kata) untuk menentukan struktur dengan memperhatikan tata bahasa
yang diberikan (Barkade et al, 2010). Dalam melakukan suatu parsing, metode
yang umum digunakan yaitu top-down dan bottom-up. Pemilihan metode parsing
yang digunakan harus dilakukan secara jeli, dengan memperhatikan kompleksitas
tata bahasa dan kebutuhan aplikasi (Suciadi, 2001). Parser bottom up tidak
membedakan antara rule (grammar) dan word (lexicon) sehingga cara kerjanya
sangat sederhana namun sangat "bodoh" karena akan terus mengulang-ulang
kesalahan yang sama (Suciadi, 2001).
Top-down parser mencari pohon parsing dari root node yaitu ‘S’.
Langkahnya dimulai dari penempatan simbol permulaan ‘S’ untuk semua kasus
dan kemudian mencari semua aturan tata-bahasa (grammar rule) yang sesuai.
Dalam top-down parser terdapat strategi yang bernama depth-first yang mencari
grammar yang sesuai dari setiap masukan yang paling pertama dan selanjutnya.
11
Gambar 2.2 Top Down Depth-First Derivation
(Sumber : Jurafsky and Martin, 1999)
2.5 Tata Bahasa Inggris
Bahasa Inggris merupakan salah satu bahasa alami manusia yang
mempunyai tata bahasa dengan pola untuk setiap kalimatnya. Penelitian ini
mencakup masukan (input) berupa teks. Teks yang dicakup dalam penelitian ini
berupa satuan bahasa yang berupa kata, frase, dan kalimat tunggal. Kata
merupakan gabungan morfem yang dapat diujarkan sebagai bentuk bebas yang
paling kecil. Contoh kata dalam bahasa Inggris beserta padanannya dalam bahasa
Bali yaitu I (Titiang). Frase merupakan sekelompok kata-kata yang memiliki
fungsi sama. Dalam penelitian ini hanya menggunakan frase benda, verba,
preposisi serta tidak mempergunakan frase idiom. Contoh dari frase yaitu in the
basement (frase preposisi). Kalimat tunggal berbentuk aktif merupakan kalimat
yang memiliki satu verba dan subjeknya yang melakukan suatu tindakan
(Phythian, 1995).
12
Pada kata-kata yang ditulis seringkali terlihat bahwa terdapat kata yang
dihilangkan. Contractions atau singkatan merupakan kata-kata yang ditulis
dengan penghapusan huruf-huruf tertentu untuk mencerminkan cara pengucapan
yang lazim (Phythian, 1995). Contoh beberapa singkatan untuk tenses yang
dipergunakan yaitu I’ll berarti I will dan don’t berarti do not. Beberapa hal yang
perlu dikaji dalam bahasa inggris yaitu struktur bahasa Inggris dalam bentuk
waktu (tenses), bentuk kata benda, dan jenis kata.
2.5.1 Bentuk Waktu (Tenses) Dalam Bahasa Inggris
Dalam struktur bahasa Inggris dikenal adanya tenses atau waktu kejadian.
Struktur kalimat yang terdapat pada kalimat bahasa Inggris terdiri dari 12 macam
tenses (Azar, 1992). Dalam penelitian ini hanya menggunakan dua macam tenses
yaitu simple present tense dan simple future tense. Berikut pemaparan kedua
macam tenses tersebut :
1. Simple Present Tense
Tenses ini digunakan untuk menyatakan suatu kegiatan yang dilakukan
sehari-hari atau biasa dilakukan. Tenses ini juga dapat digunakan dalam kondisi
kebenaran umum serta suatu kegiatan yang dilakukan secara berulang atau
kebiasaan. Predikat pada tenses ini memakai kata kerja bentuk pertama (Verb
1) dan memakai to be untuk bentuk nominal.
Rumus :
Bentuk nominal : Subject + to be (is, am, are) + Complement
Bentuk verbal : They/We/I/You + Verb 1 + Object
He/She/It + Verb 1 + s/es + Object
Kata-kata yang disingkat pada tenses ini seperti kata am yang disingkat m
(′m), kata are yang disingkat re (′re), kata is yang disingkat s (′s), kata not yang
disingkat n′t.
2. Simple Future Tense
Tenses ini digunakan untuk menyatakan sesuatu yang akan dilakukan
pada waktu atau masa yang akan datang. Predikat pada tenses ini yaitu kata
kerja bentuk pertama (Verb 1).
13
Rumus:
Subject + will + Verb 1 + Object
Kata-kata yang disingkat pada tenses ini seperti kata will yang disingkat
menjadi ll (′ll), kata will not yang disingkat menjadi won’t.
2.5.2 Bentuk Kata Benda
Kata benda memiliki dua bentuk, yaitu bentuk tunggal (singular) dan
bentuk jamak (plural). Dalam bahasa Inggris, juga dikenal adanya perubahan
bentuk kata benda dari bentuk tunggal ke bentuk jamak. Aturan perubahan
tersebut adalah :
1. Secara umum menambahkan huruf ′s′, contoh book + ′s′ menjadi books.
2. Menambahkan rangkaian ′es′ jika bentuk tunggalnya berakhiran dengan bunyi
desis, seperti ′sh′, ′ch′, ′s′, ′z′, ′x′.
3. Menambahkan ′ies′ jika bentuk tunggalnya berakhiran dengan huruf ′y′ yang
sebelumnya adalah huruf mati.
2.5.3 Jenis Kata
Berikut merupakan kajian jenis kata beserta dengan fungsinya masing-
masing (Phythian, 1995) :
1. Kata Benda (Noun)
Noun atau nomina adalah kata yang digunakan untuk menamai benda atau
orang. Contoh dari noun adalah rabbit, child, man. Untuk nomina yang digunakan
untuk menamai orang disebut dengan proper noun. Seperti contoh Nicholas
Nickleby.
2. Kata Ganti (Pronoun)
Pronoun merupakan kata yang berfungsi sebagai pengganti nomina.
Sebagai contoh dari pronoun yaitu I, She, We, It.
3. Kata Sifat (Adjective)
Adjective merupakan kata yang melukiskan nomina. Contoh dari adjective
yaitu invisible, beautiful, cold.
14
4. Kata Kerja (Verb)
Kata yang menunjukkan suatu tindakan atau keadaan. Contoh dari verb
yaitu walk, think, kick.
5. Kata Keterangan (Adverb)
Adverb atau adverbia merupakan kata yang melukiskan verba, adjective.
Contoh dari adverb adalah loudly, weekly.
6. Kata Depan (Preposition)
Kata depan merupakan kata yang menunjukkan hubungan antara nomina
dan bagian-bagian lainnya. Contoh dari kata depan yaitu in, into, from.
7. Kata Sambung (Conjunction)
Kata yang menggabungkan dua kata. Contoh kata sambung adalah and, or,
because, before.
2.6 Tata Bahasa Bali
Bahasa Bali mempunyai sejarah yang panjang, sejak zaman Bali Kuno
sampai sekarang. Sepanjang perkembangan sejarahnya itu bahasa Bali mengalami
banyak perubahan-perubahan dan mendapat banyak pengaruh dari bahasa
Sanskerta maupun Jawa Kuno. Bahkan juga dari bahasa Cina, Inggris, Prancis,
Portugis, dan Arab. Belakangan bahasa Bali mendapatkan banyak pengaruh dari
bahasa Indonesia (Sancaya, 1990).
Bahasa Bali merupakan bahasa yang terbesar dipakai di Bali, secara umum
dan secara garis besar dikatakan memiliki dua dialek yaitu dialek Bali Dataran
dan dialek Baliaga. Selain itu juga bahasa Bali dilihat dari sudut pandang
sosiologi terdapat adanya tingkatan-tingkatan bahasa (level of speech) yang
disebut dengan anggah ungguhing basa. Dalam penelitian ini hanya
menggunakan bahasa Bali Kepara.
2.6.1 Bahasa Bali Kepara
Terdapat beberapa pendapat yang saling berbeda mengenai pengertian
bahasa Bali Kepara ini. Adanya perbedaan tersebut rupanya disebabkan oleh
perbedaan rasa. Dalam bahasa yang keberadaannya banyak ditentukan oleh
15
stratifikasi sosial masyarakat penuturnya, tergantung pada tempat, waktu, dan
manusianya. Halus dan kasarnya suatu bahasa tidak bisa ditentukan secara
obyektif dari keberadaan bahasa tersebut (Sancaya, 1990).
Penggunaan istilah bahasa Bali Kepara sebagai salah satu bagian dari
bahasa Bali sebenarnya masih tetap relevan dan perlu dipertahankan. Hal tersebut
dikarenakan lebih mencerminkan kenyataan bahasa Bali yang masih hidup dan
berkembang dewasa ini. Dari beberapa pendapat para ahli dapat disimpulkan
bahwa bahasa Bali Kepara merupakan bahasa Bali yang dipakai sebagai alat
komunikasi dalam kehidupan sehari-hari, termasuk di dalamnya tingkatan bahasa
Kasar, bahasa Madia, dan bahasa Alus (Sancaya, 1990).
2.6.2 Pola Dasar Kalimat Bahasa Bali
Dalam bahasa Bali dikenal adanya struktur yang mengikat tata bahasa
Bali, seperti struktur fonologi, morfologi, dan sintaksis. Struktur fonem
berhubungan dengan tata bunyi dalam bahasa Bali, struktur morfologi yaitu
bagian dari tata bahasa yang membahas mengenai seluk-beluk struktur kata serta
pengaruh perubahan struktur kata terhadap jenis kata. Sedangkan stuktur sintaksis
yaitu mencakup bagian yang melingkupi pada tata kalimat (Anom et al, 1993).
Kalimat bahasa Bali memiliki beberapa pola dasar yaitu : (Tinggen, 1993)
1. Subyek – Predikat
Pola dalam kalimat ini merupakan pola kalimat bahasa Bali yang paling
mendasar hanya dengan terdiri dari subyek dan predikat. Dalam predikat dapat
terdiri dari predikat verbal, obyek, maupun kata keterangan.
Contoh : Pianakne lulus
S P
2. Subyek – Predikat – Keterangan
Pola dalam kalimat ini memiliki subyek, predikat, dan keterangan.
Keterangan dalam hal ini dapat berupa obyek atau kata keterangan seperti
keterangan tempat, waktu dan sebagainya.
Contoh : Ia medagang ditu
S P K
16
3. Subyek – Predikat – Pelengkap
Pola dalam kalimat ini memiliki subyek, predikat, dan pelengkap.
Pelengkap dalam hal ini dapat berupa obyek atau kata keterangan seperti
keterangan tempat, waktu dan sebagainya.
Contoh : Ia medagang di peken
S P Pel.
4. Subyek – Predikat – Obyek – Keterangan
Pola dalam kalimat ini memiliki subyek, predikat, obyek, dan keterangan.
Keterangan dalam hal ini dapat seperti keterangan tempat, waktu dan
sebagainya.
Contoh : Ia meli baju di peken
S P O K
top related