bab 2 landasan teori -...
TRANSCRIPT
12
BAB 2
LANDASAN TEORI
2.1. Spell Checking
Operasi yang paling dasar dalam memproses bahasa.
2.1.1. Noisy Channel Model
Speel checking dapat diistilahkan sebagai noisy channel model (NCM). pada
dasarnya adalah idealisasi matematika dari suatu sistem komunikasi. Model ini dapat
digambarkan dalam hal input, output, noise, target class dan estimasi input.
Tabel 2.1 Model Saluran bising
Noisy Channel Model
Input I Word sequences
Output O Word sequences (with mistakes)
Noise Spelling Errors
Target Classes All possible English words
Estimated Input Î Corrected words
13
Oleh karena itu secara resmi ditetapkan tujuan spell checker untuk membuat
daftar kata-kata yang kemungkinannya paling benar diberikan input tertentu, atau:
î = argmax(p(i|o))
atau menggunakan Bayes:
î = argmax(p(o|i)p(i))
Dimana p(i) adalah probabilitas sebelum dan p(o|i) adalah likelihood. artinya p(i)
adalah probabilitas dari urutan kata, dimana p(o|i) adalah model dari spelling errors.
Untuk memperjelas, tulis ulang formula menjadi:
ĉ = argmax(p(t|c)p(c))
Yang kira-kira menjadi "koreksi terbaik adalah kata yang benar yang terjadi
paling sering dengan kesalahan pengetikan”.
2.1.1.1. Spelling Mistakes
Kesalahan ejaan terdapat dua kategori: kesalahan non-kata dan kesalahan kata
yang sebenarnya. Kesalahan ejaan non-kata adalah kesalahan yang menghasilkan kata-
kata tidak masuk akal, sedangkan kesalahan kata sebenarnya menghasilkan kata sah
lainnya.
Kesalahan ejaan juga dapat dibagi menjadi dua kategori: kesalahan ketik dan
kesalahan kognitif. Kesalahan ketik berasal dari kesalahan sedangkan kesalahan kognitif
14
adalah kesalahan sebenarnya. Hal ini juga relevan untuk dicatat bahwa kesalahan ejaan
dapat tunggal atau banyak kesalahan eja.
2.1.2. Error Checker
Sebagian besar kesalahan ejaan adalah single-error, dan dapat diklasifikasikan
sebagai salah satu dari berikut:
• Insertion (x menjadi xy)
• Deletion (xy menjadi x)
• Substitution (x menjadi y)
• Transposition (xy menjadi yx)
Untuk mendeteksi kesalahan eja, checker akan memeriksa setiap kata dalam teks
dan membandingkannya dengan sebuah kamus. Checker mungkin perlu melakukan
transformasi morfologi dasar. Setelah sistem memiliki daftar kata-kata non teks, ia
mengikuti algoritma sederhana:
1. Membuat daftar calon koreksi
2. Rank variasi ejaan
3. Memilih peringkat tertinggi sebagai hasil koreksi yang paling mungkin
15
2.2. Phonemes
Tabel 2.2 konsonan chart
Ahli bahasa mengklasifikasikan pidato suara yang digunakan dalam bahasa ke
dalam beberapa kategori abstrak yang disebut fonem-fonem. Meskipun jumlahnya
bervariasi sesuai dengan dialek pembicaraan dan ejaan dari linguis dalam klasifikasi.
Fonem-fonem adalah kategori abstrak yang memungkinkan untuk bergrup bersama
himpunan bagian dari suara pidato. Meskipun tidak ada suara pidato perantara, atau
telepon, adalah ejaan c, semua telepon dikelompokkan ke dalam satu kategori phenome
yang cukup mirip sehingga mereka menyampaikan arti yang sama.
16
Fonem-fonem dapat diklasifikasikan kedalam katagori ini:
VOKAL
1. Monophthongs – inggris amerika memiliki sebelas qualitas vokal tunggal
termasuk Sembilan ejaan yang diucapkan menekan seperti dalam kata beet, bit,
bet, bat, Bert, boot, book, but, bought dan duaejaan yang diucapkan merendah
seperti dalam akhir kata abbot dan Hubert. Adapun vokal merendah lain seperti
dalam kata caught / cot.
2. Diphthongs – Inggris amerika memiliki 6 diphthongs – ejaan yang memanifest
secara tegas perubahannya dalam hal kualitas dari awal sampai akhir seperti
pada kata bite, Boyd, bate, beaut, bout, boat.
KONSONAN
1. Approximants – ‘w’, ‘l’, ‘r’, dan ‘y’.
2. Nasals – ‘m’, ‘n’, dan ‘ng’.
3. Fricatives – ‘h’, ‘f’, ‘v’, ‘t’, ‘d’, ‘s’, ‘z’, ‘sh’ dan ‘z’.
4. Plosives – ‘p’, ‘t’, ‘k’, ‘b’, ‘d’, ‘g’.
5. Affricates – ‘ch’, ‘j’.
Dalam daftar di atas kami menggunakan surat dari ejaan pada setiap kata untuk
menunjukkan bunyi ujaran yang dimaksud. Namun, ejaan bahasa Inggris tidak fonetik,
seperti yang kita semua tahu. Phoneticians telah mengembangkan seperangkat simbol-
simbol yang mewakili pidato suara tidak hanya untuk bahasa Inggris, tetapi untuk semua
17
bahasa lisan yang ada. International Phonetic Alphabet (IPA) diakui sebagai standar
internasional untuk transkripsi fonem dalam semua bahasa di dunia.
Gambar 2.1 vokal chart
Pidato suara diciptakan oleh aktivitas getaran dalam saluran vokal manusia.
Pidato biasanya ditransmisikan ke telinga pendengar atau ke mikrofon melalui udara, di
mana pidato dan suara lain mengambil bentuk gelombang memancar variasi tekanan
udara di sekitar nilai rata-rata beristirahat di permukaan laut sekitar 100.000 pascal (Pa).
(Carmell, Tim. (1997).SpectogramReading.
http://www.cslu.ogi.edu/tutordemos/SpectrogramReading/why.html)
2.3. Waveform dan Spectrogram
Kita bisa menggabungkan tampilan waveform dan spektrogram untuk ucapan
yang sama bersamaan menggunakan garis yang memberikan ukuran waktu berlalu.
18
Gambar 2.2 waveform dan spectrogram dari kata compute
Waveform dan spectrogram untuk kata "compute" dikombinasikan dengan garis
yang memberi kita ukuran durasi berbagai komponen yang di ucapan.
(Carmell, Tim. (1997).SpectogramReading.
http://www.cslu.ogi.edu/tutordemos/SpectrogramReading/why.html)
19
2.4. Model Markov
Model Markov adalah cara yang sangat baik dari konsep abstrak yang sederhana
menjadi bentuk yang relatif yang mudah dikomputasi. Model Markov digunakan dalam
segala hal seperti kompresi data untuk pengenalan suara. Dalam artificial intelligence,
digunakan dalam pengolahan bahasa dan pengenalan suara.
2.4.1. Definisi Proses Markov
Proses stokastik X(t) adalah aturan untuk menentukan fungsi X(t, ξ) untuk setiap
ξ. Jadi proses stokastik adalah keluarga fungsi waktu yang tergantung pada parameter ξ
atau secara ekivalen fungsi t dan ξ. X(t) adalah proses keadaan diskret bila harga-
harganya bulat. Bila tidak demikian X(t) adalah proses kontinu.
Pada tahun 1906, A.A. Markov seorang ahli matematika dari Rusia yang
merupakan murid Chebysev mengemukakan teori ketergantungan variabel acak proses
acak yang dikenal dengan proses Markov. Proses Markov adalah proses stokastik masa
lalu tidak mempunyai pengaruh pada masa yang akan datang bila masa sekarang
diketahui.
Bila tn-1<tn maka :
P{X(tn) ≤ Xn X(t), t ≤ tn-1} = P { X(tn) ≤ Xn X(tn-1)}
Bila t1<t2<…….<tn maka :
P { X(tn) ≤ Xn X(tn-1),…….X(t1)} = P { X(tn) ≤ Xn X(tn-1)}
Definisi di atas berlaku juga untuk waktu diskret bila X(tn) diganti Xn.
20
2.4.2. Sifat Umum
Sifat umum dari proses Markov adalah :
1. f(Xn Xn-1,……,X1) = f(Xn Xn-1)
2. E{ Xn Xn-1,……,X1} = E{ Xn Xn-1}
3. Proses Markov juga Markov bila waktu dibalik :
f(Xn Xn+1,……,Xn+k) = f(Xn Xn+1)
4. Bila keadaan sekarang diketahui, masa lalu independen dengan masa akan
datang, bila k<m<n maka :
f(Xn,Xk Xm) = f(Xn Xm) f(Xk Xm)
2.4.3. Definisi Rantai Markov
Diberikan sebuah himpunan N dengan keadaaan E = { E1,E2, …, EN} dan
rantai keadaan itu :
Ej1, Ej2, Ej3,……EjN
Rantai tersebut adalah rantai Markov bila :
P( Ek Ej1Ej2…..Eji ) = P( Ek Eji )
2.4.3.1 Rantai Markov Diskret
Rantai Markov waktu diskret adalah proses Markov Xn yang mempunyai
keadaan (state) terbatas ai, dicirikan dalam bentuk probabilitas keadaannya :
Pi[n] = P{Xn = ai} i = 1,2,…
21
Dan probabilitas transisi :
πij[n1,n2] = P{Xn2 = aj Xn1 = ai}
karena Σπij[ni,n2] = 1
j
Σpi[k]πij[k,n] = pj[n] i
bila n1,n2,n3 maka :
πij [n1, n3] = Σπir [n1,n2]πrj[n2,n3] r
2.4.3.2. Probabilitas Transisi
Probabilitas transisi adalah probabilitas pergerakan dari keadaan Ei ke Ej,
dinotasikan dengan pij.
P(Ej Ek1.Ek2,…Ekv, Ei) = P(Ej Ei) = pij
N
Untuk semua i dan j pij ≥ 0 dan untuk setiap i Σpij = 1 J=1
2.4.3.3. Matriks Transisi
Matriks transisi sebuah sistem dengan N keadaan, E1, E2,…., EN dan
probabilitas transisi Pij1,2,….N adalah :
22
2.4.3.4. Probabilitas Vektor
Distribusi probabilitas awal yaitu :
N
P(Ei) = pi , sehingga untuk setiap i, pi ≥0 dan Σ pi = 1
I=1
Biasanya dituangkan dalam matriks satu baris : ( p1 p2 p3 ….pN) disebut vektor
karena isi yang ada di dalamnya adalah vektor probabilitas awal yang disimbolkan π0
sehingga :
π0 = ( p1 p2 p3 …… pN)
2.4.3.5. Rantai Markov Homogen
Bila proses Xn homogen, maka probabilitas transisi hanya tergantung pada
selisih m = n2 – n1.
πij[m] = P{Xn+m = aj Xn = ai}
Dengan mengambil n2 – n1 = k, n3 – n2 = n maka :
πij[n+k] = Σπir[k] πrj[n] r
Untuk rantai Markov keadaan berhingga, bentuk di atas ditulis dalam bentuk
vektor :
Π[n+k] = Π[n] Π[k]
dimana Π[n] adalah matriks Markov dengan elemen πij[n] menghasilkan Π[n] =
Πn dimana Π = Π[1] adalah matriks transisi satu langkah dengan elemen-elemen πij.
23
Π[n+1] = Π[n] Π
Matriks Π :
2.4.3.6. Rantai Markov Ergodik
Rantai Markov disebut ergodik jika mungkin untuk berpindah dari keadaan satu
ke keadaan yang lain.
Πj = lim Pij(n)
n=∞
dan Πj, 0 ≤ j ≤ M adalah solusi dari :
M M
Πj =ΣΠk pkj dan ΣΠj = 1
k=0 j=0
2.4.4. Definisi Model Markov Tersembunyi
Penerapan teori HMM untuk pengenalan kata bukan lagi hal yang baru. Teori
dasar HMM telah dipublikasikan oleh Baum pada awal tahun 70-an dan telah
diaplikasikan oleh Baker dan Jelinek di IBM pada tahun 70-an. Tetapi perkembangan
pesat dari HMM baru terjadi beberapa tahun terakhir ini. Hal ini disebabkan :
1. Teori dasar dari HMM telah dipublikasikan pada jurnal matematika namun
tidak dibaca oleh insinyur yang bekerja pada pemrosesan sinyal.
24
2. Penerapan teori langsung ke pengenalan kata tidak memberi tutorial yang
cukup untuk diterapkan ke penelitian mandiri.
Model Markov Tersembunyi (Hidden Markov Model = HMM) merupakan salah
satu model stokastik yang banyak menarik perhatian akhir-akhir ini. HMM terdiri atas
sebuah sinyal yang dimodelkan sebagai sebuah rantai Markov keadaan terhingga dan
sebuah observasi yang dimodelkan sesuai proses observasi pada rantai Markov.
Metode statisitik HMM semakin populer pada dekade terakhir ini karena model
tersebut kaya akan struktur matematika dan mengandung teori dasar yang bisa
digunakan untuk beberapa aplikasi yang penting. Penerapan dari HMM meliputi
pengenalan ucapan (speech recognition), target tracking, komunikasi digital, teknik
biomedik dan keuangan.
HMM didefinisikan sebagai kumpulan lima parameter (N, M, A, B, π). Jika
dianggap λ = {A, B, π} maka HMM mempunyai parameter tertentu N dan M. Ciri-ciri
HMM adalah :
• Observasi diketahui tetapi urutan keadaan (state) tidak diketahui sehingga
disebut hidden.
• Observasi adalah fungsi probabilitas keadaan
• Perpindahan keadaan adalah dalam bentuk probabilitas
2.4.5. Parameter Distribusi
HMM mempunyai parameter-parameter distribusi sebagai berikut :
1. Probabilitas Transisi
A = {aij} , aij = Pr(Xt+1 = qj Xt = qi ) , 1 ≤ j,i ≤ N
25
2. Probabilitas observasi
B = { bi} , bi(k) = Pr(Ot = Vk Xt = qit ),
3. Distribusi keadaan awal
π = { πi} , πi = Pr(Xo = qi)
Sedangkan parameter tertentu HMM ada dua yaitu N dan M.
1. N, jumlah keadaan model. Dinotasikan himpunan terbatas untuk keadaan
yang mungkin adalah Q = {q1, …….., qN}
2. M, jumlah dari simbol observasi/keadaan, ukuran huruf diskret. Simbol
observasi berhubungan dengan keluaran fisik dari sistem yang dimodelkan.
Dinotasikan himpunan terbatas untuk observasi yang mungkin adalah V=
{V1,……..,VM}.
Secara tradisional, parameter-parameter HMM ditaksir berdasarkan kriteria
maximum likelihood (ML) dan algoritma Baum-Welch (EM = Expectation
Modification).
2.4.6. Perluasan Model Markov
Perluasan konsep dari model Markov adalah observasi merupakan fungsi
probabilitas dari keadaan yang disebut Hidden Markov Model (HMM). HMM adalah
suatu proses stokastik dengan proses stokastik dasar observasi diketahui tetapi urutan
keadaan tidak diketahui (hidden), tetapi bisa diobservasi melalui himpunan proses
stokastik lain yang menghasilkan urutan simbol observasi
2.4.7. Tipe-Tipe Model Markov Tersembunyi
Ada dua tipe dasar HMM yaitu :
26
1. Discrete Hidden Markov Model (DHMM)
Menggunakan probabilitas keluaran diskret nonparameter berdasarkan proses
kuantisasi vektor sebelumnya.
2. Continuous Hidden Markov Model (CHMM) Menggunakan kerapatan
parameter pada model untuk probabilitas keluarannya.
2.5. Teorema Bayes
Teori ini dikemukakan oleh Thomas Bayes. Teorema Bayes adalah kebalikan
dari probabilitas kondisional P(A|B) atau disebut posteriori probability, dimana dalam
teorema Bayes : keadaan probabilitas dari kejadian awal diberikan untuk melihat
kejadian yang mungkin akan terjadi kemudian.
Bentuk umum Teorema Bayes :
P(Hi|E) = P(E∩Hi)
∑ P(E∩Hj)
= P(E|Hi) P(Hi)
∑ P(E|Hj) P(Hj)
= P(E|Hi) P(Hi)
P(E)
Setelah penggunaan model markov untuk mendapatkan kata seperti apa yang
didengar oleh komputer, ada kemungkinan kemputer menghasilkan kata yang sedikit
bias dari kata yang sebenarnya. Untuk menghindari ini digunakan bayes untuk membuat
sebuah pohon keputusan. Pohon keputusan secara kasar seperti pada pohon keputusan
ini:
27
Gambar 2.3 Pohon Keputusan Teorema Bayes
2.5.1. Bayesian Jaringan Dinamis
Sebelum beralih ke jaringan Bayesian, kita berhenti sejenak untuk
mempertimbangkan metode sementara. Sementara semua metode memaintain keadaan
representasi dan beroperasi tersembunyinya dalam domain waktu diskrit, ada perbedaan
danketerbatasan yang sangat signifikan. Hal ini menjadi pertimbangan sepanjang
sumbu linearity, interpretability, factorization, and extensibility.
Linearity. Teknik Kalman fi ltering dasarnya linier: mengasumsikan
bahwa keadaan berturut-turut terkait dengan transformasi linear, dan bahwa keadaan
dan observasi variabel terkait dengan transformasi linier. Meskipun berbagai skema
telah dikembangkan untuk pemodelan sistem nonlinear dengan Kalman filters
(Anderson & Moore 1979), mereka cenderung rumit dan diterapkan secara terbatas.
Sebaliknya, baik HMMs dan NNS secara alami cocok untuk model proses nonlinier.
Dalam HMMs, kemampuan ini berasal dari kesewenang-wenangan probabilitas
28
kondisional yang dapat dikaitkan dengan kedua transmisi dan emisi matriks, atau
dengan representasi fungsionalnya. Dalam kasus NNS, berasal dari penggunaan fungsi
aktivasi nonlinier.
Interpretability. Kalman filter mungkin yang paling ditafsirkan dari
teknik pemodelan. Dalam banyak aplikasi, matriks terlibat adalah
dirancang dengan tangan yang tidak jauh dari hukum-hukum fisika yang dikenal dll.
Parameter yang terkait dengan HMMs yang ditafsirkan sejauh mereka jelas, diberi label
sebagai transisi \ "atau \ emisi" probabilitas, tetapi keadaan bagian HMM yang tidak
selalu memiliki interpretasi yang jelas, terutama setelah pelatihan.
Jaringan saraf adalah karena sering ditafsirkan setidaknya unit tersembunyi tidak
ditugaskan. Artinya, apapun baik sebelum atau sesudah pelatihan. Bagaimanapun
Juga adapengecualian.
Factorization. Ada variasi yang luas dalam tingkat faktorisasi dikenakan oleh
teknik-teknik pemodelan yang berbeda-beda, dan variabilitas meningkat dengan derajat
tertentu bila ada yang bersedia untuk memodifikasi sistem “plain vanilla” . Kasus paling
sederhana untuk mengatasinya adalah Kalman filters, dimana vektoralisasi keadaan dan
observasi pengamatan secara factor inheren.
Sejauh bahwa matriks yang jarang, faktorisasi juga mengarah ke pengurangan jumlah
parameter.
Jaringan saraf dasar factorized dalam keadaan diwakili dengan pendistribusian
busana oleh sejumlah besar node, tetapi, jika ada interkoneksi lengkap antara node
dalam lapisan berturut-turut, jumlah parameter adalah jumlah kuadrat dalam keadaan,
dan skalabilitas sangat terbatas. (Pemangkasan teknik dan berat-pembusukan dapat
29
digunakan untuk melawan ini: misalnya (Le Cun et al 1990;. Scalettar & Zee 1988).
Sesuatu yang lebih besar tingkat strukturnya dapat merusakan jaringan besar menjadi
sebuah kombinasi jaringan yang lebih kecil. Sebagai contoh, sebuah sistem untuk
mengenali digit tulisan tangan (Le Cun et al.
1989) menguraikan unit di lapisan tersembunyi ke dalam kelompok yang terpisah, dan
tidak menggunakan interkoneksi lengkap antar lapisan. Selain itu, bobot kelompok
berbeda yang pembatasnya harus sama (yaitu adanya parameter pengikat), lebih lanjut
untuk mengurangi jumlah parameter bebas. Hirarkis konstruksi algoritma jaringan
(Frean 1990; Fahlman &Lebiere 1990) mencapai representasi yang diperhitungkan
dengan hati-hati membangun struktur hirarkis
di mana node dalam lapisan berturut-turut secara hati-hati ditambahkan untuk
memperbaiki kesalahan-kesalahan lapisan sebelumnya, agar interkoneksi secara
lengkap dihindari. Campuran struktur disajikan dalam (. Jacobs & Jordan 1991; Jacobs
et al, 1991) mirip: jaringan saraf kecil dapat dilatih sebagai “lokal”, dan output mereka
dikombinasikan dalam cara yang berprinsip untuk membentuk
output dari seluruh sistem. Dalam (Jordan 1992), skema ini diperluas untuk hirarki
jaringan terorganisir.
Dalam pengenalan suara, diperhitungkan pendekatan jaringan saraf telah
digunakan oleh sejumlah peneliti. Dalam (Morgan & Bourlard 1992), metode disajikan
untuk memfaktorkan jaring saraf sehinggadapat menghitung P (A, B JC) sebagai
P (A; BJC) = P (AJC) P (BjA; C):
Sebuah jaringan saraf terpisah digunakan untuk menghitung masing-masing
faktor, dan skema ini mengurangi jumlah parameter pada lapisan output, tanpa
30
memerlukan kemandirian asumsi statistik. Metode ini diperluas dan diterapkan untuk
tugas pengakuan skala besar pidato di (Cohen et al, 1992.), Jelas, faktorisasi ke lebih
dari dua komponen juga mungkin. Pekerjaan (Fritsch 1997) menggunakan hirarki ANNs
untuk mewakili distribusi probabilitas dengan cara yang diperhitungkan. Skema ini
menunjukkan bahwa parameter-teknik mengurangi faktorisasi dapat diterapkan untuk
jaringan saraf.
Dalam definisi standard, HMMs secara fundamental unfactored: jika keadaan
sistem terdiri dari kombinasi faktor, tidak dapat direpresentasikan sesingkat ini dalam
metodologi. Dengan bagaimanapun, adalah mungkin untuk membuat sistem HMM di
mana secara implisit merupakan kombinasi potongan yang berbeda dari beberapa
informasi. Ini ini terjadi, misalnya, HMM-dekomposisi (Varga & Moore 1990) yang
secara implisit kedua model sumber kebisingan dan sumber pidato, dan dalam HMMs
artikulatori dari (Deng & Erler 1992). Perlu dicatat bahwa meskipun skema ini
mencapai pengurangan parameter, tidak ada pengurangan yang sesuai pada persyaratan
komputasi.
Extensibility. Jaringan saraf sangat dapat diperluas, dan dapat dibuktikan secara
approximators fungsinya mendunia. Kalman filter juga cukup diperluas karena keadaan
dan pengamatan variabel adalah vektor-vektor, dengan demikian kompleksitas sistem
dapat ditingkatkan dengan meningkatkan dimensiality dari vektor-vektor. Flexibility ini
memodulasi, namun, dengan berasumsi yang mendasarinya dari linearitas. Hidden
Markov Model yang agak terbatas dalam perpanjangan mereka oleh fakta bahwa cara
utama mereka adalah meningkatkan kompleksitas hanya untuk meningkatkan jumlah
31
keadaan. Hal ini dapat canggung ketika keadaan keseluruhan sistem sebenarnya terdiri
dari kombinasi faktor secara terpisah dapat diidentifikasi.
2.5.2. Bayesian Network
Dalam beberapa tahun terakhir, jaringan probabilistik atau Bayesian (Pearl 1988)
telah muncul sebagai metode utama untuk mewakili dan memanipulasi informasi
probabilistik dalam AI komunitas. Jaringan ini dapat digunakan untuk mewakili baik
peristiwa statis, seperti terjadinya serangkaian penyakit dan gejala, atau untuk mewakili
proses-proses sementara seperti gerak dari sebuah mobil jalan raya.
Jaringan probabilistik merupakan distribusi probabilitas gabungan dari satu set
variabel acak {X1;…; Xn}. Yang menunjukkan penugasan nilai spesifik untuk variabel
dengan surat yang lebih rendah-kasus, kemungkinan tugas gabungan dari nilai-nilai
yang Spesifik dengan aturan rantai dan satu set asumsi conditional independence
sebagai: P (x;…; xn) =�1 P(xi|Parents (Xi)). Berikut Parents (Xi) mengacu pada subset
dari variabel x1… Xi-1; diberikan nilai untuk Parents, Xi dianggap kondisional
independen dari semua variable indeks lebih rendah lainnya. Probabilitas bersyarat yang
terkait dengan masing-masing variabel sering disimpan dalam tabel yang disebut
sebagai CPTs. Sebuah jaringan Bayesian memiliki grafis yang nyaman
direpresentasikan di mana variabel muncul sebagai node, dan variable parents
ditunjukan oleh busur mengarah ke dalamnya, lihat Gambar 2.4.
32
Gambar 2.4: Sebuah jaringan Bayesian. Node berbayang mewakili variabel yang
diamati. Setiap variabel memiliki tabel probabilitas kondisional yang terkait (atau
representasi fungsional setara) yang terdistribusi atas nilai-nilai, dikondisikan pada nilai-
nilai variabel Parents.
Sebagai contoh dari jaringan Bayesian, perhatikan Gambar 2.4. Jaringan ini
berkaitan dengan gejala medis yang dapat diamati, melalui dua penyakit dasar. Set
variabel dalam kasus ini adalah: “asbestos exposure”, ”lung cancer”, ” bronchitis”,
”shortness-of-breath”, and “headaches”. Ini semua adalah variabel biner, meskipun
secara umum variabel dapat mengambil nilai-nilai banyak atau terus menerus. Untuk
kenyamanan referensial, variabel juga telah diberikan singkatan huruf tunggal.
Faktorisasi yang jaringan ini kodekan adalah:
P (a, b, c, d, e) = P (a) P (bja) P (CJA) P (DJB; c) P (EJC):
33
Hal ini biasanya terjadi bahwa pengetahuan variabel parents yang tidak
sepenuhnya menentukan nilai dari variabel tersebut, kita merujuk ke variabel seperti
stokastik. Adapengecualian penting, bagaimanapun, di mana variabel parents
sepenuhnya menentukan nilainya, dan kita mengacu pada variabel seperti deterministik.
Bila kasusnya ini, keuntungan besar efesiensi dapat dihasil dari menggunakan
pengkodean tipis dari probabilitas kondisional; ini akan muncul sebagai isu penting
dalam penerapan jaringan Bayesian untuk pengenalan suara.
2.5.3. Dynamic Bayesian Network
Dalam kasus yang dinamis, jaringan probabilistik model sistem seperti ini
berkembang seiring waktu. Pada setiap titik waktu, satu set variabel X1;…; Xn adalah
ketertarikan. Misalnya, untuk model mengemudi mobil, jalur-posisi dan kecepatan yang
relevan. Sebuah DBN menggunakan satu set variabel Xit mewakili nilai kuantitas i pada
waktu t. DBNs yang juga waktu-invariant sehingga topologi jaringan adalah struktur
berulang, dan CPTs tidak berubah dengan waktu. Distribusi probabilitas gabungan ini
kemudian direpresentasikan sebagai �1 P(xit|Parents (Xi
t). Dalam jaringan dengan
properti Markov deret pertama, perents dari variabel dalam timeslice t harus terjadi baik
dalam irisan t atau t-1. Distribusi bersyarat di dalam dan di antara irisan diulang untuk
semua t> 0, sehingga DBNs dapat dicari hanya dengan memberikan dua iris dan
hubungan antara mereka. Ketika diterapkan pada urutan pengamatan panjang yang
diberikan, DBN masih “unrolled” untuk menghasilkan jaringan probabilistik yang
sesuai ukuran untuk mengakomodasi pengamatan.
34
2.5.4. Kekuatan DBNs
Jaringan Bayesian Dinamis secara ideal cocok untuk pemodelan proses
temporal, DBNs memiliki keuntungan sebagai berikut:
1. Nonlinier. Dengan menggunakan representasi tabular probabilitas bersyarat, sangat
mudah untuk mewakili fenomena nonlinier sewenang-wenang, apalagi mungkin untuk
melakukan perhitungan yang spesifik dengan DBNs bahkan ketika variabel kontinyu
dan probabilitas bersyarat yang diwakili oleh Gaussians.
2. Interpretability. Masing-masing variabel mewakili sebuah konsep yang spesifik.
3. Faktorisasi. Distribusi gabungan adalah pemfaktoran sebanyak mungkin. Hal ini
menyebabkan:
Efesiensi statistik. Dibandingkan dengan HMM tidak terfaktorkan dengan kemungkinan
yang sama, DBN dengan representasi negara diperhitungkan dan jarang
hubungan antara variabel akan memerlukan parameter secara eksponensial lebih sedikit.
Efisiensi komputasi. Tergantung dari topologi grafik yang tepat, pengurangan dalam
model parameter dapat mungkin dibalikan dalam pengurangan running time.
4. Extensibility. DBNs dapat menangani sejumlah besar variabel, memberikan struktur-
grafik yang sangat jarang.
35
Gambar 2.5 atas: Sebuah DBN sederhana, “unrolled” Bawah: DBN A dengan
keadaan faktor representasi. Representasi diperhitungkan dapat menggambarkan
evolusi jumlah yang sama dari negara total dengan parameter secara eksponensial lebih
sedikit.
Akhirnya, DBNs memiliki semantik probabilistik yang tepat dan dipahami
dengan baik. Kombinasi dari efiensi mendasari teoritis, ekspresif, dan efisiensi pertanda
baik bagi masa depan DBNs di banyak area aplikasi.
36
2.5.5. Inference and Learning with DBNs
Gambar 2.6 variabel tree. Partisi bukti ditunjukkan untuk Xi.
Jika Xi = j tidak konsisten dengan pembuktian yang berlawanan ei0, maka
P(ei-,ei
0|Xi = j) = 0. Dapat disimpulkan, quantitas keduanya akan di kalkulasi untuk
setiap variable Xi. :
Mengikuti dari definisi :
37
(G. Zweig, Geoffrey. Speech Recognation With Dynamic Bayesian Networks. 1998)
2.6. Metode Perancangan Program
Bagaimana komputer mengubah ucapan yang diucapkan menjadi data yang
kemudian dapat dimanipulasi atau dieksekusi? Dari perspektif umum yang harus
dilakukan pada Awalnya, ketika kita berbicara, mikrofon mengubah sinyal analog suara
kita menjadi digital potongan data yang komputer harus analisis. Dari data inilah
38
komputer harus mengekstrak informasi yang cukup untuk menebak kata yang
diucapkan.
Jadi caranya:
Step 1: Extract Phonemes
Fonem-fonem paling baik digambarkan sebagai unit linguistik. Mereka adalah
kelompok suara yang bersama-sama membentuk kata-kata kita. Fonem dikonversi
menjadi suara tergantung pada banyak faktor termasuk Fonem-fonem disekitarnya,
aksen pembicara dan usia. Berikut adalah beberapa contoh:
Tabel 2.3 Fonem-fonem inggris
aa father
ae cat
ah cut
ao dog
aw foul
ng sing
t talk
th thin
39
uh book
uw too
zh pleasure
Bahasa Inggris menggunakan sekitar 40 fonem-fonem untuk menyampaikan
500.000 atau lebih kata-kata yang dikandung, membuat bahasa inggris menjadi sebuah
data yang relatif baik digunakan untuk mesin pengenalan suara.
Extracting Phonemes
Fonem-fonem sering diekstraksi dengan menjalankan waveform melalui Fourier
Transform. Hal ini memungkinkan gelombang yang akan dianalisa dalam domain
frekuensi. Prinsip ini lebih mudah dipahami dengan melihat sebuah spektrograf.
Spektrogram adalah plot 3D frekuensi gelombang dan amplitudo terhadap waktu. Dalam
banyak kasus, amplitudo frekuensi dinyatakan sebagai warna (baik Skala abu-abu, atau
warna gradien). Berikut ini adalah spektrogram "Generation5":
40
Gambar 2.7 Spektrogram dari kata Generation 5
Sebagai perbandingan, di sini adalah spektrograf lain dari bit "ss":
Gambar 2.8 Spektrogram dari bit ss
41
Dengan ini, kita dapat melihat di mana dalam "Generation5" "sh" dari
Generation5 bahwa rentang waktu yang sedikit berbeda pada dua spektrograf, sehingga
mereka terlihat sedikit berbeda.
Relatif mudah untuk menyesuaikan amplitudo dan frekuensi dari template fonem
dengan fonem yang sesuai pada sebuah kata. Untuk komputer, tugas ini jelas lebih rumit
tapi pasti dapat dicapai.
Step 2: Markov Models
Setelah komputer menghasilkan daftar fonem, fonem ini harus diubah menjadi
kata-kata dan bahkan mungkin kata-kata menjadi kalimat.
Namun, metode yang paling umum adalah dengan menggunakan Hidden
Markov Model (HMM).
Pada dasarnya, pemikirkan Model Markov (dalam konteks pengenalan suara)
sebagai rantai phonemes yang mewakili sebuah kata. Rantai dapat bercabang, dan jika
tidak maka secara statistik rantai seimbang. Misalnya:
Gambar 2.9 Model Markov dari kata Tomato
42
Ini adalah Markov Model untuk kata "tomato". Dalam hal ini, model sedikit bias
terhadap pengucapan dalam bahasa Inggris. Ide ini bisa diperpanjang sampai ke tingkat
kalimat, dan sangat dapat meningkatkan pengenalan. Misalnya:
Recognize speech
Bisa terdengar seakan seperti:
Wreck a nice beach
Kedua frase secara mengejutkan mirip, namun memiliki makna yang sangat berbeda. Sebuah program dengan menggunakan Model Markov pada tingkat kalimat mungkin bisa memastikan mana dari kedua frase pembicara itu benar-benar digunakan melalui analisis statistik menggunakan frase yang mendahuluinya. (Matthews, James. (2002). How Does Speech Recognition Work?. United Kingdom; Generation5.)
Step 3 : Teorema Bayes
Setelah kata-kata didapat dari semua kemiripan frase, untuk mendapatkan kata/
yang diinginkan dan benar, dapat gunakan teori bayes.
Gambar 2.10 Keputusan Berdasarkan Bayes