makalah speech coding
TRANSCRIPT
SPEECH CODING
Oleh : Fahmi Nurhuda
Speech Coding mengacu pada teknik yang digunakan untuk mengkodekan
isyarat tutur analog menjadi kode-kode biner. Tujuan dari semua sistem
pengkodean tutur adalah untuk mengirimkan tutur dengan kualitas tertinggi yang
mungkin, dengan menggunakan kapasitas kanal paling sedikit yang mungkin. Ini
harus diselesaikan ketika tentu saja memerlukan tingkat kompleksitas
implementasi dan tunda komunikasi.
Secara umum, terdapat hubungan yang setara diantara efisiensi pesat-bit
pengkode dan kekompleksan algoritma yang diperlukan untuk mencapainya,
dimana semakin kompleks sebuah algoritma, semakin besar tunda pemrosesannya
dan biaya implementasinya. Tanpa low data rate speech coding, skema modulasi
digital menawarkan sedikit efisiensi melalui efisiensi spektral untuk trafik suara.
Untuk membuat praktis pengkodean tutur, implementasi harus memakan sedikit
daya dan menyediakan toleransi jika kualitas tutur tidak baik sekali.
Kemampuan dari suatu pengkode tutur menentukan kualitas dari tutur
yang dipulihkan kembali dan juga menentukan kapasitas dari sistem. Dalam
sistem komunikasi bergerak, bandwidth adalah komoditas yang berharga dan
serice providers seringkali dipertemukan dengan tantangan untuk menampung
lebih banyak pengguna dalam alokasi bandwidth terbatas.
Low bit-rate speech coding menawarkan sebuah cara untuk menjumpai
tantangan ini. Semakin rendah pesat bit, semakin banyak kanal tutur yang dapat
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
2
dikompres dalam bandwidth yang diberikan. Untuk alasan ini, manufaktur dan
service providers secara terus-menerus dalam penelitian terhadap pengkode tutur
yang akan memberikan pesat bit yang semakin rendah.
Pengkode tutur berbeda secara luas dalam pendekatannya untuk mencapai
pengkompresan isyarat. Didasarkan pada cara yang mana mereka mencapai
pengkompresan, pengkode tutur secara luas dikategorikan ke dalam dua
kelompok: Waveform Coders dan Source Coders. Pengkode bentuk gelombang
pada dasarnya berusaha menciptakan bentuk-gelombang waktu dari isyarat tutur
semirip mungkin. Pengkode bentuk gelombang tersebut, secara prinsip, dirancang
untuk menjadi sumber yang independent dan karenanya dapat mengkodekan
secara sama dengan baik, variasi dari isyarat. Pengkode tersebut mempunyai
kemanfaatan untuk menjadi handal untuk karakteristik tutur dengan jangkauan
yang luas dan untuk lingkungan yang berderau. Semua kemanfaatan ini dipelihara
dalam kompleksitas yang minimal dan secara umum pengkode kelas ini mencapai
tingkat keekonomian menengah dalam pengiriman pesat bit. Contoh dari
pengkode bentuk gelombang meliputi pulse code modulation (PCM), differential
pulse code modulation (DPCM), adaptive differential pulse code modulation
(ADPCM), delta modulation (DM), continuously variable slope delta modulation
(CVSDM), dan adaptive predictive coding (APC). Source Coders di lain pihak
mencapai tingkat keekonomian sangat tinggi dalam pengiriman pesat bit dan
secara umum lebih kompleks. Source Coders didasarkan pada penggunaan
pengetahuan pengutamaan tentang isyarat yang akan dikodekan dan untuk alasan
ini, Source Coders, secara umum, signal spesific.
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
3
SPEECH CODING
2.1 Pentingnya Speech Coding
Speech Coding sangat diperlukan dalam teknologi telekomunikasi dewasa
ini. Hal tersebut mengingat kondisi sistim telekomunikasi saat ini yang
merupakan sistim digital. Oleh karenanya, untuk menyesuaikan dengan
karakteristik kanal yang bersifat digital, isyarat analog dari tutur harus terlebih
dahulu diubah ke dalam bentuk digital. Selain itu, dalam komunikasi seluler saat
ini, dimana bandwidth merupakan komoditas yang paling mahal, maka semakin
efisien perepresentasian suatu tutur dalam kode-kode biner, semakin banyak tutur
yang dapat dilewatkan dalam kanal dengan bandwidth tertentu yang terbatas, yang
menyatakan bahwa semakin banyak layanan yang dapat diberikan oleh service
providers dalam bandwidth tersebut.
2.2 Jenis-Jenis Speech Coding
Hierarki dari pengkode tutur digambarkan dalam gambar 2.1. Prinsip yang
digunakan untuk merancang dan mengimplementasikan teknik pengkodean tutur
dalam gambar 2.1 diceritakan diseluruh bab dua ini.
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
4
Gambar 2.1 Hierarki speech coding
Perbandingan unjuk kerja dari jenis-jenis speech coding secara umum
diperlihatkan dalam gambar 2.2, dimana kualitas tutur yang dihasilkan sering
diukur melalui mean opinion score (MOS), yaitu: 5 = excellent; 4 = good;
3 = fair; 2 = poor; 1 = bad.
Gambar 2.2 Perbandingan unjuk kerja dari jenis-jenis speech coding secara umum
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
5
2.3 Karakteristik Isyarat Tutur
Bentuk gelombang tutur mempunyai sejumlah sifat yang dapat
dieksploitasi ketika merancang pengkode yang efisien. Beberapa sifat yang paling
sering digunakan dalam perancangan pengkode meliputi the nonuniform
probability distribution of speech amplitude, the nonzero autocorrelation between
successive speech samples, the nonflat nature of the speech spectra, the existence
of voiced and unvoiced segment in speech, and quasiperiodicity of voiced speech
signals (distribusi peluang yang tidak uniform dari amplitude tutur, korelasi diri
yang tidak nol diantara hasil pencuplikan tutur yang berurutan, sifat tidak-rata
pada rapat spectral daya dari tutur, keberadaan dari bagian suara dan tidak ada
suara dalam tutur, dan periodisitas-semu dari isyarat tutur bagian suara). Sifat-
sifat tersebut antara lain mengijinkan kuantisasi untuk dilakukan dengan efisiensi
yang semakin besar.
Sifat dasar isyarat tutur yang paling banyak dieksploitasi oleh seluruh
pengkode tutur adalah bahwa isyarat tutur itu bandlimited. Sifat tersebut
menyebabkan isyarat tutur dapat dicuplik, dengan besar frekuensi pencuplikan
sama dengan atau lebih besar dari dua kali komponen frekuensi tertingginya
dalam isyarat low pass nya.
Fungsi rapat peluang (pdf) yang tidak samarata dari amplitude tutur
adalah dimana pdf dari isyarat tutur secara umum disifatkan oleh probabilitas
yang sangat tinggi dari amplitude yang mendekati nol, probabilitas yang penting
dari amplitude yang sangat tinggi, dan fungsi yang menurun secara begitu-begitu
saja dari amplitude diantara nilai frekuensi ekstremnya. Pengkuantisasi non-
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
6
uniform, termasuk pengkuantisasi vector, mencoba untuk mencocokkan distribusi
dari level kuantisasi terhadap pdf dari isyarat tutur masukan, dengan
mengalokasikan level kuantisasi yang lebih banyak di daerah dari probabilitas
tinggi dan level yang lebih sedikit di daerah dimana peluangnya rendah.
Autocorrelation Function (ACF) dari isyarat tutur adalah dimana disana
terdapat korelasi yang besar diantara hasil pencuplikan yang berdekatan dari
segmen tutur. Ini berarti bahwa dalam setiap hasil pencuplikan isyarat tutur,
sejumlah besar bagian-bagiannya dapat diperkirakan dari nilai-nilai hasil
pencuplikan sebelumnya, dengan kesalahan acak yang kecil. Korelasi diri (ACF)
memberikan ukuran kuantitatif dari kedekatan atau seberapa sama diantara
samples dari isyarat tutur sebagai fungsi dari waktu pemisahnya.
Fungsi Rapat Spektral Daya (PSD) dari isyarat tutur adalah nonflat
dimana typical long-term averaged PSD (PSD rerata dalam jangka waktu yang
lama yang khas) dari isyarat tutur menunjukkan bahwa komponen frekuensi tinggi
menyumbang sangat kecil kepada energi tutur total. Ini memungkinkan untuk
memperoleh significant compression (tingkat pengkompresan yang berarti) bagi
pengkodean tutur dalam kawasan frekuensi. Kealamiahan yang nonflat dari PSD
tersebut pada dasarnya merupakan perwujudan dalam kawasan frekuensi dari sifat
tidak-nol dari korelasi diri.
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
7
2.4 Teknik Kuantisasi
2.4.1 Uniform Quantization
Kuantisasi adalah proses pemetaan susunan kontinyu dari amplitude
isyarat ke kumpulan yang terbatas dari amplitude diskret. Tidak sama dengan
pencuplikan, kuantisasi menghasilkan distorsi. Distorsi yang dihasilkan oleh
setiap operasi kuantisasi berbanding lurus secara langsung pada nilai pangkat dua
dari ukuran langkah kuantisasinya, yang juga berarti berbanding terbalik terhadap
jumlah dari tingkatan kuantisasi untuk sebuah jangkauan amplitude. Performa dari
pengkuantisasi diukur melalui signal-to-quantization noise ratio (SQNR).
2.4.2 Nonuniform Quantization
Performa dari pengkuantisasi dapat ditingkatkan dengan mendistribusikan
level kuantisasi dalam cara yang lebih efisien. Pengkuantisasi non-uniform
mendistribusikan level kuantisasinya sesuai dengan pdf dari bentuk-gelombang
masukan. Sesuai persamaan mean square distortion, total distorsi dapat dikurangi
dengan mengurangi derau kuantisasi, ketika p(x), pdf dari isyarat masukan, adalah
besar. Ini berarti bahwa level kuantisasi perlu untuk difokuskan dalam daerah
amplitude yang memiliki probabilitas tinggi. Implementasi sederhana dan handal
dari pengkuantisasi non-uniform yang digunakan dalam telepon komersial adalah
pengkuantisasi logaritmis. Pengkuantisasi ini menggunakan langkah kuantisasi
yang sangat baik untuk amplitude rendah yang sering terjadi dalam tutur dan
langkah yang sangat kasar (lebar jarak antar langkahnya) untuk yang jarang
terjadi, yaitu untuk penyimpangan amplitude yang besar. Teknik companding
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
8
(compressing and expanding) yang berbeda dikenal sebagai µ-law dan A-law
digunakan secara berturut-turut di U.S dan Eropa. Pengkuantisasian secara non-
uniform diperoleh dengan pertama melewatkan isyarat tutur analog melalui
penguat kompresi (logaritmis) dan kemudian melewatkan isyarat yang
terkompresi tersebut kedalam pengkuantisasi uniform standar. Pada teknik
companding, isyarat tutur yang lemah dikuatkan sedangkan isyarat tutur yang kuat
dikompresi.
2.4.3 Adaptive Quantization
Terdapat perbedaan diantara pdf jangka waktu lama dan jangka waktu
singkat dari bentuk-gelombang tutur. Sifat berubah terhadap waktu dari isyarat
suara menghasilkan dynamic range sebesar 40dB atau lebih. Cara yang efisien
untuk menampung dynamic range yang besar tersebut adalah dengan mengadopsi
teknik pengkuantisasian yang berubah terhadap waktu. Pengkuantisasi adatif
merubah ukuran langkahnya sesuai dengan daya isyarat tutur masukan.
Karakteristik pengkuantisasi adaptif ini menyusut dan mengembang dalam waktu
seperti akordeon (harmonika tangan).
Sebuah strategi adaptasi sederhana, yaitu: membuat ukuran langkah dari
pengkuantisasi pada tiap instant pencuplikan yang diberikan, sebanding dengan
keluaran pengkuantisasi pada instant pencuplikan yang terdahulu. Oleh karena
penyesuaian mengikuti keluaran pengkuantisasi daripada masukan, informasi
ukuran langkah tidak perlu secara eksplisit dikirimkan tetapi dapat ditimbulkan
ulang pada penerima.
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
9
2.4.4 Vector Quantization
Shannon’s Rate-Distortion Theorem menetapkan bahwa terdapat pemetaan
dari bentuk-gelombang sumber ke kata sandi keluaran yaitu untuk distorsi yang
diberikan D, R(D) bit per sampel mencukupi untuk merekonstruksi bentuk-
gelombang dengan distorsi rerata berubah-ubah dekat dengan D. Oleh karena itu,
pesat yang nyata R harus lebih besar dari R(D). Fungsi R(D), disebut fungsi pesat-
distorsi, mewakili batasan fundamental/pokok pada suatu pesat yang dapat
dijangkau untuk sebuah nilai distorsi yang diberikan (atau berarti nilai minimal
pesat untuk sebuah nilai distorsi yang diberikan). Pengkuantisasi skalar tidak
mencapai performa mendekati batasan teoritis informasi ini. Shannon
memperkirakan bahwa performa yang lebih baik dapat dicapai dengan
mengkodekan banyak samples pada sebuah waktu daripada satu sample pada
sebuah waktu.
Vector Quantization (VQ) adalah teknik keputusan pengkodean-tertunda
yang memetakan sekelompok samples masukan (secara khas disebut speech
frame), yang disebut vektor (vector), ke daftar suatu buku kode (code book). Buku
kode diatur terdiri dari sekumpulan terbatas dari vectors yang mencakup seluruh
range yang diantisipasi dari nilai-nilai amplitude isyarat tutur. Dalam tiap interval
pengkuantisasian (intervalnya berarti setara dengan interval beberapa kali
pencuplikan), nilai dalam buku kode dicari dan index dari entry yang memberikan
kecocokan terbaik ke frame isyarat masukan dipilih. Pengkuantisasi vektor dapat
menghasilkan performa yang lebih baik bahkan ketika samples adalah
independent satu dengan lainnya. Performa meningkat secara hebat jika terdapat
korelasi yang kuat diantara samples dalam kelompok samples masukan tersebut.
Jumlah dari samples dalam sebuah blok (vektor), disebut dimensi L dari
pengkuantisasi vektor. Pesat R dari pengkuantisasi vektor didefinisikan sebagai:
R = log2n / L bits/sample (2.1)
n adalah ukuran buku kode VQ. R bisa berupa nilai pecahan pula.
Semua prinsip pengkuantisasian yang digunakan dalam pengkuantisasian
scalar diaplikasikan ke pengkuantisasian vektor sebagai sebuah perluasan secara
langsung. Sebagai ganti level kuantisasi, kita memiliki vektor kuantisasi, dan
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
10
distorsi diukur sebagai akar dari jarak Euclidean diantara vektor kuantisasi dan
vektor masukan (istilah untuk sekelompok samples masukan).
2.5 Jenis-Jenis Waveform Coders
2.5.1 Time Domain
2.5.1.1 Pulse Code Modulation (PCM)
PCM termasuk pengkode tutur waveform coder dalam kawasan waktu dan
bersifat non-diferensial. Secara umum, pengkode tutur mempunyai langkah-
langkah seperti pada PCM, yaitu:
1. Penapisan
Penapisan ini dimaksudkan untuk membuat isyarat tutur yang akan
dikodekan bersifat bandlimited. Selain itu melalui penapisan ini, gangguan
yang dialami isyarat tutur diminimalkan, dimana gangguan yang dilewatkan
hanyalah gangguan yang berada dalam kawasan frekuensi tutur yang
dilewatkan oleh penapisan ini. Penapisan dilakukan dengan melewatkan
isyarat tutur ke filter bandpass dengan frekuensi rendah dan tinggi dari filter
sesuai karakteristik frekuensi isyarat tutur yang akan dilewatkan.
2. Pencuplikan
Pencuplikan ini merupakan operasi yang mengambil nilai isyarat tutur hanya
pada waktu-waktu tertentu, yaitu secara periodis di tiap suatu interval waktu
tertentu. Melalui operasi ini, isyarat tutur menjadi diskret dalam kawasan
waktu. Besar frekuensi pencuplikan ini harus memenuhi syarat Nyquist,
dimana frekuensi pencuplikan harus sama dengan atau lebih besar dari dua
kali frekuensi isyarat yang dicuplik.
3. Kuantisasi
Kuantisasi menyebabkan isyarat tutur diskret pada nilai amplitudenya. Nilai
amplitude isyarat tutur diwakili dengan nilai aras tertentu yang jumlahnya
disebut jumlah aras pengkuantisasi dan ukuran langkah antar nilai aras
tersebut disebut langkah kuantisasi. Kuantisasi menyebabkan derau
kuantisasi
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
11
4. Penjamakan/Pemultipleksan
Pemultipleksan dapat dilakukan setelah kuantisasi ataupun sebelum
kuantisasi, yaitu setelah pencuplikan. Melalui pemultipleksan ini,
dimungkinkan dilewatkan beberapa isyarat tutur pada sebuah kanal yang
sama.
5. Penyandian
Penyadian merupakan pewakilan nilai hasil kuantisasi ke dalam nilai-nilai
bit biner, yaitu 0 dan 1. Jumlah bit yang diperlukan bergantung pada jumlah
aras kuantisasi pada pengkuantisasian, yaitu:
Jumlah bit kode = log2 jumlah aras kuantisasi (2.2)
Pada skema PCM, jika kuantisasi adalah linier, diperlukan 12 bit untuk tiap
sampel agar rekonstruksi isyarat tutur cukup baik, sehingga memerlukan pesat bit
96 kbit/s. Namun, ketika kuantisasi adalah non-linier, melalui penguat logaritmis
dengan teknik companding µ-law atau A-law, 8 bit per sampel telah mencukupi
sehingga pesat bit adalah 64 kbit/s.
2.5.1.2 Adaptive Differential Pulse Code Modulation
Sistem pulse code modulation tidak mencoba untuk menghilangkan
redundancies (pengulangan yang tidak perlu) dalam isyarat tutur. Adaptive pulse
code modulation (ADPCM) adalah skema pengkodean yang lebih efisien yang
mengeksploitasi suatu rendundancy yang hadir dalam isyarat tutur. ADPCM
merupakan pengkode tutur waveform coder dalam kawasan waktu dan bersifat
diferensial.
Sebagaimana disebutkan sebelumnya, samples yang berdekatan dari
bentuk-gelombang tutur seringkali terkorelasi secara tinggi. Ini berarti bahwa
varians dari perbedaan diantara amplitude tutur yang berdekatan jauh lebih kecil
dari variasi isyarat tutur sendiri. ADPCM mengijinkan tutur untuk dikodekan pada
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
12
pesat bit 32 kbps, yang merupakan setengah dari standard pesat PCM, yaitu 64
kbps, ketika memelihara kualitas suara yang sama. Algoritma yang efisien untuk
DPCM telah dibangun dan distandarisasi. Standar algoritma ADPCM CCITT
G.721 untuk pengkodean tutur 32 kbps digunakan di sistem telepon cordless
seperti CT2 dan DECT.
Dalam skema Differential Pulse Code Modulation (DPCM), pengkode
mengkuantisasi sebuah rangkaian dari perbedaan sample yang berdekatan, dan
pen-dekode memulihkan sebuah pendekatan terhadap isyarat tutur asli yang pada
dasarnya meng-integralkan beda sample berdekatan yang ter-kuantisasi. Karena
varians kesalahan kuantisasi untuk jumlah yang diberikan dari bits/sample R,
berbanding lurus secara langsung terhadap varians masukan, pengurangan yang
diperoleh dalam varians masukan pengkuantisasi menuntun secara langsung
kepada pengurangan dari reconstruction error variance untuk nilai R yang
diberikan (atau berarti varians kesalahan rekonstruksi DPCM jauh lebih kecil dari
PCM, karena varians masukan DPCM, yaitu perbedaan sample berdekatan, jauh
lebih kecil dari PCM).
Dalam praktiknya, pengkode ADPCM diimplementasikan menggunakan
teknik pemrediksi isyarat. Daripada mengkodekan perbedaan diantara samples
yang berdekatan, sebuah pemrediksi linier digunakan untuk memprediksi sample
yang sedang terjadi. Perbedaan diantara sample yang diprediksi dan sample yang
sebenarnya disebut kesalahan prediksi kemudian dikodekan untuk pengiriman.
Pemrediksian adalah didasarkan pada pengetahuan dari sifat korelasi diri dari
tutur. Blok diagram suatu ADPCM diperlihatkan pada gambar 2.3
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
13
Gambar 2.3 Blok diagram Adaptive Differential Pulse Code Modulation (ADPCM)
2.5.2 Frequency Domain
Pengkode kawasan frekuensi adalah kelas pengkode tutur yang mengambil
manfaat dari model tanggapan dan pembangkitan tutur tanpa membuat algoritma
seluruhnya bergantung pada model yang digunakan. Dalam kelas pengkode ini,
isyarat tutur dibagi kedalam sekumpulan komponen frekuensi yang
dikuantisasikan dan dikodekan terpisah. Dalam cara ini pita frekuensi yang
berbeda dapat secara istimewa dikodekan berdasarkan beberapa criteria
penanggapan untuk tiap pita frekuensi dan karenanya derau kuantisasi dapat
diisikan ke dalam pita dan dicegah dari penciptaan distorsi harmonis diluar pita.
Skema ini mempunyai manfaat bahwa jumlah dari bits yang digunakan untuk
mengkodekan tiap komponen frekuensi dapat secara dinamis diubah dan dishare
diantara pita yang berbeda.
Kebanyakan algoritma pengkodean kawasan frekuensi, yang tersusun dari
sederhana sampai kompleks adalah tersedia. Tipe penkodean kawasan frekuensi
yang paling umum meliputi sub-band coding (SBC) dan block transform coding.
Ketika pengkode sub-band membagi isyarat tutur ke dalam sub-bands yang lebih
kecil dan mengkodekan tiap sub-band terpisah berdasarkan beberapa criteria
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
14
tanggapan, pengkode transform mengkodekan transformasi waktu-pendek dari
urutan terjendela dari samples dan mengkodekan mereka dengan sejumlah bit
sebanding dengan keberartian penanggapan samples tersebut.
2.5.2.1 Sub-band Coding (SBC)
Pengkodean sub-band dapat dipikirkan sebagai cara untuk mengendalikan
dan mendistribusikan derau kuantisasi sepanjang spektrum isyarat.
Pengkuantisasian adalah operasi non-linier yang menghasilkan produk distorsi
yang secara khas lebar dalam spektrum. Telinga manusia tidak mengenali distorsi
kuantisasi pada semua frekuensi dengan sama baik. Ini oleh karena itu bisa untuk
mencapai perbaikan yang kokoh dalam kualitas dengan mengkodekan isyarat
dalam band yang lebih rendah.
Dalam pengkode sub-band, tutur biasanya dibagi kedalam empat atau
delapan sub-bands oleh sebuah bank tapis, dan tiap-tiap sub-band dicuplik pada
sebuah bandpass Nyquist rate (bandpass pesat Nyquist) yang mana lebih rendah
dari pesat pencuplikan aslinya dan dikodekan dengan keakuratan yang berbeda
dalam kaitannya dengan kriteria seberapa baik penanggapan telinga manusia pada
band tersebut.
Pemecahan band dapat dilakukan dengan banyak cara. Satu pendekatan
dapat untuk membagi seluruh band tutur kedalam sub-bands yang tidak sama
besar, tetapi berkontribusi secara sama besar ke nilai articulation index.
Articulation Index (AI) adalah sebuah sarana yang digunakan oleh audiologists
untuk meramalkan jumlah dari tutur yang dapat didengar oleh pasien dengan rugi-
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
15
rugi pendengaran tertentu. Pembacaan AI untuk pasien yang diberikan dapat
menjangkau dari nol sampai 1.0 yang mewakili proporsi dari rerata isyarat tutur
yang dapat didengar. Semakin dekat AI ke 1.0, atau 100 persen, semakin baik
orang akan mampu mendengar tutur. AI seringkali digunakan sebagai alat
konseling karena ini menghadirkan sebuah rugi pendengaran individu dalam
hubungan dari persentase dari tutur yang hilang selama percakapan satu-satu yang
khas. AI dapat juga digunakan untuk mengukur keefektifan dari alat-bantu dengar
dan dari peralatan penguat bentuk lainnya. Sebuah pem-partisian dari pita tutur
berkaitan dengan cara ini yang disarankan oleh Crochiere, et al, diberikan
dibawah.
Tabel 2.1 Pemecahan pita tutur sesuai Crochiere, et al
Nomor Sub-band Jangkauan Frekuensi (Hz)
1 200-700
2 700-1310
3 1310-2020
4 2020-3200
Cara lainnya untuk memecah band tutur adalah membaginya kedalam sub-
band dengan lebar yang sama dan menetapkan untuk tiap sub-band jumlah dari bit
setara dengan keberartian penanggapan ketika mengkodekannya.
Terdapat bermacam-macam cara untuk memproses isyarat sub-band. Satu
cara yang nyata untuk membuat penterjemahan low-pass dari isyarat sub-band ke
frekuensi nol adalah dengan proses modulasi yang ekuivalen dengan modulasi
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
16
single sideband. Jenis penterjemahan ini memfasilitasi pengurangan pesat
pencuplikan dan memiliki keuntungan lainnya melalui pengkodean isyarat low-
pass.
Isyarat masukan di-filter dari bandpass filter dengan lebar ωn untuk band
ke-n. ω1n adalah tepi bawah dari band dan ω2n adalah tepi atas dari band. Sinyal
yang dihasilkan sn(t) dimodulasi dengan gelombang cosinus cos (ω1n t) dan di-
filter menggunakan tapis low pass hn(t) dengan bandwidth (0-ωn). Sinyal hasilnya
rn(t) sama dengan versi terterjemahkan low pass dan dinyatakan sebagai
rn(t) = [sn(t) cos (ω1n t)] x hn (t) (2.3)
dimana menunjukkan operasi konvolusi. Isyarat rn(t) dicuplik dengan
pesat 2 ωn. Isyarat ini kemudian dikodekan secara digital dan dimultiplex dengan
isyarat terkodekan dari kanal lainnya. Pada penerima data di-demultiplex kedalam
kanal-kanal yang terpisah, di-dekode, dan dilakukan penterjemahan bandpass
untuk memberikan perkiraan dari rn(t) untuk kanal ke-n.
2.5.2.2 Adaptive Transform Coding
Adaptive transform coding (ATC) adalah teknik dalam kawasan frekuensi
lainnya yang telah secara sukses digunakan untuk mengkodekan tutur pada pesat
bit dalam range 9.6 kbps sampai 20 kbps. Ini adalah teknik yang lebih kompleks
yang melibatkan pen-transformasi blok dari segmen-segmen masukan yang
terjendelakan dari bentuk-gelombang tutur. Tiap segmen diwakili oleh
sekumpulan koefisien-koefisien transformasi, yang secara terpisah dikuantisasikan
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
17
dan dikirimkan. Pada penerima, koefisien-koefisien transformasi di-invers
transform untuk menghasilkan tiruan dari segmen masukan aslinya.
Satu dari transform yang paling menarik dan sering digunakan untuk
mengkodekan isyarat adalah discrete cosine transform (DCT). DCT dari
rangkaian N-titik x(n) didefinisikan sebagai
(2.4)
dimana g(0) = 1 dan g(k) = , k = 1, 2, …, N-1
Inverse DCT didefinisikan sebagai
(2.5)
Dalam situasi praktik DCT dan IDCT tidak dinilai secara langsung
menggunakan persamaan di atas, tetapi melalui fast algorithm (algoritma secara
cepat). Fast algorithm yang dibangun untuk menghitung DCT dalam cara
komputasi yang efisien.
Kebanyakan dari skema pengkodean transform memvariasikan alokasi bit
diantara-koefisien-koefisien-transformasi-yang-berbeda secara adaptif dari frame
ke frame bersamaan dengan penjagaan jumlah total bit yang tetap. Alokasi bit
secara dinamis ini dikendalikan oleh statistik berubah waktu yang harus
dikirimkan yaitu sebagai informasi samping. Informasi samping ini merupakan
sebuah overhead sekitar 2 kbps. Frame dari N buah samples yang
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
18
ditransformasikan atau invers-transform dikumpulkan dalam buffer di pengirim
dan penerima secara berurutan. Informasi samping juga digunakan untuk
menentukan ukuran langkah dari berbagai macam koefisien kuantisasi. Dalam
sistem praktis, informasi samping yang dikirimkan adalah gambaran kasar dari
spektrum energi-log. Ini biasanya terdiri dari L titik frekuensi, dimana L adalah
dalam range 15-20, yang dihitung dengan merata-ratakan kumpulan dari N/L nilai
terkuadrat yang berdekatan dari koefisien transformasi X(k). Pada penerima,
sebuah N-titik spektrum direkonstruksi dari L-titik spektrum oleh interpolasi
geometris dalam kawasan-log. Jumlah dari bit-bit yang ditetapkan untuk tiap
koefisien transformasi sebanding dengan nilai energi spectral terkaitnya. Gambar
2.4 menunjukkan blok dasar dari suatu transform coding.
Gambar 2.4 Blok dasar dari transform coding
2.6 Source Coders
Source coder adalah kelas dari sistem pengkodean tutur yang
menganalisa/menguraikan isyarat suara di pengirim, mengirimkan parameter-
parameter yang didapatkan dari analisa tersebut, dan kemudian
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
19
mensintesa/menyatukan isyarat suara di penerima menggunakan parameter
tersebut. Semua sistem source coder mencoba untuk memodelkan proses
pembangkitan tutur sebagai sebuah sistem yang dinamis dan berusaha mengukur
pembatas fisik tertentu dari sistem. Pembatas-pembatas fisik ini digunakan untuk
menyediakan deskripsi yang sangat hemat dari isyarat tutur. Source coder secara
umum jauh lebih kompleks daripada pengkode bentuk-gelombang dan mencapai
keekonomisan yang sangat tinggi dalam pesat bit pengiriman. Namun, source
coder kurang handal, dan kinerjanya cenderung untuk bergantung pada yang
bercakap-cakap.
Jenis source coder yang paling terkenal adalah linier predictive coder
(LPC). Skema source coder lainnya meliputi channel vocoder, formant vocoder,
cepstrum vocoder, dan voice excited vocoder.
2.6.1 Mekanisme Pembangkitan Tutur Manusia
Mekanisme pembangkitan tutur membentuk sumber dan adalah secara
linier terpisah dari intelligence modulating vocal tract filter yang membentuk
sistem. Isyarat tutur diasumsikan menjadi dua jenis: voiced dan unvoiced (bersuara
dan tanpa bersuara). Bunyi voiced (seperti pada pengucapan “m”, ”n”, ”v”) adalah
hasil dari getaran periodis-semu dari vocal chord (nada vokal) dan bunyi unvoiced
(seperti pada pengucapan “f”, “s”, “sh”) adalah bunyi desah yang dihasilkan oleh
pergolakan aliran udara melalui sebuah penyempitan. Parameter yang terkait
dengan model ini adalah voice pitch (pola titi nada, tanggapan terhadap frekuensi
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
20
fundamental), pole frequencies (frekuensi-frekuensi kutub), dan parameter
amplitude yang bersesuaian.
Pitch dalam musik dan tutur berarti derajat tinggi atau kedalaman sebuah
nada atau suara, bergantung pada kecepatan relatif dari getaran yang mana ia
dihasilkan. Frekuensi pitch untuk kebanyakan pembicara-pembicara adalah di
bawah 300 Hz. Frekunsi-frekuensi kutub sesuai dengan frekuensi resonan dari
vocal tract (saluran di sistem pengucapan) dan seringkali disebut formants dari
isyarat tutur. Untuk pembicara-pembicara adalah orang dewasa, formants terpusat
disekitar 500Hz, 1500Hz, 2500Hz, dan 3500Hz. Melalui pengaturan secara teliti
dari parameter-parameter model pembangkitan tutur, tutur berkualitas baik dapat
disintesa.
Prinsip pembuatan tutur manusia dapat dideskripsikan sebagai berikut:
Tutur dihasilkan oleh kerjasama dari paru-paru, glottis, pita suara dan
sistem pengucapan (mulut dan lubang hidung).
Untuk produksi suara voiced, paru-paru menekan udara melewati epiglotis,
pita suara bergetar, mereka menginterup aliran udara dan menghasilkan
gelombang tekanan periodis- semu.
Impuls tekanan (karena menginterup) umum disebut pitch impulses dan
frekuensi dari isyarat tekanan adalah pitch frequency atau fundamental
frequency. Gambar 2.5 memperlihatkan organ tutur pada manusia.
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
21
Gambar 2.5 Organ tutur manusia
Di gambar 2.6 urutan impulse khas (fungsi tekanan suara) yang dihasilkan
oleh pita suara untuk suara voiced ditunjukkan. Ini bagian dari isyarat voice
yang menetapkan nyanyian tutur (speech melody).
Gambar 2.6 Urutan impulse khas dari fungsi tekanan suara
Ketika kita berbicara dengan frekuensi pitch tetap, tutur terdengar monoton.
Bagaimana frekuensi pitch berubah dilukiskan dalam gambar 2.7.
Gambar 2.7 Variasi dari Frekuensi Pitch
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
22
Pitch impulses menstimulasi udara dalam mulut dan untuk bunyi tertentu
(bunyi sengau) juga rongga hidung. Ketika rongga-rongga beresonansi,
mereka meradiasikan gelombang bunyi yang merupakan isyarat tutur. Kedua
(mulut dan hidung) berperan sebagai resonator dengan karakteristik
frekuensi resonans tertentu yang disebut formant frequency. Karena rongga
mulut dapat berubah secara luas, kita mampu mengucapkan sangat banyak
bunyi yang berbeda.
Dalam kasus bunyi unvoiced, eksitasi dari sistem vokal lebih menyerupai
derau. Gambar 2.8 menunjukkan perbedaan bentuk dan posisi dari organ
pengucapan secara jelas untuk bunyi voice (bunyi m) dan unvoiced (bunyi t)
Gambar 2.8 Perbedaan bentuk dan posisi pembuatan bunyi untuk voice dan unvoice
Bunyi voiced cenderung untuk secara kuat bersifat periodis sedangkan bunyi
unvoiced cenderung untuk lebih menyerupai derau. Gambar 2.9
memperlihatkan bentuk gelombang ketika dibangkitkan bunyi voiced dan
unvoiced.
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
23
Gambar 2.9 Perbedaan bentuk gelombang voiced dan unvoiced
2.6.2 Vocoder
2.6.2.1 Channel Vocoder
Channel vocoder adalah yang pertama diantara sistem analis-sintesis dari
tutur yang dipertunjukkan secara praktis. Channel vocoder adalah vocoder dalam
kawasan frekuensi yang menentukan envelope dari isyarat tutur dari sejumlah pita
frekuensi dan kemudian mencuplik, mengkodekan, dan memultipleks samples ini
dengan keluaran terkode dari filter lainnya. Pencuplikan dilakukan secara sinkron
setiap 10ms sampai 30ms. Bersamaan dengan informasi energi tentang tiap band,
penentuan voiced/unvoiced dan frekuensi pitch untuk tutur voiced adalah juga
dikirimkan. Gambar 2.10 memperlihatkan blok diagram dari suatu channel
vocoder.
Gambar 2.10 Blok diagram dasar dari channel vocoder
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
24
2.6.2.2 Formant Vocoder
Formant vocoder mempunyai konsep yang sama dengan channel vocoder.
Secara teoritis, formant vocoder dapat beroperasi pada pesat bit yang lebih rendah
daripada channel vocoder karena formant vocoder menggunakan isyarat kendali
yang lebih sedikit. Daripada mengirimkan sampel-samper dari power spectrum
envelope, formant vocoder mencoba untuk mengirimkan posisi puncak (formant)
dari spectral envelope. Secara khas, formant vocoder harus mampu untuk
mengenali sedikitnya tiga formants untuk memisalkan suatu suara tutur, dan ia
juga harus mampu mengendalikan intensitas dari formants tersebut.
Formant vocoder dapat menghasilkan kembali tutur pada pesat bit kurang
dari 1200 bits/s. Namun, karena kesulitan dalam secara akurat memperhitungkan
lokasi dari formants dan peralihan-peralihan formant dari tutur manusia, jenis
vocoder ini tidak terlalu sukses.
2.6.2.3 Cepstrum Vocoder
Cepstrum vocoder memisahkan spektrum eksitasi dan spektrum vocal
tract dengan invers fourier transform dari log magnitude spectrum untuk
menghasilkan cepstrum dari isyarat. Koefisien frekuensi rendah dalam cepstrum
sama dengan vocal tract spectral envelope, dengan koefisien eksitasi frekuensi
tinggi membentuk rentetan pulsa periodis pada perkalian periode pencuplikan. Hal
ini diperlihatkan dalam gambar 2.11.
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
25
Gambar 2.11 Bentuk isyarat tutur di kawasan cepstrum
Tapis linier dikinerjakan untuk memisahkan vocal tract cepstral
coefficients dari excitation coefficients. Di penerima, vocal tract cepstral
coefficients ditransformasikan Fourier untuk menghasilkan vocal tract impulse
response. Dengan mengkonvolusikan tanggapan impuls ini dengan isyarat eksitasi
hasil sintesis (yaitu derau acak atau rentetan pulsa periodis), tutur asli dapat
dibangun-kembali. Gambar 2.12 memperlihatkan blok diagram dari cepstrum
vocoder.
Gambar 2.12 Blok diagram cepstrum vocoder
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
26
Bentuk gelombang hasil keluaran dari tiap-tiap blok pada diagram
cepstrum vocoder di gambar 2.12 diperlihatkan dalam gambar 2.13.
Gambar 2.12 Bentuk isyarat saat proses pengkodean pada cepstrum vocoder
2.6.2.4 Voice-excited Vocoder
Voice-excited vocoder membatasi kebutuhan untuk operasi voicing
detection dan pitch extraction. Sistem ini menggunakan kombinasi hybrid dari
pengiriman PCM untuk tutur yang memiliki pita frekuensi rendah,
dikombinasikan dengan channel vocoding untuk tutur yang memiliki pita
frekuensi yang lebih tinggi. Isyarat pitch dibangkitkan pada pensintesa dengan
rectify-ing, bandpass filtering, dan clipping terhadap isyarat bidang dasar
(baseband signal).
Voice excited vocoders telah dirancang untuk operasi pada 7200 bits/s
sampai 9600 bits/s dan kualitasnya secara khas, lebih unggul dibanding hasil yang
diperoleh oleh pitch excited vocoders (vocoders yang hanya mendasarkan pada
parameter pitch di semua komponen frekuensi).
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
27
2.6.3 Linear Predictive Coders (LPC)
2.6.3.1 LPC Vocoders
Linier predictive coders (LPC) termasuk dalam kelas vocoder kawasan
waktu. Kelas vocoder ini mencoba untuk mengekstrak ciri-ciri yang penting dari
tutur dari bentuk gelombang waktu. Komputasi pada pengkode-pengkode LPC
bersifat intensif. Dengan LPC ini memungkinkan untuk mengirimkan suara
kualitas baik pada 4.8 kbps.
Sistem pengkodean linier predictive memodelkan vocal tracts (saluran
pada sistim pengucapan) sebagai sebuah all pole linear filter dengan transfer
function yaitu
(2.6)
dengan G adalah gain dari filter dan z-1 mewakili operati tunda satuan.
Pengeksitasian terhadap filter ini adalah berupa pulsa pada frekuensi pitch
untuk bunyi voice atau derau putih acak untuk bunyi unvoiced. Koefisien dari
seluruh kutub filter diperoleh dalam kawasan waktu, yaitu menggunakan teknik
prediksi linier. Prinsip prediksi yang digunakan sama dengan di pengkode
ADPCM. Namun, daripada mengirimkan nilai terkuantisasi dari kesalahan isyarat
yang mewakili perbedaan diantara bentuk gelombang prediksi dan bentuk
gelombang yang sebenarnya, sistem LPC hanya mengirimkan ciri-ciri yang dipilih
dari kesalahan isyarat. Parameter-parameternya meliputi faktor penguatan,
informasi pitch, dan informasi keputusan voice/unvoice, yang mengijinkan
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
28
pendekatan dari isyarat salah secara tepat. Pada penerima, informasi yang diterima
tentang kesalahan isyarat digunakan untuk menentukan eksitasi yang tepat untuk
filter pensintesa, atau berarti isyarat salah berfungsi sebagai pengeksitasi di
pendekode.
Filter pensintesa dirancang pada penerima menggunakan koefisien pem-
prediksi yang diterima. Dalam praktik, kebanyakan pengkode LPC mengirimkan
koefisien filter yang mewakili isyarat salah yang baru saja terjadi dan kemudian
dapat secara langsung disintesis oleh penerima.
Berbagai jenis skema LPC berbeda dalam cara mereka menciptakan
kembali isyarat salah di penerima. Tiga alternatif dari jenis LPC, yaitu:
1. Jenis LPC yang paling terkenal, yang menggunakan dua sumber di
penerima, satu untuk derau putih dan lainnya terkait deretan pulsa-pulsa
pada pesat pitch tertentu. Pemilihan apakah metode eksitasinya didasarkan
keputusan voiced/unvoiced adalah dibuat di pengirim dan dikirimkan ke
penerima bersama dengan informasi lainnya. Teknik ini memerlukan bahwa
pengirim mengekstrak informasi frekuensi pitch yang seringkali sangat sulit.
2. Jenis Multi-pulse excited LPC
3. Jenis Stochastic atau code excited LPC
Dalam kaitannya untuk mengilustrasikan pembuatan tutur oleh LPC, ini
dapat dikaitkan dengan pembuatan tutur oleh manusia. Gambar 2.13
memperlihatkan blok diagram pembuatan tutur oleh manusia (a) dan oleh mesin
secara sederhana dalam hal ini LPC sederhana (b).
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
29
Gambar 2.13 Proses pembangkitan tutur a) Oleh manusiab) Oleh LPC sederhana
Dalam pembangkitan tutur oleh mesin, paru-paru digantikan oleh sebuah
sumber DC, pita suara oleh pembangkit impuls dan sistem pengucapan oleh
sistem tapis linier. Pembangkit nada menghasilkan eksitasi voiced dan pembangkit
derau menghasilkan eksitasi unvoiced. Dalam praktik, semua bunyi mempunyai
eksitasi campuran, yang berarti bahwa eksitasi terdiri dari porsi voice dan
unvoice. Hubungan dari porsi-porsi ini berubah-ubah secara kuat ketika bunyi
dibangkitkan. Dalam model ini, porsi diatur oleh dua buah potensiometer, tetapi
penyederhanaan lebih lanjut dapat dibuat, sesuai gambar pembangkitan tutur oleh
mesin pembuat tutur tersebut. Sebagai ganti dua buah potensiometer, kita
menggunakan saklar yang hanya memilih diantara voiced and unvoiced
excitation. Filter, mewakili sistem pengucapan, adalah sebuah tapis digital
rekursif sederhana, watak resonansinya (tanggapan frekuensinya) didefinisikan
oleh sekumpulan koefisien-koefisien tapis. Karena penghitungan dari koefisien-
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
30
koefisien tersebut didasarkan pada tatacara optimisasi secara matematis dari
Linier Prediction Coding, maka koefisien-koefisien tersebut disebut Linear
Prediction Coding Coefficients atau koefisien LPC dan model keseluruhannya
disebut LPC Vocoder. Manfaat yang utama dari LPC Vocoder adalah pesat bit
yang sangat rendah untuk pengiriman tutur (sekitar 3 kbit/s) yang dibandingkan
dengan PCM (64 kbit/s).
2.7 Perbandingan Standar-Standar Telephone-Band-Speech-Coding
Pada tabel 2.2 diperlihatkan standar-standar yang terkenal untuk
pengkodean tutur dalam sistim telekomunikasi dewasa ini.
Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008
31
Tabel 2.2 Perbandingan standar-standar pengkodean tutur di beberapa sistim
telekomunikasi