makalah speech coding

SPEECH CODING

Oleh : Fahmi Nurhuda

Speech Coding mengacu pada teknik yang digunakan untuk mengkodekan

isyarat tutur analog menjadi kode-kode biner. Tujuan dari semua sistem

pengkodean tutur adalah untuk mengirimkan tutur dengan kualitas tertinggi yang

mungkin, dengan menggunakan kapasitas kanal paling sedikit yang mungkin. Ini

harus diselesaikan ketika tentu saja memerlukan tingkat kompleksitas

implementasi dan tunda komunikasi.

Secara umum, terdapat hubungan yang setara diantara efisiensi pesat-bit

pengkode dan kekompleksan algoritma yang diperlukan untuk mencapainya,

dimana semakin kompleks sebuah algoritma, semakin besar tunda pemrosesannya

dan biaya implementasinya. Tanpa low data rate speech coding, skema modulasi

digital menawarkan sedikit efisiensi melalui efisiensi spektral untuk trafik suara.

Untuk membuat praktis pengkodean tutur, implementasi harus memakan sedikit

daya dan menyediakan toleransi jika kualitas tutur tidak baik sekali.

Kemampuan dari suatu pengkode tutur menentukan kualitas dari tutur

yang dipulihkan kembali dan juga menentukan kapasitas dari sistem. Dalam

sistem komunikasi bergerak, bandwidth adalah komoditas yang berharga dan

serice providers seringkali dipertemukan dengan tantangan untuk menampung

lebih banyak pengguna dalam alokasi bandwidth terbatas.

Low bit-rate speech coding menawarkan sebuah cara untuk menjumpai

tantangan ini. Semakin rendah pesat bit, semakin banyak kanal tutur yang dapat

Makalah Speech Coding (Penyandian Tutur)Sistem Komunikasi Bergerak 2007/2008

2

dikompres dalam bandwidth yang diberikan. Untuk alasan ini, manufaktur dan

service providers secara terus-menerus dalam penelitian terhadap pengkode tutur

yang akan memberikan pesat bit yang semakin rendah.

Pengkode tutur berbeda secara luas dalam pendekatannya untuk mencapai

pengkompresan isyarat. Didasarkan pada cara yang mana mereka mencapai

pengkompresan, pengkode tutur secara luas dikategorikan ke dalam dua

kelompok: Waveform Coders dan Source Coders. Pengkode bentuk gelombang

pada dasarnya berusaha menciptakan bentuk-gelombang waktu dari isyarat tutur

semirip mungkin. Pengkode bentuk gelombang tersebut, secara prinsip, dirancang

untuk menjadi sumber yang independent dan karenanya dapat mengkodekan

secara sama dengan baik, variasi dari isyarat. Pengkode tersebut mempunyai

kemanfaatan untuk menjadi handal untuk karakteristik tutur dengan jangkauan

yang luas dan untuk lingkungan yang berderau. Semua kemanfaatan ini dipelihara

dalam kompleksitas yang minimal dan secara umum pengkode kelas ini mencapai

tingkat keekonomian menengah dalam pengiriman pesat bit. Contoh dari

pengkode bentuk gelombang meliputi pulse code modulation (PCM), differential

pulse code modulation (DPCM), adaptive differential pulse code modulation

(ADPCM), delta modulation (DM), continuously variable slope delta modulation

(CVSDM), dan adaptive predictive coding (APC). Source Coders di lain pihak

mencapai tingkat keekonomian sangat tinggi dalam pengiriman pesat bit dan

secara umum lebih kompleks. Source Coders didasarkan pada penggunaan

pengetahuan pengutamaan tentang isyarat yang akan dikodekan dan untuk alasan

ini, Source Coders, secara umum, signal spesific.


3

SPEECH CODING

2.1 Pentingnya Speech Coding

Speech Coding sangat diperlukan dalam teknologi telekomunikasi dewasa

ini. Hal tersebut mengingat kondisi sistim telekomunikasi saat ini yang

merupakan sistim digital. Oleh karenanya, untuk menyesuaikan dengan

karakteristik kanal yang bersifat digital, isyarat analog dari tutur harus terlebih

dahulu diubah ke dalam bentuk digital. Selain itu, dalam komunikasi seluler saat

ini, dimana bandwidth merupakan komoditas yang paling mahal, maka semakin

efisien perepresentasian suatu tutur dalam kode-kode biner, semakin banyak tutur

yang dapat dilewatkan dalam kanal dengan bandwidth tertentu yang terbatas, yang

menyatakan bahwa semakin banyak layanan yang dapat diberikan oleh service

providers dalam bandwidth tersebut.

2.2 Jenis-Jenis Speech Coding

Hierarki dari pengkode tutur digambarkan dalam gambar 2.1. Prinsip yang

digunakan untuk merancang dan mengimplementasikan teknik pengkodean tutur

dalam gambar 2.1 diceritakan diseluruh bab dua ini.


4

Gambar 2.1 Hierarki speech coding

Perbandingan unjuk kerja dari jenis-jenis speech coding secara umum

diperlihatkan dalam gambar 2.2, dimana kualitas tutur yang dihasilkan sering

diukur melalui mean opinion score (MOS), yaitu: 5 = excellent; 4 = good;

3 = fair; 2 = poor; 1 = bad.

Gambar 2.2 Perbandingan unjuk kerja dari jenis-jenis speech coding secara umum


5

2.3 Karakteristik Isyarat Tutur

Bentuk gelombang tutur mempunyai sejumlah sifat yang dapat

dieksploitasi ketika merancang pengkode yang efisien. Beberapa sifat yang paling

sering digunakan dalam perancangan pengkode meliputi the nonuniform

probability distribution of speech amplitude, the nonzero autocorrelation between

successive speech samples, the nonflat nature of the speech spectra, the existence

of voiced and unvoiced segment in speech, and quasiperiodicity of voiced speech

signals (distribusi peluang yang tidak uniform dari amplitude tutur, korelasi diri

yang tidak nol diantara hasil pencuplikan tutur yang berurutan, sifat tidak-rata

pada rapat spectral daya dari tutur, keberadaan dari bagian suara dan tidak ada

suara dalam tutur, dan periodisitas-semu dari isyarat tutur bagian suara). Sifat-

sifat tersebut antara lain mengijinkan kuantisasi untuk dilakukan dengan efisiensi

yang semakin besar.

Sifat dasar isyarat tutur yang paling banyak dieksploitasi oleh seluruh

pengkode tutur adalah bahwa isyarat tutur itu bandlimited. Sifat tersebut

menyebabkan isyarat tutur dapat dicuplik, dengan besar frekuensi pencuplikan

sama dengan atau lebih besar dari dua kali komponen frekuensi tertingginya

dalam isyarat low pass nya.

Fungsi rapat peluang (pdf) yang tidak samarata dari amplitude tutur

adalah dimana pdf dari isyarat tutur secara umum disifatkan oleh probabilitas

yang sangat tinggi dari amplitude yang mendekati nol, probabilitas yang penting

dari amplitude yang sangat tinggi, dan fungsi yang menurun secara begitu-begitu

saja dari amplitude diantara nilai frekuensi ekstremnya. Pengkuantisasi non-


6

uniform, termasuk pengkuantisasi vector, mencoba untuk mencocokkan distribusi

dari level kuantisasi terhadap pdf dari isyarat tutur masukan, dengan

mengalokasikan level kuantisasi yang lebih banyak di daerah dari probabilitas

tinggi dan level yang lebih sedikit di daerah dimana peluangnya rendah.

Autocorrelation Function (ACF) dari isyarat tutur adalah dimana disana

terdapat korelasi yang besar diantara hasil pencuplikan yang berdekatan dari

segmen tutur. Ini berarti bahwa dalam setiap hasil pencuplikan isyarat tutur,

sejumlah besar bagian-bagiannya dapat diperkirakan dari nilai-nilai hasil

pencuplikan sebelumnya, dengan kesalahan acak yang kecil. Korelasi diri (ACF)

memberikan ukuran kuantitatif dari kedekatan atau seberapa sama diantara

samples dari isyarat tutur sebagai fungsi dari waktu pemisahnya.

Fungsi Rapat Spektral Daya (PSD) dari isyarat tutur adalah nonflat

dimana typical long-term averaged PSD (PSD rerata dalam jangka waktu yang

lama yang khas) dari isyarat tutur menunjukkan bahwa komponen frekuensi tinggi

menyumbang sangat kecil kepada energi tutur total. Ini memungkinkan untuk

memperoleh significant compression (tingkat pengkompresan yang berarti) bagi

pengkodean tutur dalam kawasan frekuensi. Kealamiahan yang nonflat dari PSD

tersebut pada dasarnya merupakan perwujudan dalam kawasan frekuensi dari sifat

tidak-nol dari korelasi diri.


7

2.4 Teknik Kuantisasi

2.4.1 Uniform Quantization

Kuantisasi adalah proses pemetaan susunan kontinyu dari amplitude

isyarat ke kumpulan yang terbatas dari amplitude diskret. Tidak sama dengan

pencuplikan, kuantisasi menghasilkan distorsi. Distorsi yang dihasilkan oleh

setiap operasi kuantisasi berbanding lurus secara langsung pada nilai pangkat dua

dari ukuran langkah kuantisasinya, yang juga berarti berbanding terbalik terhadap

jumlah dari tingkatan kuantisasi untuk sebuah jangkauan amplitude. Performa dari

pengkuantisasi diukur melalui signal-to-quantization noise ratio (SQNR).

2.4.2 Nonuniform Quantization

Performa dari pengkuantisasi dapat ditingkatkan dengan mendistribusikan

level kuantisasi dalam cara yang lebih efisien. Pengkuantisasi non-uniform

mendistribusikan level kuantisasinya sesuai dengan pdf dari bentuk-gelombang

masukan. Sesuai persamaan mean square distortion, total distorsi dapat dikurangi

dengan mengurangi derau kuantisasi, ketika p(x), pdf dari isyarat masukan, adalah

besar. Ini berarti bahwa level kuantisasi perlu untuk difokuskan dalam daerah

amplitude yang memiliki probabilitas tinggi. Implementasi sederhana dan handal

dari pengkuantisasi non-uniform yang digunakan dalam telepon komersial adalah

pengkuantisasi logaritmis. Pengkuantisasi ini menggunakan langkah kuantisasi

yang sangat baik untuk amplitude rendah yang sering terjadi dalam tutur dan

langkah yang sangat kasar (lebar jarak antar langkahnya) untuk yang jarang

terjadi, yaitu untuk penyimpangan amplitude yang besar. Teknik companding


8

(compressing and expanding) yang berbeda dikenal sebagai µ-law dan A-law

digunakan secara berturut-turut di U.S dan Eropa. Pengkuantisasian secara non-

uniform diperoleh dengan pertama melewatkan isyarat tutur analog melalui

penguat kompresi (logaritmis) dan kemudian melewatkan isyarat yang

terkompresi tersebut kedalam pengkuantisasi uniform standar. Pada teknik

companding, isyarat tutur yang lemah dikuatkan sedangkan isyarat tutur yang kuat

dikompresi.

2.4.3 Adaptive Quantization

Terdapat perbedaan diantara pdf jangka waktu lama dan jangka waktu

singkat dari bentuk-gelombang tutur. Sifat berubah terhadap waktu dari isyarat

suara menghasilkan dynamic range sebesar 40dB atau lebih. Cara yang efisien

untuk menampung dynamic range yang besar tersebut adalah dengan mengadopsi

teknik pengkuantisasian yang berubah terhadap waktu. Pengkuantisasi adatif

merubah ukuran langkahnya sesuai dengan daya isyarat tutur masukan.

Karakteristik pengkuantisasi adaptif ini menyusut dan mengembang dalam waktu

seperti akordeon (harmonika tangan).

Sebuah strategi adaptasi sederhana, yaitu: membuat ukuran langkah dari

pengkuantisasi pada tiap instant pencuplikan yang diberikan, sebanding dengan

keluaran pengkuantisasi pada instant pencuplikan yang terdahulu. Oleh karena

penyesuaian mengikuti keluaran pengkuantisasi daripada masukan, informasi

ukuran langkah tidak perlu secara eksplisit dikirimkan tetapi dapat ditimbulkan

ulang pada penerima.


9

2.4.4 Vector Quantization

Shannon’s Rate-Distortion Theorem menetapkan bahwa terdapat pemetaan

dari bentuk-gelombang sumber ke kata sandi keluaran yaitu untuk distorsi yang

diberikan D, R(D) bit per sampel mencukupi untuk merekonstruksi bentuk-

gelombang dengan distorsi rerata berubah-ubah dekat dengan D. Oleh karena itu,

pesat yang nyata R harus lebih besar dari R(D). Fungsi R(D), disebut fungsi pesat-

distorsi, mewakili batasan fundamental/pokok pada suatu pesat yang dapat

dijangkau untuk sebuah nilai distorsi yang diberikan (atau berarti nilai minimal

pesat untuk sebuah nilai distorsi yang diberikan). Pengkuantisasi skalar tidak

mencapai performa mendekati batasan teoritis informasi ini. Shannon

memperkirakan bahwa performa yang lebih baik dapat dicapai dengan

mengkodekan banyak samples pada sebuah waktu daripada satu sample pada

sebuah waktu.

Vector Quantization (VQ) adalah teknik keputusan pengkodean-tertunda

yang memetakan sekelompok samples masukan (secara khas disebut speech

frame), yang disebut vektor (vector), ke daftar suatu buku kode (code book). Buku

kode diatur terdiri dari sekumpulan terbatas dari vectors yang mencakup seluruh

range yang diantisipasi dari nilai-nilai amplitude isyarat tutur. Dalam tiap interval

pengkuantisasian (intervalnya berarti setara dengan interval beberapa kali

pencuplikan), nilai dalam buku kode dicari dan index dari entry yang memberikan

kecocokan terbaik ke frame isyarat masukan dipilih. Pengkuantisasi vektor dapat

menghasilkan performa yang lebih baik bahkan ketika samples adalah

independent satu dengan lainnya. Performa meningkat secara hebat jika terdapat

korelasi yang kuat diantara samples dalam kelompok samples masukan tersebut.

Jumlah dari samples dalam sebuah blok (vektor), disebut dimensi L dari

pengkuantisasi vektor. Pesat R dari pengkuantisasi vektor didefinisikan sebagai:

R = log2n / L bits/sample (2.1)

n adalah ukuran buku kode VQ. R bisa berupa nilai pecahan pula.

Semua prinsip pengkuantisasian yang digunakan dalam pengkuantisasian

scalar diaplikasikan ke pengkuantisasian vektor sebagai sebuah perluasan secara

langsung. Sebagai ganti level kuantisasi, kita memiliki vektor kuantisasi, dan


10

distorsi diukur sebagai akar dari jarak Euclidean diantara vektor kuantisasi dan

vektor masukan (istilah untuk sekelompok samples masukan).

2.5 Jenis-Jenis Waveform Coders

2.5.1 Time Domain

2.5.1.1 Pulse Code Modulation (PCM)

PCM termasuk pengkode tutur waveform coder dalam kawasan waktu dan

bersifat non-diferensial. Secara umum, pengkode tutur mempunyai langkah-

langkah seperti pada PCM, yaitu:

1. Penapisan

Penapisan ini dimaksudkan untuk membuat isyarat tutur yang akan

dikodekan bersifat bandlimited. Selain itu melalui penapisan ini, gangguan

yang dialami isyarat tutur diminimalkan, dimana gangguan yang dilewatkan

hanyalah gangguan yang berada dalam kawasan frekuensi tutur yang

dilewatkan oleh penapisan ini. Penapisan dilakukan dengan melewatkan

isyarat tutur ke filter bandpass dengan frekuensi rendah dan tinggi dari filter

sesuai karakteristik frekuensi isyarat tutur yang akan dilewatkan.

2. Pencuplikan

Pencuplikan ini merupakan operasi yang mengambil nilai isyarat tutur hanya

pada waktu-waktu tertentu, yaitu secara periodis di tiap suatu interval waktu

tertentu. Melalui operasi ini, isyarat tutur menjadi diskret dalam kawasan

waktu. Besar frekuensi pencuplikan ini harus memenuhi syarat Nyquist,

dimana frekuensi pencuplikan harus sama dengan atau lebih besar dari dua

kali frekuensi isyarat yang dicuplik.

3. Kuantisasi

Kuantisasi menyebabkan isyarat tutur diskret pada nilai amplitudenya. Nilai

amplitude isyarat tutur diwakili dengan nilai aras tertentu yang jumlahnya

disebut jumlah aras pengkuantisasi dan ukuran langkah antar nilai aras

tersebut disebut langkah kuantisasi. Kuantisasi menyebabkan derau

kuantisasi


11

4. Penjamakan/Pemultipleksan

Pemultipleksan dapat dilakukan setelah kuantisasi ataupun sebelum

kuantisasi, yaitu setelah pencuplikan. Melalui pemultipleksan ini,

dimungkinkan dilewatkan beberapa isyarat tutur pada sebuah kanal yang

sama.

5. Penyandian

Penyadian merupakan pewakilan nilai hasil kuantisasi ke dalam nilai-nilai

bit biner, yaitu 0 dan 1. Jumlah bit yang diperlukan bergantung pada jumlah

aras kuantisasi pada pengkuantisasian, yaitu:

Jumlah bit kode = log2 jumlah aras kuantisasi (2.2)

Pada skema PCM, jika kuantisasi adalah linier, diperlukan 12 bit untuk tiap

sampel agar rekonstruksi isyarat tutur cukup baik, sehingga memerlukan pesat bit

96 kbit/s. Namun, ketika kuantisasi adalah non-linier, melalui penguat logaritmis

dengan teknik companding µ-law atau A-law, 8 bit per sampel telah mencukupi

sehingga pesat bit adalah 64 kbit/s.

2.5.1.2 Adaptive Differential Pulse Code Modulation

Sistem pulse code modulation tidak mencoba untuk menghilangkan

redundancies (pengulangan yang tidak perlu) dalam isyarat tutur. Adaptive pulse

code modulation (ADPCM) adalah skema pengkodean yang lebih efisien yang

mengeksploitasi suatu rendundancy yang hadir dalam isyarat tutur. ADPCM

merupakan pengkode tutur waveform coder dalam kawasan waktu dan bersifat

diferensial.

Sebagaimana disebutkan sebelumnya, samples yang berdekatan dari

bentuk-gelombang tutur seringkali terkorelasi secara tinggi. Ini berarti bahwa

varians dari perbedaan diantara amplitude tutur yang berdekatan jauh lebih kecil

dari variasi isyarat tutur sendiri. ADPCM mengijinkan tutur untuk dikodekan pada


12

pesat bit 32 kbps, yang merupakan setengah dari standard pesat PCM, yaitu 64

kbps, ketika memelihara kualitas suara yang sama. Algoritma yang efisien untuk

DPCM telah dibangun dan distandarisasi. Standar algoritma ADPCM CCITT

G.721 untuk pengkodean tutur 32 kbps digunakan di sistem telepon cordless

seperti CT2 dan DECT.

Dalam skema Differential Pulse Code Modulation (DPCM), pengkode

mengkuantisasi sebuah rangkaian dari perbedaan sample yang berdekatan, dan

pen-dekode memulihkan sebuah pendekatan terhadap isyarat tutur asli yang pada

dasarnya meng-integralkan beda sample berdekatan yang ter-kuantisasi. Karena

varians kesalahan kuantisasi untuk jumlah yang diberikan dari bits/sample R,

berbanding lurus secara langsung terhadap varians masukan, pengurangan yang

diperoleh dalam varians masukan pengkuantisasi menuntun secara langsung

kepada pengurangan dari reconstruction error variance untuk nilai R yang

diberikan (atau berarti varians kesalahan rekonstruksi DPCM jauh lebih kecil dari

PCM, karena varians masukan DPCM, yaitu perbedaan sample berdekatan, jauh

lebih kecil dari PCM).

Dalam praktiknya, pengkode ADPCM diimplementasikan menggunakan

teknik pemrediksi isyarat. Daripada mengkodekan perbedaan diantara samples

yang berdekatan, sebuah pemrediksi linier digunakan untuk memprediksi sample

yang sedang terjadi. Perbedaan diantara sample yang diprediksi dan sample yang

sebenarnya disebut kesalahan prediksi kemudian dikodekan untuk pengiriman.

Pemrediksian adalah didasarkan pada pengetahuan dari sifat korelasi diri dari

tutur. Blok diagram suatu ADPCM diperlihatkan pada gambar 2.3


13

Gambar 2.3 Blok diagram Adaptive Differential Pulse Code Modulation (ADPCM)

2.5.2 Frequency Domain

Pengkode kawasan frekuensi adalah kelas pengkode tutur yang mengambil

manfaat dari model tanggapan dan pembangkitan tutur tanpa membuat algoritma

seluruhnya bergantung pada model yang digunakan. Dalam kelas pengkode ini,

isyarat tutur dibagi kedalam sekumpulan komponen frekuensi yang

dikuantisasikan dan dikodekan terpisah. Dalam cara ini pita frekuensi yang

berbeda dapat secara istimewa dikodekan berdasarkan beberapa criteria

penanggapan untuk tiap pita frekuensi dan karenanya derau kuantisasi dapat

diisikan ke dalam pita dan dicegah dari penciptaan distorsi harmonis diluar pita.

Skema ini mempunyai manfaat bahwa jumlah dari bits yang digunakan untuk

mengkodekan tiap komponen frekuensi dapat secara dinamis diubah dan dishare

diantara pita yang berbeda.

Kebanyakan algoritma pengkodean kawasan frekuensi, yang tersusun dari

sederhana sampai kompleks adalah tersedia. Tipe penkodean kawasan frekuensi

yang paling umum meliputi sub-band coding (SBC) dan block transform coding.

Ketika pengkode sub-band membagi isyarat tutur ke dalam sub-bands yang lebih

kecil dan mengkodekan tiap sub-band terpisah berdasarkan beberapa criteria


14

tanggapan, pengkode transform mengkodekan transformasi waktu-pendek dari

urutan terjendela dari samples dan mengkodekan mereka dengan sejumlah bit

sebanding dengan keberartian penanggapan samples tersebut.

2.5.2.1 Sub-band Coding (SBC)

Pengkodean sub-band dapat dipikirkan sebagai cara untuk mengendalikan

dan mendistribusikan derau kuantisasi sepanjang spektrum isyarat.

Pengkuantisasian adalah operasi non-linier yang menghasilkan produk distorsi

yang secara khas lebar dalam spektrum. Telinga manusia tidak mengenali distorsi

kuantisasi pada semua frekuensi dengan sama baik. Ini oleh karena itu bisa untuk

mencapai perbaikan yang kokoh dalam kualitas dengan mengkodekan isyarat

dalam band yang lebih rendah.

Dalam pengkode sub-band, tutur biasanya dibagi kedalam empat atau

delapan sub-bands oleh sebuah bank tapis, dan tiap-tiap sub-band dicuplik pada

sebuah bandpass Nyquist rate (bandpass pesat Nyquist) yang mana lebih rendah

dari pesat pencuplikan aslinya dan dikodekan dengan keakuratan yang berbeda

dalam kaitannya dengan kriteria seberapa baik penanggapan telinga manusia pada

band tersebut.

Pemecahan band dapat dilakukan dengan banyak cara. Satu pendekatan

dapat untuk membagi seluruh band tutur kedalam sub-bands yang tidak sama

besar, tetapi berkontribusi secara sama besar ke nilai articulation index.

Articulation Index (AI) adalah sebuah sarana yang digunakan oleh audiologists

untuk meramalkan jumlah dari tutur yang dapat didengar oleh pasien dengan rugi-

http://en.wikipedia.org/wiki/Audiologist


15

rugi pendengaran tertentu. Pembacaan AI untuk pasien yang diberikan dapat

menjangkau dari nol sampai 1.0 yang mewakili proporsi dari rerata isyarat tutur

yang dapat didengar. Semakin dekat AI ke 1.0, atau 100 persen, semakin baik

orang akan mampu mendengar tutur. AI seringkali digunakan sebagai alat

konseling karena ini menghadirkan sebuah rugi pendengaran individu dalam

hubungan dari persentase dari tutur yang hilang selama percakapan satu-satu yang

khas. AI dapat juga digunakan untuk mengukur keefektifan dari alat-bantu dengar

dan dari peralatan penguat bentuk lainnya. Sebuah pem-partisian dari pita tutur

berkaitan dengan cara ini yang disarankan oleh Crochiere, et al, diberikan

dibawah.

Tabel 2.1 Pemecahan pita tutur sesuai Crochiere, et al

Nomor Sub-band Jangkauan Frekuensi (Hz)

1 200-700

2 700-1310

3 1310-2020

4 2020-3200

Cara lainnya untuk memecah band tutur adalah membaginya kedalam sub-

band dengan lebar yang sama dan menetapkan untuk tiap sub-band jumlah dari bit

setara dengan keberartian penanggapan ketika mengkodekannya.

Terdapat bermacam-macam cara untuk memproses isyarat sub-band. Satu

cara yang nyata untuk membuat penterjemahan low-pass dari isyarat sub-band ke

frekuensi nol adalah dengan proses modulasi yang ekuivalen dengan modulasi


16

single sideband. Jenis penterjemahan ini memfasilitasi pengurangan pesat

pencuplikan dan memiliki keuntungan lainnya melalui pengkodean isyarat low-

pass.

Isyarat masukan di-filter dari bandpass filter dengan lebar ωn untuk band

ke-n. ω1n adalah tepi bawah dari band dan ω2n adalah tepi atas dari band. Sinyal

yang dihasilkan sn(t) dimodulasi dengan gelombang cosinus cos (ω1n t) dan di-

filter menggunakan tapis low pass hn(t) dengan bandwidth (0-ωn). Sinyal hasilnya

rn(t) sama dengan versi terterjemahkan low pass dan dinyatakan sebagai

rn(t) = [sn(t) cos (ω1n t)] x hn (t) (2.3)

dimana menunjukkan operasi konvolusi. Isyarat rn(t) dicuplik dengan

pesat 2 ωn. Isyarat ini kemudian dikodekan secara digital dan dimultiplex dengan

isyarat terkodekan dari kanal lainnya. Pada penerima data di-demultiplex kedalam

kanal-kanal yang terpisah, di-dekode, dan dilakukan penterjemahan bandpass

untuk memberikan perkiraan dari rn(t) untuk kanal ke-n.

2.5.2.2 Adaptive Transform Coding

Adaptive transform coding (ATC) adalah teknik dalam kawasan frekuensi

lainnya yang telah secara sukses digunakan untuk mengkodekan tutur pada pesat

bit dalam range 9.6 kbps sampai 20 kbps. Ini adalah teknik yang lebih kompleks

yang melibatkan pen-transformasi blok dari segmen-segmen masukan yang

terjendelakan dari bentuk-gelombang tutur. Tiap segmen diwakili oleh

sekumpulan koefisien-koefisien transformasi, yang secara terpisah dikuantisasikan


17

dan dikirimkan. Pada penerima, koefisien-koefisien transformasi di-invers

transform untuk menghasilkan tiruan dari segmen masukan aslinya.

Satu dari transform yang paling menarik dan sering digunakan untuk

mengkodekan isyarat adalah discrete cosine transform (DCT). DCT dari

rangkaian N-titik x(n) didefinisikan sebagai

(2.4)

dimana g(0) = 1 dan g(k) = , k = 1, 2, …, N-1

Inverse DCT didefinisikan sebagai

(2.5)

Dalam situasi praktik DCT dan IDCT tidak dinilai secara langsung

menggunakan persamaan di atas, tetapi melalui fast algorithm (algoritma secara

cepat). Fast algorithm yang dibangun untuk menghitung DCT dalam cara

komputasi yang efisien.

Kebanyakan dari skema pengkodean transform memvariasikan alokasi bit

diantara-koefisien-koefisien-transformasi-yang-berbeda secara adaptif dari frame

ke frame bersamaan dengan penjagaan jumlah total bit yang tetap. Alokasi bit

secara dinamis ini dikendalikan oleh statistik berubah waktu yang harus

dikirimkan yaitu sebagai informasi samping. Informasi samping ini merupakan

sebuah overhead sekitar 2 kbps. Frame dari N buah samples yang


18

ditransformasikan atau invers-transform dikumpulkan dalam buffer di pengirim

dan penerima secara berurutan. Informasi samping juga digunakan untuk

menentukan ukuran langkah dari berbagai macam koefisien kuantisasi. Dalam

sistem praktis, informasi samping yang dikirimkan adalah gambaran kasar dari

spektrum energi-log. Ini biasanya terdiri dari L titik frekuensi, dimana L adalah

dalam range 15-20, yang dihitung dengan merata-ratakan kumpulan dari N/L nilai

terkuadrat yang berdekatan dari koefisien transformasi X(k). Pada penerima,

sebuah N-titik spektrum direkonstruksi dari L-titik spektrum oleh interpolasi

geometris dalam kawasan-log. Jumlah dari bit-bit yang ditetapkan untuk tiap

koefisien transformasi sebanding dengan nilai energi spectral terkaitnya. Gambar

2.4 menunjukkan blok dasar dari suatu transform coding.

Gambar 2.4 Blok dasar dari transform coding

2.6 Source Coders

Source coder adalah kelas dari sistem pengkodean tutur yang

menganalisa/menguraikan isyarat suara di pengirim, mengirimkan parameter-

parameter yang didapatkan dari analisa tersebut, dan kemudian


19

mensintesa/menyatukan isyarat suara di penerima menggunakan parameter

tersebut. Semua sistem source coder mencoba untuk memodelkan proses

pembangkitan tutur sebagai sebuah sistem yang dinamis dan berusaha mengukur

pembatas fisik tertentu dari sistem. Pembatas-pembatas fisik ini digunakan untuk

menyediakan deskripsi yang sangat hemat dari isyarat tutur. Source coder secara

umum jauh lebih kompleks daripada pengkode bentuk-gelombang dan mencapai

keekonomisan yang sangat tinggi dalam pesat bit pengiriman. Namun, source

coder kurang handal, dan kinerjanya cenderung untuk bergantung pada yang

bercakap-cakap.

Jenis source coder yang paling terkenal adalah linier predictive coder

(LPC). Skema source coder lainnya meliputi channel vocoder, formant vocoder,

cepstrum vocoder, dan voice excited vocoder.

2.6.1 Mekanisme Pembangkitan Tutur Manusia

Mekanisme pembangkitan tutur membentuk sumber dan adalah secara

linier terpisah dari intelligence modulating vocal tract filter yang membentuk

sistem. Isyarat tutur diasumsikan menjadi dua jenis: voiced dan unvoiced (bersuara

dan tanpa bersuara). Bunyi voiced (seperti pada pengucapan “m”, ”n”, ”v”) adalah

hasil dari getaran periodis-semu dari vocal chord (nada vokal) dan bunyi unvoiced

(seperti pada pengucapan “f”, “s”, “sh”) adalah bunyi desah yang dihasilkan oleh

pergolakan aliran udara melalui sebuah penyempitan. Parameter yang terkait

dengan model ini adalah voice pitch (pola titi nada, tanggapan terhadap frekuensi


20

fundamental), pole frequencies (frekuensi-frekuensi kutub), dan parameter

amplitude yang bersesuaian.

Pitch dalam musik dan tutur berarti derajat tinggi atau kedalaman sebuah

nada atau suara, bergantung pada kecepatan relatif dari getaran yang mana ia

dihasilkan. Frekuensi pitch untuk kebanyakan pembicara-pembicara adalah di

bawah 300 Hz. Frekunsi-frekuensi kutub sesuai dengan frekuensi resonan dari

vocal tract (saluran di sistem pengucapan) dan seringkali disebut formants dari

isyarat tutur. Untuk pembicara-pembicara adalah orang dewasa, formants terpusat

disekitar 500Hz, 1500Hz, 2500Hz, dan 3500Hz. Melalui pengaturan secara teliti

dari parameter-parameter model pembangkitan tutur, tutur berkualitas baik dapat

disintesa.

Prinsip pembuatan tutur manusia dapat dideskripsikan sebagai berikut:

Tutur dihasilkan oleh kerjasama dari paru-paru, glottis, pita suara dan

sistem pengucapan (mulut dan lubang hidung).

Untuk produksi suara voiced, paru-paru menekan udara melewati epiglotis,

pita suara bergetar, mereka menginterup aliran udara dan menghasilkan

gelombang tekanan periodis- semu.

Impuls tekanan (karena menginterup) umum disebut pitch impulses dan

frekuensi dari isyarat tekanan adalah pitch frequency atau fundamental

frequency. Gambar 2.5 memperlihatkan organ tutur pada manusia.


21

Gambar 2.5 Organ tutur manusia

Di gambar 2.6 urutan impulse khas (fungsi tekanan suara) yang dihasilkan

oleh pita suara untuk suara voiced ditunjukkan. Ini bagian dari isyarat voice

yang menetapkan nyanyian tutur (speech melody).

Gambar 2.6 Urutan impulse khas dari fungsi tekanan suara

Ketika kita berbicara dengan frekuensi pitch tetap, tutur terdengar monoton.

Bagaimana frekuensi pitch berubah dilukiskan dalam gambar 2.7.

Gambar 2.7 Variasi dari Frekuensi Pitch


22

Pitch impulses menstimulasi udara dalam mulut dan untuk bunyi tertentu

(bunyi sengau) juga rongga hidung. Ketika rongga-rongga beresonansi,

mereka meradiasikan gelombang bunyi yang merupakan isyarat tutur. Kedua

(mulut dan hidung) berperan sebagai resonator dengan karakteristik

frekuensi resonans tertentu yang disebut formant frequency. Karena rongga

mulut dapat berubah secara luas, kita mampu mengucapkan sangat banyak

bunyi yang berbeda.

Dalam kasus bunyi unvoiced, eksitasi dari sistem vokal lebih menyerupai

derau. Gambar 2.8 menunjukkan perbedaan bentuk dan posisi dari organ

pengucapan secara jelas untuk bunyi voice (bunyi m) dan unvoiced (bunyi t)

Gambar 2.8 Perbedaan bentuk dan posisi pembuatan bunyi untuk voice dan unvoice

Bunyi voiced cenderung untuk secara kuat bersifat periodis sedangkan bunyi

unvoiced cenderung untuk lebih menyerupai derau. Gambar 2.9

memperlihatkan bentuk gelombang ketika dibangkitkan bunyi voiced dan

unvoiced.


23

Gambar 2.9 Perbedaan bentuk gelombang voiced dan unvoiced

2.6.2 Vocoder

2.6.2.1 Channel Vocoder

Channel vocoder adalah yang pertama diantara sistem analis-sintesis dari

tutur yang dipertunjukkan secara praktis. Channel vocoder adalah vocoder dalam

kawasan frekuensi yang menentukan envelope dari isyarat tutur dari sejumlah pita

frekuensi dan kemudian mencuplik, mengkodekan, dan memultipleks samples ini

dengan keluaran terkode dari filter lainnya. Pencuplikan dilakukan secara sinkron

setiap 10ms sampai 30ms. Bersamaan dengan informasi energi tentang tiap band,

penentuan voiced/unvoiced dan frekuensi pitch untuk tutur voiced adalah juga

dikirimkan. Gambar 2.10 memperlihatkan blok diagram dari suatu channel

vocoder.

Gambar 2.10 Blok diagram dasar dari channel vocoder


24

2.6.2.2 Formant Vocoder

Formant vocoder mempunyai konsep yang sama dengan channel vocoder.

Secara teoritis, formant vocoder dapat beroperasi pada pesat bit yang lebih rendah

daripada channel vocoder karena formant vocoder menggunakan isyarat kendali

yang lebih sedikit. Daripada mengirimkan sampel-samper dari power spectrum

envelope, formant vocoder mencoba untuk mengirimkan posisi puncak (formant)

dari spectral envelope. Secara khas, formant vocoder harus mampu untuk

mengenali sedikitnya tiga formants untuk memisalkan suatu suara tutur, dan ia

juga harus mampu mengendalikan intensitas dari formants tersebut.

Formant vocoder dapat menghasilkan kembali tutur pada pesat bit kurang

dari 1200 bits/s. Namun, karena kesulitan dalam secara akurat memperhitungkan

lokasi dari formants dan peralihan-peralihan formant dari tutur manusia, jenis

vocoder ini tidak terlalu sukses.

2.6.2.3 Cepstrum Vocoder

Cepstrum vocoder memisahkan spektrum eksitasi dan spektrum vocal

tract dengan invers fourier transform dari log magnitude spectrum untuk

menghasilkan cepstrum dari isyarat. Koefisien frekuensi rendah dalam cepstrum

sama dengan vocal tract spectral envelope, dengan koefisien eksitasi frekuensi

tinggi membentuk rentetan pulsa periodis pada perkalian periode pencuplikan. Hal

ini diperlihatkan dalam gambar 2.11.


25

Gambar 2.11 Bentuk isyarat tutur di kawasan cepstrum

Tapis linier dikinerjakan untuk memisahkan vocal tract cepstral

coefficients dari excitation coefficients. Di penerima, vocal tract cepstral

coefficients ditransformasikan Fourier untuk menghasilkan vocal tract impulse

response. Dengan mengkonvolusikan tanggapan impuls ini dengan isyarat eksitasi

hasil sintesis (yaitu derau acak atau rentetan pulsa periodis), tutur asli dapat

dibangun-kembali. Gambar 2.12 memperlihatkan blok diagram dari cepstrum

vocoder.

Gambar 2.12 Blok diagram cepstrum vocoder


26

Bentuk gelombang hasil keluaran dari tiap-tiap blok pada diagram

cepstrum vocoder di gambar 2.12 diperlihatkan dalam gambar 2.13.

Gambar 2.12 Bentuk isyarat saat proses pengkodean pada cepstrum vocoder

2.6.2.4 Voice-excited Vocoder

Voice-excited vocoder membatasi kebutuhan untuk operasi voicing

detection dan pitch extraction. Sistem ini menggunakan kombinasi hybrid dari

pengiriman PCM untuk tutur yang memiliki pita frekuensi rendah,

dikombinasikan dengan channel vocoding untuk tutur yang memiliki pita

frekuensi yang lebih tinggi. Isyarat pitch dibangkitkan pada pensintesa dengan

rectify-ing, bandpass filtering, dan clipping terhadap isyarat bidang dasar

(baseband signal).

Voice excited vocoders telah dirancang untuk operasi pada 7200 bits/s

sampai 9600 bits/s dan kualitasnya secara khas, lebih unggul dibanding hasil yang

diperoleh oleh pitch excited vocoders (vocoders yang hanya mendasarkan pada

parameter pitch di semua komponen frekuensi).


27

2.6.3 Linear Predictive Coders (LPC)

2.6.3.1 LPC Vocoders

Linier predictive coders (LPC) termasuk dalam kelas vocoder kawasan

waktu. Kelas vocoder ini mencoba untuk mengekstrak ciri-ciri yang penting dari

tutur dari bentuk gelombang waktu. Komputasi pada pengkode-pengkode LPC

bersifat intensif. Dengan LPC ini memungkinkan untuk mengirimkan suara

kualitas baik pada 4.8 kbps.

Sistem pengkodean linier predictive memodelkan vocal tracts (saluran

pada sistim pengucapan) sebagai sebuah all pole linear filter dengan transfer

function yaitu

(2.6)

dengan G adalah gain dari filter dan z-1 mewakili operati tunda satuan.

Pengeksitasian terhadap filter ini adalah berupa pulsa pada frekuensi pitch

untuk bunyi voice atau derau putih acak untuk bunyi unvoiced. Koefisien dari

seluruh kutub filter diperoleh dalam kawasan waktu, yaitu menggunakan teknik

prediksi linier. Prinsip prediksi yang digunakan sama dengan di pengkode

ADPCM. Namun, daripada mengirimkan nilai terkuantisasi dari kesalahan isyarat

yang mewakili perbedaan diantara bentuk gelombang prediksi dan bentuk

gelombang yang sebenarnya, sistem LPC hanya mengirimkan ciri-ciri yang dipilih

dari kesalahan isyarat. Parameter-parameternya meliputi faktor penguatan,

informasi pitch, dan informasi keputusan voice/unvoice, yang mengijinkan


28

pendekatan dari isyarat salah secara tepat. Pada penerima, informasi yang diterima

tentang kesalahan isyarat digunakan untuk menentukan eksitasi yang tepat untuk

filter pensintesa, atau berarti isyarat salah berfungsi sebagai pengeksitasi di

pendekode.

Filter pensintesa dirancang pada penerima menggunakan koefisien pem-

prediksi yang diterima. Dalam praktik, kebanyakan pengkode LPC mengirimkan

koefisien filter yang mewakili isyarat salah yang baru saja terjadi dan kemudian

dapat secara langsung disintesis oleh penerima.

Berbagai jenis skema LPC berbeda dalam cara mereka menciptakan

kembali isyarat salah di penerima. Tiga alternatif dari jenis LPC, yaitu:

1. Jenis LPC yang paling terkenal, yang menggunakan dua sumber di

penerima, satu untuk derau putih dan lainnya terkait deretan pulsa-pulsa

pada pesat pitch tertentu. Pemilihan apakah metode eksitasinya didasarkan

keputusan voiced/unvoiced adalah dibuat di pengirim dan dikirimkan ke

penerima bersama dengan informasi lainnya. Teknik ini memerlukan bahwa

pengirim mengekstrak informasi frekuensi pitch yang seringkali sangat sulit.

2. Jenis Multi-pulse excited LPC

3. Jenis Stochastic atau code excited LPC

Dalam kaitannya untuk mengilustrasikan pembuatan tutur oleh LPC, ini

dapat dikaitkan dengan pembuatan tutur oleh manusia. Gambar 2.13

memperlihatkan blok diagram pembuatan tutur oleh manusia (a) dan oleh mesin

secara sederhana dalam hal ini LPC sederhana (b).


29

Gambar 2.13 Proses pembangkitan tutur a) Oleh manusiab) Oleh LPC sederhana

Dalam pembangkitan tutur oleh mesin, paru-paru digantikan oleh sebuah

sumber DC, pita suara oleh pembangkit impuls dan sistem pengucapan oleh

sistem tapis linier. Pembangkit nada menghasilkan eksitasi voiced dan pembangkit

derau menghasilkan eksitasi unvoiced. Dalam praktik, semua bunyi mempunyai

eksitasi campuran, yang berarti bahwa eksitasi terdiri dari porsi voice dan

unvoice. Hubungan dari porsi-porsi ini berubah-ubah secara kuat ketika bunyi

dibangkitkan. Dalam model ini, porsi diatur oleh dua buah potensiometer, tetapi

penyederhanaan lebih lanjut dapat dibuat, sesuai gambar pembangkitan tutur oleh

mesin pembuat tutur tersebut. Sebagai ganti dua buah potensiometer, kita

menggunakan saklar yang hanya memilih diantara voiced and unvoiced

excitation. Filter, mewakili sistem pengucapan, adalah sebuah tapis digital

rekursif sederhana, watak resonansinya (tanggapan frekuensinya) didefinisikan

oleh sekumpulan koefisien-koefisien tapis. Karena penghitungan dari koefisien-


30

koefisien tersebut didasarkan pada tatacara optimisasi secara matematis dari

Linier Prediction Coding, maka koefisien-koefisien tersebut disebut Linear

Prediction Coding Coefficients atau koefisien LPC dan model keseluruhannya

disebut LPC Vocoder. Manfaat yang utama dari LPC Vocoder adalah pesat bit

yang sangat rendah untuk pengiriman tutur (sekitar 3 kbit/s) yang dibandingkan

dengan PCM (64 kbit/s).

2.7 Perbandingan Standar-Standar Telephone-Band-Speech-Coding

Pada tabel 2.2 diperlihatkan standar-standar yang terkenal untuk

pengkodean tutur dalam sistim telekomunikasi dewasa ini.


31

Tabel 2.2 Perbandingan standar-standar pengkodean tutur di beberapa sistim

telekomunikasi

makalah speech coding

Documents