pyž, gražina „lietuviškų fonemų dinaminių modelių analizė ir sintezė“
DESCRIPTION
Pranešimas XVI kompiuterininkų konferencijos sekcijoje „Lietuvių kalba kompiuterinėse technologijose“, „Kompiuterininkų dienos – 2013“, Šiauliai 2013-09-21TRANSCRIPT
![Page 1: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/1.jpg)
Lietuviškų fonemų dinaminių modelių analizė ir sintezė
Kompiuterininkų dienos 2013, Šiauliai
Gražina Pyž1
Virginija Šimonytė2
Vytautas Slivinskas2
1 VU Matematikos ir informatikos institutas
2 Lietuvos edukologijos universitetas
![Page 2: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/2.jpg)
Tyrimų sritis
Kalbos sintezės metodai:
• Konkatenacinė sintezė • Formantinė sintezė
Konkatenacinė sintezė remiasi į duomenų bazę įrašytais natūralios kalbos segmentais, kurie sintezės metu yra jungiami į žodžius.
Formantinėje sintezėje šnekos išėjimas yra sukuriamas naudojant adityvią sintezę ir akustinį modelį.
2
![Page 3: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/3.jpg)
Aktualios problemos
Garsai, sintezuoti formantinės sintezės metodu, skamba
nenatūraliai (panašiai kaip roboto šneka). Siekiant
sumažinti sintetinį skambėjimą, būtina kurti naujus kalbos
garsų matematinius modelius, kurie gali būti naudojami
kaip sintezatoriaus bazė.
3
![Page 4: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/4.jpg)
4
Darbo tyrimo objektas
Darbo tyrimo objektas yra dinaminiai lietuviškos
šnekos balsių ir pusbalsių fonemų modeliai.
![Page 5: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/5.jpg)
Tyrimo metodika
• Skaitmeninis signalų apdorojimas,
• sistemų teorija,
• optimizavimo metodai,
• matricų teorija,
• matematinė statistika,
• programavimas Matlab aplinkoje,
• programavimas C # kalba.
5
![Page 6: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/6.jpg)
Praktinė darbo reikšmė
Pasiūlyti balsių ir pusbalsių fonemų dinaminiai modeliai gali
būti panaudoti kuriant formantinį kalbos sintezatorių.
Fonemų modeliai taip pat gali būti pritaikyti kitoms
problemoms spręsti, pavyzdžiui, gydant kalbos sutrikimus,
mokantis užsienio kalbų ar taisyklingo žodžių tarimo.
6
![Page 7: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/7.jpg)
7
Lietuvių kalbos fonemos
![Page 8: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/8.jpg)
Balsių fonemos• Trumpas nekirčiuotas balsis (mama)
• Trumpas kirčiuotas balsis (lazda)
• Ilgas nekirčiuotas balsis (drąsa)
• Ilgas balsis kirčiuotas dešininiu kirčio ženklu (kardas)
• Ilgas balsis kirčiuotas riestiniu kirčio ženklu (ačiū)
8
![Page 9: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/9.jpg)
Balsių fonemų pagrindinio tono kitimo tendencijos
9
"a" "e" "ė" "i" "o" "u"150
170
190
210
230
250
270
Trumpas nekirčiuotas balsis Trumpas kirčiuotas balsis
Ilgas nekirčiuotas balsis Ilgas balsis kirčiuotas dešininiu kirčio ženklu
Ilgas balsis kirčiuotas riestiniu kirčio ženklu
Pag
rind
inis
ton
as [
Hz]
![Page 10: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/10.jpg)
Pusbalsių fonemos• Nekirčiuotas pusbalsis (valsas)
• Kirčiuotas pusbalsis (vil 0kas)
• Minkštas nekirčiuotas pusbalsis (valia)
• Minkštas kirčiuotas pusbalsis (gul 0ti)
10
![Page 11: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/11.jpg)
11
Pusbalsių fonemų pagrindinio tono kitimo tendencijos
"j" "l" "m" "n" "r" "v"150
170
190
210
Nekirčiuotas pusbalsis Kirčiuotas pusbalsis
Minkštas nekirčiuotas pusbalsis Minkštas kirčiuotas pusbalsis
Pag
rind
inis
ton
as [
Hz]
![Page 12: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/12.jpg)
Balsiai ir pusbalsiai – periodiniai signalai
B a l s i s /a/
P u s b a l s i s /m/
12
![Page 13: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/13.jpg)
Siūlomi sintezės metodai
• Harmoninis
Fonemos signalas išskaidomas į harmonikas
• Formantinis
Fonemos signalas išskaidomas į formantes
13
![Page 14: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/14.jpg)
14
Fonemos signalo padalinimas į harmonikas
Tuo tikslu skaičiuojama signalo Furjė transformacija ir signalas dalinamas į dažnių juostas:
![Page 15: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/15.jpg)
Amplitudinės dažnuminės charakteristikos
padalinimas į dažnių juostas (1)
15
Am
plitu
dė [
vnt.]
Dažnis [Hz]
15
![Page 16: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/16.jpg)
16
16
![Page 17: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/17.jpg)
Amplitudinės dažnuminės charakteristikos
padalinimas į dažnių juostas (2)
17
Am
plitu
dė [
vnt.]
Dažnis [Hz]
17
![Page 18: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/18.jpg)
Pirmosios trys fonemos /a:˜/ harmonikos
18
18
![Page 19: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/19.jpg)
19
Fonemos signalo padalinimas į formantes
Formantės – spektro gaubtinės maksimumai
Am
plitu
dė [
dB]
Dažnis [Hz]
![Page 20: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/20.jpg)
Pirmosios trys fonemos /a:˜/ formantės
20
20
![Page 21: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/21.jpg)
Fonemos signalo modelio diagrama
21
t) – k-ojo kanalo impulsinė charakteristika
t) – k-ojo kanalo įėjimų seka
k = 1, ..., K; čia K – kanalų skaičius
![Page 22: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/22.jpg)
Impulsinės charakteristikos modelis
22
![Page 23: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/23.jpg)
Signalo išskaidymas į bazinių signalų matricą ir koeficientų vektorių (1)
23
Vektorius gali būti išreikštas kaip matricos ir vektoriaus sandauga:
TN Nyyyy )1(,),2(),1(),0( y fonemos signalo atskaitos
Ny Ψ α
αΨy )(N
Tkkkkkkkkkkkkk AAAAAA )cos(),sin(),cos(),sin(),cos(),sin( 333322221111 α
čiaTT
KTT ][ 21 αααα
)(Ψ bazinių signalų matrica
KK ,,,, 11 θ
....,,1,
,
,
,
,2
233
22
11
KktaA
taA
aA
t
tf
kk
kk
kk
kk
kk
koeficientų vektorius
![Page 24: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/24.jpg)
24
TM Myyyy )1(,),2(),1(),0( y vieno fonemos periodo atskaitos
eαθΦy )(M
𝚽=𝚿 (1:𝑀 , :)+𝚿 (𝑀+1: 2𝑀 ,: )+𝚿 (2𝑀+1 :3𝑀 ,: )
Prielaida: impulsinė charakteristika užgęsta po trijų periodų
Signalo išskaidymas į bazinių signalų matricą ir koeficientų vektorių (2)
![Page 25: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/25.jpg)
Charakteringojo periodo išrinkimas (1)
25
Periodas, kurio amplitudė didžiausia, laikomas charakteringuoju periodu
![Page 26: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/26.jpg)
26
Charakteringojo periodo išrinkimas (2)
Laikas [s]
Am
plitu
dė [
vnt.]
![Page 27: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/27.jpg)
Impulsinės charakteristikos parametrų įvertinimas
27
Ieškome tokio parametrų vektoriaus įverčio , kuris minimizuotų funkcionalą
27
,2
2MyPr θΦθ
.1 ΦΦΦΦΦΦθΦ MM ΙP
čia yra ortogonalus projektorius į matricos stulpelių erdvės ortogonalų papildinį
![Page 28: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/28.jpg)
Levenbergo-Markvarto metodas (Levenberg, 1944; Marquardt, 1963)
28
,1,0,1
2
1 lc llT
Kl
llTll θbθVIθVθVθθ
,θ
D
.yPθb θΦ,001.0lc
,
,yPθV θΦ
D
Iteracinė parametrų įvertinimo lygtis:
čia
T)( BΦPBΦPP θΦθΦθΦ DDD
G. Golub, V. Pereyra parodė, kad:
čia B yra matricos apibendrinta atvirkštinė matrica
![Page 29: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/29.jpg)
29
Impulsinių charakteristikų parametrų įvertinimo algoritmas
29
![Page 30: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/30.jpg)
Vieno-įėjimo ir vieno-išėjimo sistema su vienetinių impulsų įėjimais
Jei į sistemos įėjimą paduosime vienetinius impulsus
vienodais laiko tarpais, išėjime gausime signalą su
identiškais periodais
30
![Page 31: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/31.jpg)
Fonemos signalo modelio diagrama
31
t) – k-ojo kanalo impulsinėcharakteristika
t) – k-ojo kanalo įėjimų seka
k=1, ..., K, čia K – kanalų skaičius
![Page 32: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/32.jpg)
1) Fonemos signalas dalinamas į periodus ir užfiksuojami padalinimo taškai
2) Fonemos signalo komponentės dalinamos į periodus
3) Perioduose surandami lokalūs maksimumo taškai
32
Sistemos įėjimų parinkimas
Laikas [s]
Am
plitu
dė [
vnt.]
![Page 33: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/33.jpg)
Pirmų trijų fonemos /a:˜/ MISO sistemos kanalų įėjimai
33
![Page 34: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/34.jpg)
Bendra įėjimų kreivė
34
Laikas [s]
Am
plitu
dė [
vnt.]
– maksimali įėjimo reikšmė, – maksimalios reikšmės laiko momentas, – fonemos ilgis
![Page 35: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/35.jpg)
Eksperimentiniai tyrimai
Eksperimentuose naudojamos realių garsų atskaitos
Garso formato parametrai: PCM 48 kHz, 16 bitų; stereo
35
![Page 36: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/36.jpg)
Balsių ir pusbalsių modeliavimas harmoniniu ir formantiniu metodais
28 balsių fonemos
36
19 pusbalsių fonemų
![Page 37: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/37.jpg)
Fonemos /a/ tikro ir modelinio signalų spektrai
37
![Page 38: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/38.jpg)
Balsių modeliavimo tikslumas
38
Harmoninis metodas
Formantinis metodas
![Page 39: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/39.jpg)
Pusbalsių modeliavimo tikslumas
39
Harmoninis metodas
Formantinis metodas
![Page 40: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/40.jpg)
40
Rezultatai ir išvados1. Lietuvių kalboje yra devyniasdešimt dvi fonemos. Dvidešimt
aštuonios iš jų yra balsių fonemos, devyniolika – pusbalsių fonemos. Balsiai ir pusbalsiai yra periodiniai signalai.
2. Nekirčiuotų balsių ir pusbalsių fonemų pagrindiniai tonai yra didesni už tų pačių kirčiuotų balsių ir pusbalsių fonemų pagrindinius tonus.
3. Harmoninis metodas naudoja aukštesnės eilės modelius su didesniu parametrų skaičiumi palyginus su formantiniu metodu, tačiau garsai sintezuoti harmoniniu metodu skamba natūraliau. Visų vyriškų ir moteriškų balsių signalų spektrų vidutinių kvadratinių paklaidų vidurkis yra lygus 13.9 % formantinio metodo atveju ir 12.4 % harmoninio metodo atveju. Visų vyriškų ir moteriškų pusbalsių signalų spektrų vidutinių kvadratinių paklaidų vidurkis yra lygus 19.9 % formantinio metodo atveju ir 16.7 % harmoninio metodo atveju.
![Page 41: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“](https://reader036.vdocuments.net/reader036/viewer/2022070321/558b6e20d8b42a8a408b45e9/html5/thumbnails/41.jpg)
Ačiū už dėmesį