beszédfelismerés és beszédszintézis megoldások jobbminőségű beszédszintézishez

55
Beszed 2014. 04. 03 1 Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez Takács György 2014. 04. 03. Olaszy Gábor és Németh Géza (BME-TMIT) számfelolvas rendszere alapján és a PROFIVOX ismertetésével

Upload: jatin

Post on 19-Jan-2016

39 views

Category:

Documents


6 download

DESCRIPTION

Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez. Olaszy Gábor és Németh Géza (BME-TMIT) számfelolvasó rendszere alapján és a PROFIVOX ismertetésével. Takács György 2014. 04. 03. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 1

Beszédfelismerés és beszédszintézis

Megoldások jobbminőségű beszédszintézishez

Takács György

2014. 04. 03.

Olaszy Gábor és Németh Géza (BME-TMIT) számfelolvasórendszere alapján és a PROFIVOX ismertetésével

Page 2: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 2

Zárthelyi időpontja: április 10. csütörtök 12:15.

Az első 12 előadás anyagából,a laboratóriumi gyakorlatok

tapasztalataiból

Page 3: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 3

Milyen tapasztalatokat hozott az első szintézis gyakorlat?

http://www.infoalap.hu/letoltes/

JAWS for Windows 14.0 képernyőolvasó program magyar nyelvű bemutató változata

Page 4: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 4

Page 5: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 5

Page 6: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 6

Furcsa ritmus

• Ez nem a kivágás-összefűzés szünettel gazdálkodásának technikai hibája!

• Ugyanazt a szót, szótagot, hangkapcsolatot egészen más időtartammal ejtjük, ha önmagában szerepel, mint egy hosszú kifejezés részeként!

• Összetett és finom szabályok szerint tartunk szüneteket a szavak között vagy teljesen egybefüggően ejtjük azokat. Ez függ a szövegkörnyezettől, a hangsúly-szándéktól!

• Igen érzékenyek vagyunk erre a beszéd észlelésekor! Még megértési problémát is okozhat!

Page 7: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 7

Furcsa a hanglejtés/dallam

• Nem elég „kiegyenesíteni” a dallamot. Ettől is csak rossz lesz! Valahogy „másként” éneklő.

• Minden mondathoz, kifejezéshez illik egy dallamvonulat!

• Általában jó egy ereszkedő dallammenet, de a szünetekben -- főként, ha levegőt is veszünk – ismét magasabbról indul a hangmagasság!

• Erre is érzékenyen reagálunk a beszéd érzékelésekor!

Page 8: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 8

Furcsa az intenzitásszerkezet

• Ez is a beszéd sajátos szerkezete és nem technikai hiba. Bizonyos beszédelemek egymás mellé téve azonos hangerő érzetét keltik, míg más kombinációban természetellenesnek tűnnek.

• Nem jó megoldás az sem, ha jelszintben, energiában kiegyenlítjük az összefűzendő elemeket.

• Az intenzitás is csökken egy hosszú mondatban, kifejezésben.

• Erre is érzékenyen reagálunk.

Page 9: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 9

Furcsák a kapcsolódások egyes beszédhangok ejtésminősége

tekintetében is!

• Másként ejtünk egy-egy szóvégi hangot attól függően, hogy milyen hanggal kezdődik a következő szó!

• Erre is érzékenyen reagálunk.

Page 10: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 10

(English) one hundred and twenty five thousand(German) ein hundert fünf und zwanzig tausend(Hungarian) száz huszon öt ezer(Portuguese) cento e vinte cinco mil

Pl: 125000 :

Olaszy Gábor és Németh Géza (BME-TMIT) többnyelvűszámfelolvasó rendszere

Page 11: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 11

A „nyers” építőelemek száma

• Angol : 36 szótár- alapelem

• Magyar: 25 szótár- alapelem

• Német: 35szótár- alapelem

• Portugál: 53 szótár -alapelem

Page 12: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 12

Page 13: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 13

Page 14: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 14

Page 15: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 15

Page 16: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 16

Page 17: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 17

Természetes kiejtéshez biztosítani kell az alábbiakat:1. folyamatos kiejtés, helyes pozíciójú és hosszúságú

szünetekkel2. a számelemek kiejtési helytől függő időszerkezete3. spektrális és intenzitás folytonosság (koartikuláció

figyelembe vétele) az elemhatárokon4. szóhangsúlyok és alapfrekvencia változások

helyessége

Page 18: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 18

Folyamatos kiejtésA megfelelő helyeken, megfelelő hosszúsággal beiktatott szünetekkel, a 2, 3, 4, szempontok szerintkiválasztott elemek folytonos összefűzése (vágás nullátmenetnél negatívból pozitívba)

Page 19: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 19

A számelemek kiejtési helytől függő időszerkezeteKezdő (B, beginning, pl. 1234567), középső (M, middle, 1231567), záró (L, last, 1234561) elem szükséges a többi szempont szerint kiválasztott minden elemből (elvileg). nagyszámú (közel ezer) kimondott szám vizsgálata alapján

Page 20: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 20

Spektrális és intenzitás folytonosság (koartikuláció figyelembe vétele) az elemhatárokonMinden elemre hat az előző és a következő elem

Page 21: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 21

Lehetséges pozíciók: Egyedül áll (6) Felsorolás (12, 2 56.) Első (elemXXX) Belső (XXXelemXXX) Záró (XXXelem)

Page 22: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 22

Az 1 példájaAngolul one.oneXXX után hundred, thousand, million, billion, (pl., 1100)XXXone elott thousand, million, billion, and, twenty, thirty.... ninety (pl., 1100, 101, 21).one elemkészlet:(1) szabály: one felsorolásban vagy egyedül 1, 2, 3oneXXX esetekben(2) szabály: one (one hundred), a (h) módosítja az (n)-et,(3) szabály: one (one thousand) az (n) és a (t) azonos artikulációs bázisú, ezért az (n) rövidebb lesz,(4) szabály: one (one million), az (n) (m)-be megy át,XXXone esetekben(5) szabály one ( thousand one, hundred and one, etc.) zárhang és (v) találkozása,(6) szabály: one (twenty one, etc.) i és (v) találkozása ,XXXoneXXX(5) + (2), (5) + (3), (5) + (4), (6) + (3), (6) + (4)Összesen: 11 (1+3+2 +5) elméleti lehetőség.A hagyományos módszer minden elemére elvégezve a fenti elemzést, a spektrális és intenzitás folytonosság biztosítható.

Page 23: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 23

Németül:(1) szabály: Ein ha a szám 1-nél nagyobb, eine ha egyedül áll (pl., 1, 2, 3), eine pl. eine million éseine DM.(2), (3), és (4) változatlan, mert az einXXX és a oneXXX kategóriái megegyeznekXXXein különbözik(5) szabály: hundert ein, tausend ein, milliard ein , zárhang és magánhangzó találkozása,(6) szabály: million ein, nazális és magánhangzó találkozása.XXXeinXXX(5) + (2), (5) + (3), (5) + (4), (6) + (2), (6) + (3)Összesen: 13 (3+3+2 +5) elméleti lehetőség.

Page 24: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 24

Magyarul egy:(1) szabály: egy egyedül áll (1, 2, 3 stb.),egyXXX(2) szabály: egy millió és egy milliárd)(3) szabály: egy ezer, pl. 31000), zöngés alveolo-palatális zárhang és magánhangzó találkozása,(4) szabály: egy száz pl. 3125000, zöngés alveolo-palatális zárhangot zöngétleníti a száz sz hangja,XXXegy(5) szabály: ....n egy, pl. 51, 61, 71, etc.) a nazális hang módosítja az e-t,(6) szabály: millió egy, pl. 5000001) magánhangzó-magánhangzó kapcsolat.XXXegyXXX(5) + (2), (5) + (3), (6) + (3), (6) + (4)Összesen: 10 (1+3+2 +4) elméleti lehetőség.

Page 25: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 25

A legfontosabb regresszív koartikulációs szabályok

Page 26: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 26

A legfontosabb progresszív koartikulációs szabályok

Page 27: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 27

Page 28: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 28

Page 29: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 29

Page 30: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 30

Szóhangsúlyok és alapfrekvencia változások helyessége

A számok kimondásakor több hangsúly is megjelenik.• AB: kezdo hangsúly• AM: közbenso hangsúly• AL: záró hangsúly, eso intonáció• N: semleges, hangsúlytalan elemek

Page 31: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 31

Szerencsére a helyes időtartamot biztosító elemek (B, M, L) megfelelő tervezés esetén magukbanhordozzák a helyes hangsúlyt is.

•Ha a számelem a mondat végén áll, (pl. Az ön számlájának egyenlege: 53424 forint) eső jellegű intonációja lesz.•Ha a mondat közepén helyezkedik el, (pl. Az ön számláján 53424 forint összegű tranzakció valósul meg.) a számelem intonációja laposabb, lebegőbb).

Page 32: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 32

A számkimondó megvalósításaElőzmény:•az elemi (hagyományos) építőkockák, számelemek meghatározása•a kimondási szabályrendszerek (időtartam, koartikulációs, hangsúly és intonáció) meghatározása

A felolvasandó szöveglista meghatározása• Vivőszöveg kialakítása az építőkockák és a szabályrendszer alapján• Example of determining the list of number elements and the source from where they will be cut out (for English)

Page 33: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 33

Page 34: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 34

A felolvasandó szöveg felvétele• Minden elemet a megfelelő vivőszövegben kell felolvasni. A vivőszöveget célszerű redundánsra tervezni (minden elem legalább kétszer forduljon elő).• Az egyes elemek között kb. 2 sec szünetet célszerű tartani.• Nagyobb egységenként (pl. oldalanként) érdemes hosszabb szünetet tartani.• Az oldal megkezdése előtt az előző oldal végének meghallgatása.• Összpontosítás az egyenletes hangmagasság, hangerő és beszédsebesség biztosításához.

Page 35: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 35

A hangelemek kivágása a felolvasott vivőszövegből• Kivágás előtt a felolvasás helyességét ellenőrizni, hiba esetén a redundáns elem elővétele.• Időbeli (esetleg spektrális) vizsgálat alapján határok megállapítása.• Elemek elmentése az építőelem lista és a szabályrendszernek megfelelő logikus rendben (adatbázis, könyvtárstruktúra, stb.)

Page 36: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 36

Jóminőségű beszédszintézis kritériumai

• Bemenete akármilyen szövegkarakter sorozat (szövegszerkesztő, újság, könyv, e-mail, internetes hír…….)

• A beszéd jól érthető és természetes (tehát bizonyos szinten érti is, amit mond)

• Személyes jellege is van, indulatok, érzelmek elemeit is képes kifejezni

• Platform független• Kiegészíthető más modalitásokkal is pl. a

beszéddel szinkronban mozgó beszélő fejjel

Page 37: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 37

Alapproblémák

• Az írás diszkrét és a szavakat szóközök választják el – a beszéd folyamatos, szünetek csak a prozódiai egységek között vannak. A folyamatosság hibái durván minőségrombolók!

• A betűhibákat másként kezeljük, „átugorja” a szemünk – a kiejtési hibákat „nem ugorja át” a fülünk.

• A puszta szöveggel együtt kapott többletinformáció sok, a helyes és szép kiejtést támogató többletinformáció kevés.

Page 38: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 38

Szövegfelolvasó (text-to-speech) rendszerek általános felépítése

Nyelvifeldolgozó

Akusztikusfeldolgozó

Szöveg

karaktersorozatHangkarakterek,Prozódiai jelek (tempó, ritmus, dallam, szünet, hangsúly)

Beszédjel HangkimenetBeszélő fejképkimenet

Személy jellemzők Érzelmi jellemzők

Page 39: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 39

Nyelvi feldolgozó feladatai

• Írásjel-betű átalakítás, pont, zárójel, idézőjel, számok stb. kezelése

• Idegen és speciálisan ejtendő szavak elkülönítése (szabály vagy kivétel -- döntés szótár alapján)

• Morfológiai elemzés• Prozódiai jellemzők meghatározása (mondat,

kifejezés, szó szinten)• Hangkarakter sorozat előállítás• Fonetikai szabályok alkalmazása (rövidülés,

hasonulás, összeolvadás, kiesés….)

Page 40: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 40

Akusztikus feldolgozó feladatai• Az artikulációs modell működtetése a

hangkarakterek és kiegészítő információk alapján

• Kritikus a hangátmenetek kezelése.• Kritikus a prozódiai jellemzők és hangelemek

finom összehangolása• Megvalósítható tárolt felvétel elemek

összefűzésével vagy a hangképző szervek működését leíró modell segítségével.

Page 41: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 41

A nyelvi és akusztikus feldolgozók megvalósításai

• Lehetnek racionális szabálygyűjtemény alapján működők. A szabályok lehetnek pl. „Ha -………, akkor” típusúak -kivételgyűjteménnyel.

• Lehetnek nagyszámú példát felsorolók, s ebből empirikus módszerekkel dolgozók.

Page 42: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 42

egy gerjesztett szűrőrendszer kimeneteként · állítja elő a beszédjelet

Page 43: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 43

http://www.speech.kth.se/wavesurfer/formant/

Page 44: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 44

Page 45: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 45

Page 46: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 46

Page 47: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 47

Akusztikus feldolgozó példa diádos felvételekből összefűzés

legyenek az adott hangsorozat hangkódjai: 1,5,11,13.

Diád: elemhatár – hanghatár – elemhatárStabil szakasztól stabil szakaszig

Page 48: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 48

Diádos megoldás problémái

• Diádok elvi száma az elemkészlet négyzete • Gyakorlati számuk 1500-2000• Ha diádok hullámformáját tároljuk, akkor nehéz a

prozódiai elemek ráültetése• Ha forráskódolással tárolt elemeket tárolunk

(LPC, PARCOR, formáns), akkor könnyebb az interpoláció, a prozódiai elemek, a személyes elemek, az érzelmi elemek alakítása, de műveletigényes a folyamat.

• Nem elég finom a diád, triád még jobb lenne, de számuk >10.000 Tárolni nehéz? Nem – felvenni!

Page 49: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 49

Prozódiai elemek ráültetése hullámformaként tárolt diádokra

• PSOLA módszer (Pitch Synchronous Overlap Add)

• Első lépésben a zöngehelyek (pitch mark) kijelölése

• Második lépés a periódusok fázisviszonyainak átállítása koszinuszos összetevőkre – ez egy nem hallható manipuláció

• Harmadik lépésben a periódusok összébb tolhatók vagy széthúzhatók a dallamterv szerint.

• Az időtartamok periódusok ismétlésével vagy kihagyásával módosíthatók

Page 50: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 50

Page 51: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 51

Interpolációhoz és prozódiai elemek ráültetéséhez használható újabb módszer – neurális hálózatok

Page 52: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 52

Harmonics and Noise Modelling (HNM) is a sinusoidal modelling technique for sound signal generation that has seen increasing use in speech and music in recent years. This spectral manipulation technique can replace time-domain concatenative synthesis (e.g., Psola, Mbrola) with good preservation of speaker voice qualities.Further, diphone unit concatenation is improved by spectraladjustments performed in the harmonic space. We haveimplemented an initial version of a pitch-synchronous HNMalgorithm this summer. Currently, this algorithm permits only f0 and time manipulation, but we are in the process of implementing spectral shaping for unit concatenation. Over the longer term, we shall experiment with other generational parameters, such as theopen quotient to simulate variations in speech quality.

Page 53: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 53

HNM Systems' BasicsThe basic idea behind Harmonics + Noise Modelling(HNM) is simple……Separate regular from irregular signal activity by aprocess of modelling harmonic components andsubtracting noise components.…Perform signal modification (e.g., for pitch andduration) in harmonic components.…Add noise component to modified harmoniccomponent.

Page 54: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 54

Spontaneous and Read Speech 2/10• Results:

Figure 1: Left: read-aloud, Right: spontaneous

> The mean f0 was higher in read-aloud (136 Hz) than spontaneous speech (107 Hz).

> Slopes were significantly steeper in the read-aloud version.

> Duration was shorter for read-aloud speech.

Page 55: Beszédfelismerés és beszédszintézis Megoldások jobbminőségű beszédszintézishez

Beszed 2014. 04. 03 55

A legjobb beszédszintetizátorok:

http://www.research.att.com/~ttsweb/tts/demo.php

http://www.cs.nyu.edu/~mohri/postscript/usel.pdf