beszéd alapfrekvencia meghatározása - pitch detektor algoritmusok -

Post on 20-Jan-2016

30 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -. Beszédfelismerés és szintézis - előadás - 2007. március 8. Bárdi Tamás. Pázmány Péter Katolikus Egyetem, Információs Technológia Kar. Mi az alapfrekvencia ?. - PowerPoint PPT Presentation

TRANSCRIPT

Beszéd alapfrekvencia meghatározása

- Pitch detektor algoritmusok -

Pázmány Péter Katolikus Egyetem, Információs Technológia Kar

Beszédfelismerés és szintézis- előadás -

2007. március 8.

Bárdi Tamás

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Mi az alapfrekvencia ?

Alapfrekvencia: a hangszalagok pillanatnyi rezgésszámaSzokásos jelölése: F0

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyGerjesztés típusok a

beszédben

Alapfrekvenciát csak akkor értelmezünk,ha zöngés (kváziperiodikus) gerjesztés jelen van a beszédben.

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Pitch is…..

“…..that attribute of auditory sensation in terms of which sounds may be ordered on a musical scale”(American Standards Association, 1960; cited in Moore, 1997)

What is the definition of pitch?

Vagyis: - a pitch (hangmagasság) érzeti mennyiség - az alapfrekvencia (F0) fizikai mennyiség

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Time Frequency

Tones that have the same repetition rate tend to have the same pitch:

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyMiért érdekes az

alapfrekvencia?

A hangmagasság változásai a beszédben nyelvi, érzelmi, hangulati, stb. jelentést hordoznak.Illusztráció: egy rövid beszédfelvétel a pitch kontúrjával.

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Pitch kontúr előállítása

Fő részfeladatok: - F0 becslése,- zöngésség megállapítása

PDA – Pitch Detector Algorithm:Olyan algoritmus, amely a beszédjelből a fenti értelemben vett pitch kontúrt képes előállítani.

VDA – Voicing Detection Algorithm:A PDA-nak az a része, amely a zöngés/zöngétlen szakaszok megkülönböztetéséért felelős

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Pitch detektorok alkalmazásai

Low-bitrate speech coding: pitch adaptive (pl. GSM)

Speech Synthesis: processing unit inventories

Linguistic analysis, prosody processing

Music: auto-scoring, editing, midi conversion …

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyHogyan áll össze egy pitch

kontúr

Haladunk ablakról ablakra:- mindegyikre adunk egy alapfrekvencia becslést- tipikus hossz: 20 – 40 ms- tipikus lépésköz: 10 ms- általában átfedik egymást

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Algoritmusok: ACF

2/

2/

2

2/

2/

)(

)(*)()( wt

wti

wt

wtit

is

isisr

Auto Correlation Function (autokorreláció függvény):

s(t) – a beszédjel;w – az elemzett ablak hossza

csúcsa. legjobb"" )( az ahol / **0 trfsF

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Csúcs kiválasztás ACF-en

Az elemzett beszédablak: Csúcskeresés az ACF-en:

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Detekciós hiba lehetőségek Nagy hibák: oktáv vagy még nagyobb tévesztés az

alapfrekvenciában.Jellemzően a gyorsan halkuló vagy hangosodó szakaszokon fordul elő, leginkább szó elején vagy végén.

Kis hibák: apróbb pontatlanságok az alapfrekvenciában.Jellemzően a vegyes gerjesztésű hangoknál fordul elő (zöngés mássalhangzók)

Zöngés-zöngétlen tévesztés: jellemzően ez is a vegyes gerjesztésű hangoknál.

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Examples for ACF

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Algoritmusok: ASDF

2/

2/

2

2/

2/

2

)(*2

)]()([)( wt

wti

wt

wtit

is

isisd

Average Squared Difference Function:

s(t) – a beszédjel;w – az elemzett ablak hossza

.mélypontja legjobb"" )( az ahol / **0 tdfsF

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Examples for ASDF

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Algoritmusok: AMDF

w

isisd

wt

wtit

2/

2/

)()()(

Average Magnitude Difference Function:

s(t) – a beszédjel;w – az elemzett ablak hossza

.mélypontja legjobb"" )( az ahol / **0 tdfsF

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Algoritmusok: Cepstrum Homomorph analysis:

CEPSTRUM(x) = IFFT(LOG(|FFT(x)|))

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Algoritmusok: LPC

3500 3550 3600 3650 3700 3750 3800 3850-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

Time (samples)

Am

plitu

de

Speech signal and its LPC error signal

speech LPC error

Csúcsokat keresünk az LPC hibajelben:- ezt pitch-mark kijelölésnek is hívják

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

F0 contour with ACF methodApplying ACF directly on speech signal:

Preproc.

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

A beszédjel célszerű torzításával csökkenthetjük a hibák arányát

My preprocessor is a combination oflow-pass filtering and center clipping.

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

A Preprocesszor (1):

Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

A Preprocesszor (2):

A szűrt jel és a középre vágási szint (center clip level)- a burkoló 40%-a:

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

A Preprocesszor (3):

Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

A Preprocesszor (4):

Hangzó illusztráció (s, sz, c eltűnik):

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

F0 contour with ACF methodApplying ACF after preprocessing the speech signal:

Original

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Egy összetett Pitch Detektor struktúrája

Preprocesszor

Basic Extractor- ACF számítása és elemzése -

F0 becslés

Bemenő beszédjel Meghallgatható:

Ablakozás

V/UV döntés

Pitch kontúr

*

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

A kiértékelés adatbázisa

Pitch detektor algoritmusok kiértékelésére olyan beszéd adatbázisokat lehet használni, melyekben a zöngés-zöngétlen szakaszok ill. az alapfrekvencia értékek címkézve vannak. A címkézés automatikussá vagy fél-automatikussá tehető laryngográf jel felvételével.

Database 2: FDA Evaluation Database

Paul Bagshow & al. Centre for Speech Technology Research, University of Edinburgh

Database 1: Keele Pitch Database Georg Meyer Keele University

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyBeszédfelvétel és

laryngográf jel

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Zöngés-zöngétlen átmenet

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Zöngés-zöngétlen átmenet

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyOptimization on the

database

0 0.5 1 1.5 2 2.5

0

0.2

0.4

0.6

0.8

1

Distribution of ACF parameter

unvoicedvoiced error

Error min: 7.02%

Expected decision error rate in terms of the threshold:

0 0.5 1 1.5 2 2.5

0

0.2

0.4

0.6

0.8

1

Distribution of ACF parameter

unvoicedvoiced error

Error min: 3.15%

Without preprocessor After preprocessor

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Zöngés/zöngétlen megkülönböztetés:

A basic extractor-ban kiválasztott csúcs nagysága és a beszédablak energiája szolgál döntési paraméterként.Mindkettőt egy-egy küszöbbel hasonlítjuk össze.

A tévesztési arány keresztkiértékeléssel: 2.1%

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Összehasonlítás:

Bagshaw (1993):

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Rekedt beszédhang pitch kontúrja:

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Hangmagasság módosításaPitch-Synchronous Overlap-Add (PSOLA) on LPC residual

80%

eredeti

167%

125%

200%

Köszönöm a figyelmet

top related