relative spectral (rasta) processing of speech · methode rasta – erweitert lin-log rasta...

34
Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung RelAtive SpecTrAl (RASTA) Processing of Speech Paul Glad Mihai 23.11.06 P.G. Mihai Carl von Ossietzky Universität Oldenburg RASTA Speech Processing

Upload: trantruc

Post on 12-Aug-2019

224 views

Category:

Documents


0 download

TRANSCRIPT

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

RelAtive SpecTrAl (RASTA) Processing ofSpeech

Paul Glad Mihai

23.11.06

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

GliederungEinleitung

Wieso RASTA?

RASTA – erläutertProblemeModulationsspektrum von SpracheMethode

RASTA – erweitertLin-Log RastaData-driven design of RASTA-like filtersZeitliche Maskierung und RASTA

Matlab Demo

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Einleitung zu RASTA

GliederungEinleitung

Wieso RASTA?

RASTA – erläutertProblemeModulationsspektrum von SpracheMethode

RASTA – erweitertLin-Log RastaData-driven design of RASTA-like filtersZeitliche Maskierung und RASTA

Matlab Demo

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Einleitung zu RASTA

RASTA: Verbesserung der Spracherkennung

I Ursprünglich: Methode für das Behandeln von langsam-oder schnell-schwankenden, nichtlinguistischenKomponenten im Sprachsignal

I Signal enthält Information von verschiedenen Quellen:I Sprecher, Aufnahmebedingungen, Übertragungskanal

I Interessant: was wird gesprochen oder wer es gesprochenhat

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Einleitung zu RASTA

RASTA: Verbesserung der Spracherkennung

I Ursprünglich: Methode für das Behandeln von langsam-oder schnell-schwankenden, nichtlinguistischenKomponenten im Sprachsignal

I Signal enthält Information von verschiedenen Quellen:I Sprecher, Aufnahmebedingungen, Übertragungskanal

I Interessant: was wird gesprochen oder wer es gesprochenhat

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Einleitung zu RASTA

RASTA: Verbesserung der Spracherkennung

I Ursprünglich: Methode für das Behandeln von langsam-oder schnell-schwankenden, nichtlinguistischenKomponenten im Sprachsignal

I Signal enthält Information von verschiedenen Quellen:I Sprecher, Aufnahmebedingungen, Übertragungskanal

I Interessant: was wird gesprochen oder wer es gesprochenhat

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

RASTA

GliederungEinleitung

Wieso RASTA?

RASTA – erläutertProblemeModulationsspektrum von SpracheMethode

RASTA – erweitertLin-Log RastaData-driven design of RASTA-like filtersZeitliche Maskierung und RASTA

Matlab Demo

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

RASTA

Sprachsignal enthält nicht nur Sprache

I Meisten SE-Methoden können zwischen dem Sprecherund Hintergrundgeräuschen, konkurrierenden Sprechernund Kanälen nicht unterscheiden

I Verzerrungen von Kommunikationskanälen undAufnahmemitteln→ langsame Schwankung verglichen mitSprachdynamik

I Hintergrundgeräusche (Clicks, Knackgeräusche)→schnelle Schwankung verglichen mit Sprachdynamik

I Abstellen von spektralen Komponenten die schneller oderlangsamer als das gewnünschte Sprachsignal schwanken,verbessert die Sprachanalyse

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

RASTA

Sprachsignal enthält nicht nur Sprache

I Meisten SE-Methoden können zwischen dem Sprecherund Hintergrundgeräuschen, konkurrierenden Sprechernund Kanälen nicht unterscheiden

I Verzerrungen von Kommunikationskanälen undAufnahmemitteln→ langsame Schwankung verglichen mitSprachdynamik

I Hintergrundgeräusche (Clicks, Knackgeräusche)→schnelle Schwankung verglichen mit Sprachdynamik

I Abstellen von spektralen Komponenten die schneller oderlangsamer als das gewnünschte Sprachsignal schwanken,verbessert die Sprachanalyse

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

RASTA

Sprachsignal enthält nicht nur Sprache

I Meisten SE-Methoden können zwischen dem Sprecherund Hintergrundgeräuschen, konkurrierenden Sprechernund Kanälen nicht unterscheiden

I Verzerrungen von Kommunikationskanälen undAufnahmemitteln→ langsame Schwankung verglichen mitSprachdynamik

I Hintergrundgeräusche (Clicks, Knackgeräusche)→schnelle Schwankung verglichen mit Sprachdynamik

I Abstellen von spektralen Komponenten die schneller oderlangsamer als das gewnünschte Sprachsignal schwanken,verbessert die Sprachanalyse

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

RASTA

Sprachsignal enthält nicht nur Sprache

I Meisten SE-Methoden können zwischen dem Sprecherund Hintergrundgeräuschen, konkurrierenden Sprechernund Kanälen nicht unterscheiden

I Verzerrungen von Kommunikationskanälen undAufnahmemitteln→ langsame Schwankung verglichen mitSprachdynamik

I Hintergrundgeräusche (Clicks, Knackgeräusche)→schnelle Schwankung verglichen mit Sprachdynamik

I Abstellen von spektralen Komponenten die schneller oderlangsamer als das gewnünschte Sprachsignal schwanken,verbessert die Sprachanalyse

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Modulationsspektrum von Sprache

GliederungEinleitung

Wieso RASTA?

RASTA – erläutertProblemeModulationsspektrum von SpracheMethode

RASTA – erweitertLin-Log RastaData-driven design of RASTA-like filtersZeitliche Maskierung und RASTA

Matlab Demo

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Modulationsspektrum von Sprache

Modulationsspektrum von Sprache

I Hauptträger von sprachlicher Information sind Änderungenin der Form des Vokaltrakts

I Spiegeln sich in Änderungen der spektralen Einhüllendendes Sprachsignals wider

Spektrale Analyse des zeitlichen Ablaufs der spektralenEinhüllenden der Sprache ergibt das Modulationsspektrum derSprache.

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Modulationsspektrum von Sprache

Modulationsspektrum von Sprache

I Hauptsächlich Komponenten zwischen 2 Hz und 8 Hz→silbenbildende, phonetische zeitliche Struktur von Sprache

I Menschliches Gehör sehr empfindlich beiModulationsfrequenzen von 4 Hz

I Gehör verhält sich wie ein Bandpassfilter mitImpulsantwort von 150-250 ms

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Modulationsspektrum von Sprache

Modulationsspektrum von Sprache

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Modulationsspektrum von Sprache

Modulationsspektrum von SpracheI 2-8 Hz des Modulationsspektrums sind am wichtigstenI Komponenten von 0-1 Hz und > 16 Hz können vermieden

werdenI RASTA benutzt ungefähr Abschnitte eines Signals die der

Länge einer Silbe entsprechen (∼ 200 ms)I RASTA filtert die obigen Frequenzen raus

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Methode

GliederungEinleitung

Wieso RASTA?

RASTA – erläutertProblemeModulationsspektrum von SpracheMethode

RASTA – erweitertLin-Log RastaData-driven design of RASTA-like filtersZeitliche Maskierung und RASTA

Matlab Demo

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Methode

RASTA-PLP

I Berechnen von CB LeistungsspektrumI Komprimierung (logarithmische

Amplitudentransformation)I Filterung durch RASTA-FilterI Expansion (exponentielle Transformation)I Multiplikation mit der ‘Equal-Loudness’

KurveI Power-law of hearingI ...

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Methode

Erster RASTA-Filter

H(z) = 0.1z4 2 + z−1 − z−3 − 2z−4

1− 0.98z−1

I Tiefe Abschneide-Frequenz bei 0.26 HzI Steigung fällt mit 6 dB/oct von 12.8 Hz abI Nullen bei 28.9 und 50 HzI Lange Integrationskonstante von etwa 500 ms

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Methode

Experimente und Ergebnisse

I Zahlen-Erkennung mit ‘isolated-utterancecontinuous-density HMM’ Erkenner

I Erster Test: die selben BedingungenI Zweiter Test: korruption mit simulierten

‘convolutional-noise’I Dritter Test: wirklichkeitsnahe Änderung im Kanal

Methode selben Bed. kontrollierte Mod. w.n. ÄnderungPLP 4, 08% 31, 35% 31, 10%

RASTA-PLP 3, 81% 5, 0% 7, 64%

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Methode

Optimierung des RASTA-Filters

M(z) = z4(0.2 + 0.1z−1 − 0.1z−3 − 0.2z−4),

mit Polstelle bei z = 0.94

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Erweiterungen

GliederungEinleitung

Wieso RASTA?

RASTA – erläutertProblemeModulationsspektrum von SpracheMethode

RASTA – erweitertLin-Log RastaData-driven design of RASTA-like filtersZeitliche Maskierung und RASTA

Matlab Demo

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Erweiterungen

Lin-Log RASTA

I RASTA im cepstrum (logarithmische Spektrum) nichtgeeignet für Sprache mit bedeutendem additivemRauschen

I Alternativer, spektraler Bereich:I quasi-linear für kleine spektrale WerteI quasi-logarithmisch für grosse spektrale Werte

y = ln(1 + Jx)

I Konstante J > 0 und hängt vom Signal abI quasi-linear für J � 1 und quasi-logarithmisch für J � 1

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Erweiterungen

Lin-Log RASTA

I Mit der exakten Umkehrfunktion:

x =ey − 1

J

I Keine Garantie dass x > 0 ∀ yI Zusätzliche Prozedur eigens zu diesem ZweckI Vermeiden durch eine Approximation:

x =ey

J

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Erweiterungen

Experimente und Ergebnisse

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Data-driven design of RASTA-like filters

GliederungEinleitung

Wieso RASTA?

RASTA – erläutertProblemeModulationsspektrum von SpracheMethode

RASTA – erweitertLin-Log RastaData-driven design of RASTA-like filtersZeitliche Maskierung und RASTA

Matlab Demo

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Data-driven design of RASTA-like filters

Data-driven design of RASTA-like filters

I Optimierung durch ASE-Experimente teuer, meistensspezifisch für ein System

I Data-driven design of RASTA filters: Linear discriminantanalysis (LDA)/Diskriminanzanalyse

I LDA: ist eine Methode der multivariaten Verfahren in derStatistik, ein Klassifikationsverfahren

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Data-driven design of RASTA-like filters

LDAI Lange Abschnitte (∼ 1 s) des

temporalen Ablaufes→phonetische Klassen

I Vergleich→ Matrix mitdiskriminanten Eigenvektoreneingesetzt

I Bilden eine Reihe vonFIR-Filtern, jeder Filter bieteteine Ansicht von dem 1sSignal an

I Eigenwerte sterben schnell ab→ erste Paar FIR-Filterndominieren den Prozess

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Data-driven design of RASTA-like filters

Data-driven design of RASTA-like filtersI RASTA-ähnlich mit grösserer

Unterdrückung von tiefen undhohen Freqeuenzen

I 1. Vektor ist Differenzzwischen 2 Gaussglocken(90% Varianz)

I 2. Vektor (10%) ersteAbleitung, 3. Vektor (< 10%)zweite Ableitung

I Alle 3 Filter unterdrückenlangsam- undschnell-schwankendeKomponente

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Zeitliche Maskierung und RASTA

GliederungEinleitung

Wieso RASTA?

RASTA – erläutertProblemeModulationsspektrum von SpracheMethode

RASTA – erweitertLin-Log RastaData-driven design of RASTA-like filtersZeitliche Maskierung und RASTA

Matlab Demo

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Zeitliche Maskierung und RASTA

Zeitliche Maskierung und RASTA

I Wenn schwacher Ton direkt einem starken folgt→Wahrnehmung nimmt ab

I Dauer cca. 200 msI RASTA kann das nachahmenI Forward masking vergleichbar mit Zeitkonstante von

RASTA filterI Pegel von RASTA-bearbeitetem Maskierer am ende des

Maskierers ist stark abgeschwächtI Maskierer ausgeschaltet→ negatives Verschieben des

Pegels des Signals

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Zeitliche Maskierung und RASTA

Zeitliche Maskierung und RASTA

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Matlab Demonstration

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing

Einleitung RASTA – erläutert RASTA – erweitert Matlab Demo Zusammenfassung

Zusammenfassung

I Methode für das Behandeln von langsam- oderschnell-schwankenden, nichtlingvistischen Komponentenim Sprachsignal

I Optimiert und auf andere Gebiete erweitertI Kann auch andere Eigenschaften des Gehörs simulieren,

z.B. temporale Maskierung

P.G. Mihai Carl von Ossietzky Universität Oldenburg

RASTA Speech Processing