03 artikulation paper - technische fakultätbwrede/asr/03_artikulation... · –hängt die...
TRANSCRIPT
Überblick• Wiederholung
– 3 Akustik
• 3 Artikulation– Studie zu Veränderung der Artikulation bei Lärm
• 4 Sprachwahrnehmung– Kategoriale Sprachwahrnehmung beim Menschen
Source-Filter Modell
Quelle: Stimmbänderfundamentale Anregungstimmhaft - stimmlos
Filter: VokaltraktUmformung desAnregungssignals Sprach-
signal
[Clark & Yallop, 1991]
Modulierung im Vokaltrakt durchDämpfung und Verstärkung
Maximale Verstärkung durch Bedingungen, die eine „stehendeWelle“ erzeugen
http://www.schulphysik.de/physik/mech/swell/
Þ Verstärkungen genau der Frequenzen, die max. Druck an Glottis,min. Druck an Mundöffnung erzeugen, d.h. mit:
Lambda = 1/4 lLambda = 3/4 l
etc.l: Länge des Vokaltraktes (z.B. 17 cm)Lambda: Wellenlängec: Schallgeschwindigkeit (Ca 340 m / s)
Modulierung durch Vokaltrakt:Formanten
Gesucht: Frequenz mit Wellenlänge 1/4 Lambda = ld.h. Lambda = 4 * 17 cm = 68 cmf = c : Lambda = 34000 cm/s : 68 cm = 500 Hzd.h. erste Resonanzfrequenz bei 500 Hz,d.h. der Oberton mit 500 Hz wird besonders verstärktÞ 1. Formant bei 500 Hz
Quelle: http://www.phonetik.uni-muenchen.de/AP/APKap2.html
Modulierung durch Vokaltrakt:Formanten
Gesucht: Frequenz mit Wellenlänge 3/4 Lambda = ld.h. Lambda = 4/3 * 17 cm = 22.6 cmf = c : Lambda = 34000 cm/s : 22.6 cm = 1500 Hzd.h. zweite Resonanzfrequenz bei 1500 Hz,d.h. der Oberton mit 1500 Hz wird besonders verstärktÞ 2. Formant bei 1500 Hz
Quelle: http://www.phonetik.uni-muenchen.de/AP/APKap2.html
Akustisches =Artikulatorisches Vokaldreieck
i y
a:
e 2
E
a
@
6
u
oO9
I Y U
hintenvorne
tief / offen
hoch /geschlossen
F2
F1
Überblick• Wiederholung
– 3 Akustik
• 3 Artikulation– Studie zu Veränderung der Artikulation bei Lärm
• 4 Sprachwahrnehmung– Kategoriale Sprachwahrnehmung beim Menschen
An Acoustic and Articulatory Study ofLombard Speech
M. Garnie, L. Bailly, M. Dohen, P. Welby, H. Loevenbruck
Hintergrund– Wenn Menschen in Lärmumgebung sprechen, adaptieren sie ihre
Sprache so, dass sie besser verstanden werden (Lombard-Effekt)– Bisher ist dieser Effekt aber nur akustisch-phonetisch beschrieben
worden, aber nicht artikulatorisch
Fragestellungen zum Lombard-Effekt– Gibt es Hyper-Artikulation (in Lombard Speech)?– Welche artikulatorischen Parameter werden verändert?– Sind die artikulatorischen und akustischen Parameter korreliert?– Hängt die artikulatorische Adaption vom Typ des Lärms ab?
An Acoustic and Articulatory Study ofLombard Speech
M. Garnie, L. Bailly, M. Dohen, P. Welby, H. Loevenbruck
Methode– Sprachaufnahmen von 1 VP (Französisch)– 33 Sätze mit SVO Struktur– nur CV Silbenstruktur– nur stimmhafte Konsonanten
An Acoustic and Articulatory Study ofLombard Speech
M. Garnie, L. Bailly, M. Dohen, P. Welby, H. Loevenbruck
Maße• visuell
– A: Spreizung der Lippen (spreading)– B: Öffnung der Lippen (aperture)– S: Öffnungsfläche (inter-lip area)– B‘: Lippenkompression (lip pinching)
• protruded lip pinching• swallowed lip pinching
– max: Amplitude des Maximums der artikulatorischenBewegung
– glob: globale Evolution (Integral über Zeit -> Summe)
An Acoustic and Articulatory Study ofLombard Speech
M. Garnie, L. Bailly, M. Dohen, P. Welby, H. Loevenbruck
Maße• audio
– Spektrum• EGG (Elektroglottograph, auch Laryngograph)
– F0: Grundfrequenz– Oq: Öffnungsquotient
Ergebnisse
Amplitude der artikulatorischen Bewegungen
• A, B, S: signifikant größer in wn und cktl (bei Lärm)• A, B, S: signifkant größter in cktl als in wn (ausser swallowed pinching)
Þ größere Mundbewegungen, gespanntere LippenÞ stärkster Effekt bei Cocktailparty-LärmÞ Effekt bei Cocktailparty sig. stärker als bei White Noise
A: Spreizung der Lippen (spreading)B: Öffnung der Lippen (aperture)S: Öffnungsfläche (inter-lip area)
ErgebnisseÜberlegungen zu Sprech- vs Artikulationstempo
normale Sprech- Artikulationsgeschwindigkeit
Lärm
Baseline
Bewegungsamplitude bei...
ErgebnisseÜberlegungen zu Sprech- vs Artikulationstempo
normale Sprech- Artikulationsgeschwindigkeitschnellere Artikulationstempo, gleiches Sprechtempo
Lärm
Baseline
Bewegungsamplitude bei...
ErgebnisseÜberlegungen zu Sprech- vs Artikulationstempo
normale Sprech- Artikulationsgeschwindigkeitschnellere Artikulationstempo, gleiches Sprechtempogleiches Artikulationstempo, langsameres Sprechtempo
Lärm
Baseline
Bewegungsamplitude bei...
ErgebnisseGeschwindigkeit der artikulatorischen Bewegungen
Überlegung: wenn Bewegungen (pro Laut) größer, dannentweder langsamere Sprachgeschwindigkeit oder schnellereBewegung
• Geschwindigkeit von A, B, S: signifikant höher bei Lärm• Geschwindigkeit von B, S: signifikant höher in wn und cktl
(außer swallowed pinching)
Þ schnellere Mund- und Lippenbewegungen bei LärmÞ schnellste Bewegungen bei Cocktailparty-LärmÞ jedoch nicht für Lippenspreizung (A)
ErgebnisseAkustische Parameter (Intensität, F0, Dauer)
Überlegung: lassen sich akustische Korrelate zuartikulatorischen Effekten finden?
• Intensität, F0 und Wortdauer signifikant höher bei Lärm• aber: differenziertere Unterschiede zwischen White Noise
und Cocktailparty
Þ trotz schnellerer Bewegungen doch (auch) langsamereSprechgeschwindigkeit
ErgebnisseÜberlegungen zu Sprech- vs Artikulationstempo
normale Sprech- Artikulationsgeschwindigkeitschnellere Artikulationstempo, langsameres Sprechtempo
Lärm
Baseline
Bewegungsamplitude bei...
ErgebnisseAkustische Parameter (Vokal- und Konsonanten-Dauer)
Hintergrund: im Allgemeinen sind Vokale stärker vonDauervariation betroffen, da variabler
• Vokaldauer in Lärm länger, in White Noise am längsten• Konsonantendauer in Lärm kürzer
Þ Vokale werden gelängt, Konsonanten gekürzt
ErgebnisseAkustische Parameter (Intensität, F0)
Überlegung: lassen sich akustische Korrelate zuartikulatorischen Effekten finden?
• Intensität und F0 signifikant höher bei Lärm• aber: differenziertere Unterschiede zwischen White Noise
und Cocktailparty
Þ betontere Sprechweise (Betonung: Intensität, F0, Dauer)
ErgebnisseAkustische Parameter (Intensität, F0)
• Intensität in Cocktailparty Noise geringer als in WhiteNoise (gleicher Effekt für Vokale und Konsonanten, aberIntensitätssteigerung generell bei Vokalen stärker)
• F0 in Cocktailparty Noise höher als in White Noise
Þ generell lauter und höher bei LärmÞ Lautstärke bei Cocktailparty Noise nicht so wichtig,
aber Tonhöhe
Elektroglottograph zum Messender Stimmlippen-Bewegungen
Quelle: K. Marasek. Tutorial to EGGhttp://www.ims.uni-stuttgart.de/phonetik/EGG/frmst1.htm
Sprachqualität undSpektrale EnergieBeispiele
• modal: normale Spannung und Schwingung
• whisper: geöffnete Glottis; keine Stimmlippenschwingung
• breathy: geringe Spannung und geringer Kontakt der Stimmlippen;unregelmäßige Schwingungen mit kontinuierlicher Öffnung
• creaky: geringe Spannung aber starker Kontakt der Stimmlippen;langsame, unregelmäßige Schwindungen
• harsh: sehr starke Spannung der Stimmlippen; unregelmäßige Frequenzund Amplitude
• falsetto: langgezogene Stimmlipen, dadurch dünner; hohe FrequenzQuelle: K. Marasek. Tutorial to EGGhttp://www.ims.uni-stuttgart.de/phonetik/EGG/frmst1.htm
Sprachqualität undSpektrale Energie
Anregungssignal
Idealisiertes SpektrumArtikulation
[Clark & Yallop, 1991]Quelle: K. Marasek. Tutorial to EGGhttp://www.ims.uni-stuttgart.de/phonetik/EGG/frmst1.htm
Sprachqualität undSpektrale Energie
high vocal effort low vocal effort
1500 -3500 Hz
3500 -5500 Hz
1500 -3500 Hz
3500 -5500 Hz
Þ hohe Differenz zwischen der Energie in den Frequenz- bändern
Þ geringe Differenz zwischen der Energie in den Frequenz- bändern
Ergebnis Spektrale Energie
• Zunahme der Differenz bei Lärm• Zunahme bei Cocktailparty Noise geringer als bei
White Noise• Zunahme bei Vokalen und Konsonanten gleich
Þ größerer „vocal Effort“ bei LärmÞ größerer „vocal Effort“ bei White Noise als bei
Cocktailparty Noise
Zusammenfassung Ergebnisse
Fragestellungen zum Lombard-Effekt• Gibt es Hyper-Artikulation (in Lombard Speech)?
– Ja• Welche artikulatorischen Parameter werden
verändert?– größere und schnellere Mundbewegungen– aber langsameres Sprechtempo– Vokale werden gelängt, Konsonanten gekürzt
Akustische Ergebnisse der StudieFragestellungen zum Lombard-Effekt• Sind die artikulatorischen und akustischen Parameter korreliert?
– Ja:– Akustik: größere F1-WerteÞ Artikulation: weiter geöffneter Kiefer / Mund
• Hängt die artikulatorische Adaption vom Typ des Lärms ab?– ja, differenzierte Unterschiede zwischen white Noise und Cocktailparty
Noise