sommersemester 2010 bistra andreeva fr 4.7 phonetik universität des saarlandes...
TRANSCRIPT
Sommersemester 2010
Bistra Andreeva
FR 4.7 Phonetik
Universität des Saarlandes
Einf. in die Instrumentalphonetik
3.05. 4.05. 5.05. 10.05. 11.05. 12.05. 13.05.
9-10
10-11
11-12
12-13
13-14
14-15
Kursinhalt
Mikrofonaufnahmen Signaldarstellungen:
- Oszillogramm = Mikrofonsignal = Druckwellen- Spektrum- Spektrogramm- Grundfrequenz (= F0)
Messungen in den Signaldarstellungen- Dauer (Zeitbereich)- Harmonische, Formanten, Eckfrequenzen (Frequenzbereich)- Grundfrequenz (Zeit- und Frequenzbereich)
Sitzung 1
Signalverarbeitungsprogramm
Computerized Speech Lab (CSL) Entropic Signal Processing System (ESPS) mit
Waves+ (Visualisierung)
PRAAT
Sitzung 1
Literatur
Pétursson, M. & Neppert, J. (1991). Elementarbuch der Phonetik. Hamburg: Helmut Buske Verlag.
Borden, G., Harris, K. & Raphael, L. (1994). Speech Science Primer. Physiology, Acoustics and Percep-tion of Speech. Baltimore: Williams & Wilkins.
Ladefoged, P. (1982). A Course in Phonetics. San Diego: Harcourt Brace Jovanovich.
Sitzung 1
Erste Schritte in Praat
Programm starten
Doppelklick auf der Ikone
Es erscheinen 2 Fenster.
Sitzung 1
Erste Schritte in Praat
Signal aufnehmen
Wie erkennt man laute/leise Signale? Welche Laute sind meistens lauter als ihre
Umgebung?
Sitzung 1
Aufnahmen
Anschließen des Mikrofons, bzw. des Kassetten- oder DAT-Recorders
Unter NEW: Record mono Sound Abtastrate einstellen (Sampling frequency) - bei Vokalen bzw. F0: 10 kHz - bei Frikativen: 20 kHz Aufnahmedauer (unbegrenzt) Record anklicken Aufnahmepegel einstellen
Sitzung 2
Aufnahmen
Aufnahme starten (record) Aufnahme beenden (stop) Während der Aufnahme das Aufnahmepegel im Auge
behalten Datei benennen (sound markieren und umbennen) Aufnahme speichern (save to list)
Sitzung 2
Oszillogramm
Auch: Mikrofonsignal, Zeitsignal, Drucksignal Darstellung des in Spannungsunterschiede
umgewandelten Schalldrucksignals x-Achse: Zeit (vgl. Dauer in der Perzeption) y-Achse: Amplitude (vgl. Lautstärke in der
Perzeption)
Sitzung 2
Speichern von Daten
Relevanten Signalteil ausschneiden Speichern
Sitzung 2
Laden einer Signaldatei
Datei ip001rb.wav im Verzeichnis InstrPhon laden Read Read from file Im Fenster Objects erscheint die Datei Edit anklicken
Sitzung 3
Abspielen der Vokale
die Vokale markieren und abspielen
Woran erkennt man die Vokale?
Sitzung 3
Abspielen der Konsonanten
die Konsonanten markieren und abspielen Welche Konsonanten sind für sich alleine
identifizierbar? [p] von ‘Peter’, [t] von ‘tippt’ und [k] von ‘Kieler’
markieren, sehen und hören Was haben sie gemeinsam? Welche Position haben sie? In welcher Art von Silben befinden sie sich?
Sitzung 3
Dauer der Konsonanten messen
Den jeweiligen Laut markieren und Dauer (in Sekunden) ablesen
1 sek = 1000 ms
Sitzung 3
Schneiden und KonkatenationDie 3 silbeninitiale Plosive in Fenster B kopieren: Signalteil markieren
EDIT, copy selection to sound clipboard EDIT, paste after selection - der markierte Signalteil
wird eingefügt
Sitzung 3
Hörtest
die im Fenster B kopierten Plosive in randomisierter Reihenfolge abspielen
Sitzung 3
Daß wir die Plosive nicht gut voneinander unterscheiden können, hat einen Grund:
Die Minimaleinheit, die wir hören, ist eine Silbe!
Phonetische Dauermessungen
ip006rb.wav laden“Die Lallphase dauert nicht lange” ip001rb.wav laden“Peter tippt auf die Kieler”- Wie unterscheidet sich [d] in “Die” von [t] in “tippt”?
Die zwei [d]-Segmente finden und vergleichen- Was haben sie gemeinsam?- Worin unterscheiden sie sich?
Sitzung 4
Voice Onset Time (VOT)
VOT oder Stimmlatenzzeit:die Dauer vom Anfang der Lösung eines Plosivs bis zum Einsatz der Stimmlippenschwingungen
VOT von [d] in “dauert” und [t] in “tippt” messen und vergleichen- Wie unterscheidet sich [d] in “Die” von [t] in “tippt”?
Sitzung 4
Faustregel: die VOT-Grenze zwischen dem stimmlosen [t] und dem stimmhaften [d] liegt bei etwa 25 ms (länger bei stimmlosen Plosiven)
N.B. Energie auch wichtig: größer für stimmlose Plosive
Variable Lautrealisierungen
Vergleiche die beiden [t]’s in “nicht” und “tippt”
Sitzung 4
(Verschlußlösung)
ip008rb.wav laden“Breite Karren stören den Betrieb”
Vergleiche die [t]’s in “tippt” und in “stören”
(Aspiration)
Lautwahrnehmung
“nicht lange” markieren und vorspielen Was hört man?
Sitzung 4
“Klange”: Es gibt eine Preferenz, sinnvolle Äußerungen (Wörter) wahrzunehmen
Laute im Signal
Inhalte der Fenster löschen Fenster C aktivieren und löschen: VIEW, DELETE
ACTIVE VIEW
c:\user(s)\ip002rb.001 in Fenster A laden“Tania kaufte Backpapier” c:\user(s)\ip007rb.001 in Fenster B laden“Junge Leute jammern nicht”
Ausgabepegel auf Null stellen Plosive und Vokale im Signal finden
Sitzung 4
Spektrogramm
Das Spektrogramm stellt 3 Dimensionen dar: x-Achse: Zeit (ms) - vgl. Dauer in der Perzeption y-Achse: Frequenz (Hz) - vgl. Tonhöhe und
Klangqualität in der Perzeption Schwärzungsgrad: Energie - vgl. Lautstärke in der
Perzeption
Sitzung 5
Grundbegriffe
Sitzung 5
Amplitude: maximale Auslenkung bzw. Abweichung von der Ruhelage (dB)
Frequenz: Anzahl der Schwingungen pro Sekunde (Hz) Periodendauer: der zeitliche Abstand zweier
benachbarter Maxima (T, ms) Grundfrequenz: die Welle mit der längsten Perioden-
dauer (Stimmlippen) Harmonische: sinusförmige Obertöne, deren Frequenzen
ganzzahlige Vielfache der Grundfrequenz sind (Stimmlippen); F0=H1; H2= O1
Formanten: Bereiche von Harmonischen, die durch Resonanz eine maximale Intensität erreichen (Vokaltrakt)
Oszillogramm und Spektrogramm
Das Oszillogramm kann man als eine Überlagerung von mehreren Harmonischen betrachten
Die Harmonischen (als Klangfarbe wahrgenommen) werden durch ihre Frequenz (Kehrwert), ihre Amplitude und ihre Phase (relative Verschiebung zueinander) gekennzeichnet und bestimmen so das komplexe Oszillogramm
Die Grundfrequenz (als Tonhöhe wahrgenommen) kann von dem Oszillogramm als die Anzahl der Perioden (sich wiederholenden Signalteile) pro Sekunde berechnet werden: F0 =1/T
Sitzung 5
Oszillogramm und Spektrogramm
Sitzung 5
ip007rb.wav laden
Das Spektrogramm ist eine bessere Darstellung des Signals, wenn man die einzelnen Frequenz-komponenten erkennen möchte. Es stellt die Frequenzbereiche dar, in denen viel Energie vorhanden ist.
Breitband-Spektrogramm
ip007rb.wav laden
Sitzung 5
Hohe Auflösung im Zeitbereich, niedrige Auflösung im Frequenzbereich.
Einzelne Glottisschläge sind gut sichtbar (die vertikale Linien).
Die Formanten sind gut zu erkennen (breite horizontale “Bänder”). Sie sind charakteristisch für die Laute, insb. für Vokale.
Schmalband-Spektrogramm Unter Spectrum, Spectrogram settings Window length (s) von 0.005 auf 0.03 ändern
Sitzung 5
Niedrige Auflösung im Zeitbereich, hohe Auflösung im Frequenzbereich.
Einzelne Glottisschläge nicht sichtbar. Einzelne Harmonische sind gut zu erkennen (schmale
paralelle “Bänder”). Grundfrequenz kann sehr genau berechnet werden aus der n-ten Harmonischen: Wert des n-ten Harmonischen festellen und durch n teilen. (Formanten schwer zu erkennen).
Abgrenzung von Segmenten
Sitzung 5
Meistens benutzen wir ein Breitband-Spektrogramm, um Laute zu segmentieren.
Akustische Ereignisse sind an Laute zuweisbar. Zwischen den Lauten gibt es kontinuierliche
Übergange. Diese entstehen dadurch, daß die Artikulatoren Zeit brauchen, um sich von der “typischen” oder Zielposition für einen Laut zur Zielposition des nächsten Lautes zu bewegen. Dabei sind die Artikulatoren (fast) ständig in Bewegung, wobei die Laute sich auch gegenseitig beeinflussen (= Koartikulation).
kahl Kiel coolABER: Paar per pur
Vokale im Spektrogramm
Sitzung 6
stimmhafte Laute ihre Klangcharakteristika sind primär durch die
Konfiguration des Vokaltraktes bestimmt der durch Glottisimpulse angeregte Luftstrom (Quelle)
wird im Ansatzrohr moduliert (Filter) Veränderung der Resonanzeigenschaften des
Ansatzrohres und somit der Resonanzfrequenzen des entstehenden Vokals durch Kehlkopfhöhe, Rachenenge, Zungenposition und -höhe sowie die Lippenstellung
typische spektrale Zusammensetzung mit Energiekonzentrationen bei den jeweiligen Resonanzfrequenzen (Formanten)
Vokale im Spektrogramm
Sitzung 6
Vokale [], [] und [] (in “junge”, “jammern” und “nicht”) im Zeitsignal suchen.
Was ist der Unterschied zwischen den Vokalen?
Mit welchen artikulatorischen Dimensionen hängen F1 und F2 zusammen?
Was fällt auf, wenn man sich die Formanten eines Vokals (z.B. []) im Kontext ansieht?
Deutliche Formantenstruktur. Vor allem die Positionierung der ersten beiden Formanten (F1 und F2)
ist sehr wichtig für unsere Wahrnehmung der Vokale
F1: Kieferöffnung; F2: vorne-hinten
Onset-, Offsettransitionen und evtl. „steady state“, wenn genug Zeit für die Artikulaton vorhanden ist
Messungen der Formantenwerte
Sitzung 6
Den Cursor in die Mitte des schwarzen Balkens (Formanten) setzen und den Wert rechts neben der roten gestrichelten Linie ablesen
Wenn es problematisch ist die Formanten zu erkennen, geht man von vorgegebenen Werten aus, d.h. man verwendet die durchschnittlichen Formantwerte zur Orientierung (diese sind im fast jeden Buch zu finden)
Messungen der Formantenwerte
Sitzung 6
Den Cursor in die Mitte des Vokals setzen
über den Menüeintrag ‘Formant' -> ‘Show formants' die Formanten im Spektrogramm anzeigen
Wieder über den Menüeintrag ‘Formant' -> ‘Formant listing' den jeweiligen Zeitpunkt sowie F1, F2, F3 und F4 auflisten
Spektrogramm und Spektrum
Sitzung 8
Datei ip003rb.wav laden
Formantwerte (F1 und F2) vom /a:/ im ‘mal’ ablesen
Das Spektrogramm zeigt die Veränderung der Energieverteilung im Frequenzbereich
Welche Dimensionen stellt das Spektrogramm dar?
Aufrufen des Spektrums
Sitzung 8
den Cursor in die Mitte des zu untersuchenden Vokals setzen.
über den Menüeintrag 'Query' -> 'Get cursor' die Position des Cursors anzeigen (am besten die im Fenster angezeigte Zeit kopieren).
im 'Praat objects'-Fenster das Spektrogramm auswählen
auf ‘To Spectrum (slice)…‘ klicken (es erscheint ein Fenster, in dem die ausgewählte Zeit eingegeben wird)
nach 'OK' erscheint das Spektrum im 'Praat objects'-Fenster
Mit ‘Draw‘ wird das Spektrum angezeigt.
Aufrufen des Spektrums
Sitzung 8
Das Spektrum stellt 2 Dimensionen dar:x-Achse: Frequenzy-Achse: Energie
Das Spektrum zeigt die Energie in den Harmonischen und in den Geräuschkomponenten im gewählten Zeitabschnitt (normalerweise ein kurzer Zeitabschnitt).Bei längeren Zeitabschnitten (z.B. größer als 1 Sekunde) spricht man von einem Langzeitspektrum (Stimmqualitätsmaß)
Spektrum
Sitzung 8
Das Spektrogramm kann man als eine Reihe von Spektren betrachten (vgl. Wasserfallspektrogramm)
Anregung:Wie im Spektrogramm (welches?) kann man auch im Kurzzeit-Spektrum einzelne Harmonische erkennen, die mit der Anregung zusammenhängen.Die erste Harmonische (H1) ist der Grundton (F0), der mit der Geschwindigkeit der Stimmlippenschwingungen zusammenhängt. Alle anderen Harmonischen sind Vielfache des Grundtons. Die zweite Harmonische wird als der erste Oberton bezeichnet usw.N.B. Die HARMONISCHEN SIND KEINE FORMANTEN!
Spektrum
Sitzung 8
Filter:Die Resonanzen des Vokaltrakts (Formanten) kann man im Spektrum von der Hüllkurve ableiten. Dabei muß man darauf achten, daß die Gipfel in der Hüllkurve mit den Harmonischen nicht zusammenfallen.Um Formanten zu finden muß man mit dem Auge bestimmen, wo in der Hüllkurve Maxima vorhanden sind. Dazu benutzt man auch die Amplituden der Harmonischen:
Bei der Interpretation sind auch Kenntnisse über den Wert der erwarteten Formanten wichtig
FRIKATIVE
Sitzung 9
Die Entstehung der Frikative basiert auf einer Enge-bildung im Mundraum zwischen artikulierendem Organ und der Artikulationsstelle. Diese Verengung unterteilt den Mundraum in einen vorderen und einen hinteren Resonanzraum. Der Luftstrom, der diese Enge passiert, wird turbulent. Luftturbulenzen sind die typischen Schallquellen aller Frikative.
Das erzeugte Friktionsgeräusch wirkt als akustische Anregung für beide Resonanzräume. Es wird jedoch überwiegend im vorderen Mundraum moduliert, so daß das Spektrum des am Mund abgestrahlten Frikativ-schalls weitgehend von Größe und Form des vorderen Resonanzraumes abhängt.
FRIKATIVE
Sitzung 9
Generell gilt, je größer der vordere Resonanzraum ist, d.h. je weiter hinten die Artikulationsstelle, also der Ort der Engebildung, liegt, desto stärker wird der Schall moduliert und umso ausgeprägter ist sein Spektrum. Während also beim labiodentalen [f] das Spektrum sehr flach ist, weist das velare [x] bereits formant-ähnliche Strukturen auf.
Das Frikativspektrum weist wesentlich mehr Intensität in den höheren Frequenzbereichen oberhalb von 2500 Hz auf als in den unteren Frequenzbereichen. Je nach Artikulationsort konzentriert sich dieses 'Rauschen‘ auf bestimmte Frequenzbereiche.
Ein wichtiges Merkmal besonders zur Unterscheidung der hinteren Artikulationsstellen ist neben den Transitionen die spektrale Zusammensetzung des Frikativschalls, sein Schwerpunkt und seine Gesamtintensität. Das Frikativspektrum wird durch die Passage des frikativen Grundschalls von dem Ort der Engebildung bis zur Mundöffnung geprägt. Je länger die Passage, desto tiefer sind die am Mund abgestrahlten Frequenzen, bzw. ihr Gesamtschwerpunkt.
Je weiter hinten die Artikulationsstelle des Frikativs liegt, desto tiefer liegt auf der Frequenzachse die untere Grenze des Frikativschwerpunktes (vgl. [s] und [S]) und desto strukturierter ist das Frikativspektrum (vgl. [f] und [h]).
FRIKATIVE
Sitzung 9
Das Spektrum labiodentaler Frikative ist flach. Ihre Energie ist gleichmäßig über alle Frequenzbereiche verteilt mit einer leichten Energiekonzentration im obersten Frequenzbereich oberhalb von 6000 Hz. [f] und [v] sind - besonders im Vergleich zu [s] und [S] - Frikative geringer Energie.
Labiodental [f v]
Sitzung 9
Das Spektrum der alveolaren Frikative weist insgesamt eine sehr hohe Intensität auf. Es gibt eine Energiekonzentration im Bereich von 5000 Hz bis 8000 Hz. Die Untergrenze des Energieschwerpunktes (= Eckfrequenz) kann bei angrenzenden hinteren Vokalen um bis zu 1000 Hz tiefer liegen.
Alveolar [s z]
Sitzung 9
Postalveolare Frikative weisen im Zeitsignal die stärkste Energie, d.h. die höchste Amplitude auf. Dadurch weisen sie im Sonagramm einen sehr hohen Schwärzungsgrad auf. Ihr Energieschwerpunkt liegt im Bereich von 2500 Hz bis 7000 Hz. Damit liegt ihr Schwerpunkt um bis zu 2500 Hz tiefer als bei den alveolaren Frikativen. Die Schwerpunktsuntergrenze (= Eckfrequenz) variiert ebenfalls je nach angrenzendem Vokal.
Postalveolar [S Z]
Sitzung 9
Palatale Frikative sind wesentlich intensitätsschwächer als alveolare oder postalveolare. Ihr Frequenzschwer-punkt reicht hinunter bis ca. 3000 Hz und kann bereits formantähnliche Strukturen aufweisen. Damit liegt ihre Schwerpunktuntergrenze über der der postalveolaren Frikative.Dieses Faktum widerspricht dennoch nicht dem Gesetz der artikulatorischen Tiefe, da sich beim postalveolaren Frikativ [S] die vordere Mundraum-passage durch Lippenrundung verlängert. Dadurch liegt dieser, absolut gemessen, von der Mundöffnung weiter hinten als der palatale Frikativ.
Palatal [ç j]
Sitzung 9
Der velare Frikativ [x] zeichnet sich durch Friktions-energie bis in die untersten Frequenzbereiche aus und läßt sich dadurch vom palatalen [ç] unterscheiden. Sein Spektrum weist eine relativ gut ausgeprägte formant-ähnliche Struktur auf. Sie variiert zwar in Abhängigkeit von den angrenzenden Vokalen, entspricht aber nicht - anders als beim glottalen /h/ - deren Formantstruktur.
Zur Unterscheidung von [x] und [ç] kann im Deutschen der vokalische Kontext hinzugenommen werden, der entscheidet, welches /ch/-Allophon produziert wird, da beide distributive Allophone des Phonems /ch/ sind. So taucht das [x] niemals nach vorderen Vokalen oder initial auf. Das [ç] dagegen kann sowohl initial als auch im Diminuitivsuffix "-chen" nach jedem Vokal auftreten.
Velar [x] Sitzung 9
Sitzung 9
Glottal [h]
Der glottale Frikativ ist ein stark koartikulierter Laut. Das /h/ bezieht seine Vokalqualitäten aus dem
phonetischen Kontext, d.h. sowohl aus dem vorausgehenden als auch dem folgenden Vokal.
Auch im vokalischen Kontext zeigen sich im Bereich von 300 Hz bis 2400 Hz keine Transitionen an den Grenzen des Frikativs.
Lediglich der dritte Formant F3 scheint konstant und damit unabhängig vom Vokalkontext und /h/-immanent zu sein. Er liegt zwischen 2500 Hz und 2800 Hz.