sommersemester 2010 bistra andreeva fr 4.7 phonetik universität des saarlandes...

Sommersemester 2010

Bistra Andreeva

FR 4.7 Phonetik

Universität des Saarlandes

[email protected]

Einf. in die Instrumentalphonetik

Administrativ

Teilnehmerliste

http://www.coli.uni-saarland.de/~andreeva

[email protected]

Sitzung 1

3.05. 4.05. 5.05. 10.05. 11.05. 12.05. 13.05.

9-10

10-11

11-12

12-13

13-14

14-15

Kursinhalt

Mikrofonaufnahmen Signaldarstellungen:

- Oszillogramm = Mikrofonsignal = Druckwellen- Spektrum- Spektrogramm- Grundfrequenz (= F0)

Messungen in den Signaldarstellungen- Dauer (Zeitbereich)- Harmonische, Formanten, Eckfrequenzen (Frequenzbereich)- Grundfrequenz (Zeit- und Frequenzbereich)

Sitzung 1

Signalverarbeitungsprogramm

Computerized Speech Lab (CSL) Entropic Signal Processing System (ESPS) mit

Waves+ (Visualisierung)

PRAAT

Sitzung 1

Literatur

Pétursson, M. & Neppert, J. (1991). Elementarbuch der Phonetik. Hamburg: Helmut Buske Verlag.

Borden, G., Harris, K. & Raphael, L. (1994). Speech Science Primer. Physiology, Acoustics and Percep-tion of Speech. Baltimore: Williams & Wilkins.

Ladefoged, P. (1982). A Course in Phonetics. San Diego: Harcourt Brace Jovanovich.

Sitzung 1

Erste Schritte in Praat

Programm starten

Doppelklick auf der Ikone

Es erscheinen 2 Fenster.

Sitzung 1

Erste Schritte in Praat

Signal aufnehmen

Wie erkennt man laute/leise Signale? Welche Laute sind meistens lauter als ihre

Umgebung?

Sitzung 1

Aufnahmen

Anschließen des Mikrofons, bzw. des Kassetten- oder DAT-Recorders

Unter NEW: Record mono Sound Abtastrate einstellen (Sampling frequency) - bei Vokalen bzw. F0: 10 kHz - bei Frikativen: 20 kHz Aufnahmedauer (unbegrenzt) Record anklicken Aufnahmepegel einstellen

Sitzung 2

Aufnahmen

Aufnahme starten (record) Aufnahme beenden (stop) Während der Aufnahme das Aufnahmepegel im Auge

behalten Datei benennen (sound markieren und umbennen) Aufnahme speichern (save to list)

Sitzung 2

Oszillogramm

Auch: Mikrofonsignal, Zeitsignal, Drucksignal Darstellung des in Spannungsunterschiede

umgewandelten Schalldrucksignals x-Achse: Zeit (vgl. Dauer in der Perzeption) y-Achse: Amplitude (vgl. Lautstärke in der

Perzeption)

Sitzung 2

Speichern von Daten

Relevanten Signalteil ausschneiden Speichern

Sitzung 2

Laden einer Signaldatei

Datei ip001rb.wav im Verzeichnis InstrPhon laden Read Read from file Im Fenster Objects erscheint die Datei Edit anklicken

Sitzung 3

Abspielen der Vokale

die Vokale markieren und abspielen

Woran erkennt man die Vokale?

Sitzung 3

Abspielen der Konsonanten

die Konsonanten markieren und abspielen Welche Konsonanten sind für sich alleine

identifizierbar? [p] von ‘Peter’, [t] von ‘tippt’ und [k] von ‘Kieler’

markieren, sehen und hören Was haben sie gemeinsam? Welche Position haben sie? In welcher Art von Silben befinden sie sich?

Sitzung 3

Dauer der Konsonanten messen

Den jeweiligen Laut markieren und Dauer (in Sekunden) ablesen

1 sek = 1000 ms

Sitzung 3

Schneiden und KonkatenationDie 3 silbeninitiale Plosive in Fenster B kopieren: Signalteil markieren

EDIT, copy selection to sound clipboard EDIT, paste after selection - der markierte Signalteil

wird eingefügt

Sitzung 3

Hörtest

die im Fenster B kopierten Plosive in randomisierter Reihenfolge abspielen

Sitzung 3

Daß wir die Plosive nicht gut voneinander unterscheiden können, hat einen Grund:

Die Minimaleinheit, die wir hören, ist eine Silbe!

Phonetische Dauermessungen

ip006rb.wav laden“Die Lallphase dauert nicht lange” ip001rb.wav laden“Peter tippt auf die Kieler”- Wie unterscheidet sich [d] in “Die” von [t] in “tippt”?

Die zwei [d]-Segmente finden und vergleichen- Was haben sie gemeinsam?- Worin unterscheiden sie sich?

Sitzung 4

Voice Onset Time (VOT)

VOT oder Stimmlatenzzeit:die Dauer vom Anfang der Lösung eines Plosivs bis zum Einsatz der Stimmlippenschwingungen

VOT von [d] in “dauert” und [t] in “tippt” messen und vergleichen- Wie unterscheidet sich [d] in “Die” von [t] in “tippt”?

Sitzung 4

Faustregel: die VOT-Grenze zwischen dem stimmlosen [t] und dem stimmhaften [d] liegt bei etwa 25 ms (länger bei stimmlosen Plosiven)

N.B. Energie auch wichtig: größer für stimmlose Plosive

Variable Lautrealisierungen

Vergleiche die beiden [t]’s in “nicht” und “tippt”

Sitzung 4

(Verschlußlösung)

ip008rb.wav laden“Breite Karren stören den Betrieb”

Vergleiche die [t]’s in “tippt” und in “stören”

(Aspiration)

Lautwahrnehmung

“nicht lange” markieren und vorspielen Was hört man?

Sitzung 4

“Klange”: Es gibt eine Preferenz, sinnvolle Äußerungen (Wörter) wahrzunehmen

Laute im Signal

Inhalte der Fenster löschen Fenster C aktivieren und löschen: VIEW, DELETE

ACTIVE VIEW

c:\user(s)\ip002rb.001 in Fenster A laden“Tania kaufte Backpapier” c:\user(s)\ip007rb.001 in Fenster B laden“Junge Leute jammern nicht”

Ausgabepegel auf Null stellen Plosive und Vokale im Signal finden

Sitzung 4

Spektrogramm

Das Spektrogramm stellt 3 Dimensionen dar: x-Achse: Zeit (ms) - vgl. Dauer in der Perzeption y-Achse: Frequenz (Hz) - vgl. Tonhöhe und

Klangqualität in der Perzeption Schwärzungsgrad: Energie - vgl. Lautstärke in der

Perzeption

Sitzung 5

Grundbegriffe

Sitzung 5

Amplitude: maximale Auslenkung bzw. Abweichung von der Ruhelage (dB)

Frequenz: Anzahl der Schwingungen pro Sekunde (Hz) Periodendauer: der zeitliche Abstand zweier

benachbarter Maxima (T, ms) Grundfrequenz: die Welle mit der längsten Perioden-

dauer (Stimmlippen) Harmonische: sinusförmige Obertöne, deren Frequenzen

ganzzahlige Vielfache der Grundfrequenz sind (Stimmlippen); F0=H1; H2= O1

Formanten: Bereiche von Harmonischen, die durch Resonanz eine maximale Intensität erreichen (Vokaltrakt)

Oszillogramm und Spektrogramm

Das Oszillogramm kann man als eine Überlagerung von mehreren Harmonischen betrachten

Die Harmonischen (als Klangfarbe wahrgenommen) werden durch ihre Frequenz (Kehrwert), ihre Amplitude und ihre Phase (relative Verschiebung zueinander) gekennzeichnet und bestimmen so das komplexe Oszillogramm

Die Grundfrequenz (als Tonhöhe wahrgenommen) kann von dem Oszillogramm als die Anzahl der Perioden (sich wiederholenden Signalteile) pro Sekunde berechnet werden: F0 =1/T

Sitzung 5

Oszillogramm und Spektrogramm

Sitzung 5

ip007rb.wav laden

Das Spektrogramm ist eine bessere Darstellung des Signals, wenn man die einzelnen Frequenz-komponenten erkennen möchte. Es stellt die Frequenzbereiche dar, in denen viel Energie vorhanden ist.

Breitband-Spektrogramm

ip007rb.wav laden

Sitzung 5

Hohe Auflösung im Zeitbereich, niedrige Auflösung im Frequenzbereich.

Einzelne Glottisschläge sind gut sichtbar (die vertikale Linien).

Die Formanten sind gut zu erkennen (breite horizontale “Bänder”). Sie sind charakteristisch für die Laute, insb. für Vokale.

Schmalband-Spektrogramm Unter Spectrum, Spectrogram settings Window length (s) von 0.005 auf 0.03 ändern

Sitzung 5

Niedrige Auflösung im Zeitbereich, hohe Auflösung im Frequenzbereich.

Einzelne Glottisschläge nicht sichtbar. Einzelne Harmonische sind gut zu erkennen (schmale

paralelle “Bänder”). Grundfrequenz kann sehr genau berechnet werden aus der n-ten Harmonischen: Wert des n-ten Harmonischen festellen und durch n teilen. (Formanten schwer zu erkennen).

Abgrenzung von Segmenten

Sitzung 5

Meistens benutzen wir ein Breitband-Spektrogramm, um Laute zu segmentieren.

Akustische Ereignisse sind an Laute zuweisbar. Zwischen den Lauten gibt es kontinuierliche

Übergange. Diese entstehen dadurch, daß die Artikulatoren Zeit brauchen, um sich von der “typischen” oder Zielposition für einen Laut zur Zielposition des nächsten Lautes zu bewegen. Dabei sind die Artikulatoren (fast) ständig in Bewegung, wobei die Laute sich auch gegenseitig beeinflussen (= Koartikulation).

kahl Kiel coolABER: Paar per pur

Vokale im Spektrogramm

Sitzung 6

stimmhafte Laute ihre Klangcharakteristika sind primär durch die

Konfiguration des Vokaltraktes bestimmt der durch Glottisimpulse angeregte Luftstrom (Quelle)

wird im Ansatzrohr moduliert (Filter) Veränderung der Resonanzeigenschaften des

Ansatzrohres und somit der Resonanzfrequenzen des entstehenden Vokals durch Kehlkopfhöhe, Rachenenge, Zungenposition und -höhe sowie die Lippenstellung

typische spektrale Zusammensetzung mit Energiekonzentrationen bei den jeweiligen Resonanzfrequenzen (Formanten)

Vokale im Spektrogramm

Sitzung 6

Vokale [], [] und [] (in “junge”, “jammern” und “nicht”) im Zeitsignal suchen.

Was ist der Unterschied zwischen den Vokalen?

Mit welchen artikulatorischen Dimensionen hängen F1 und F2 zusammen?

Was fällt auf, wenn man sich die Formanten eines Vokals (z.B. []) im Kontext ansieht?

Deutliche Formantenstruktur. Vor allem die Positionierung der ersten beiden Formanten (F1 und F2)

ist sehr wichtig für unsere Wahrnehmung der Vokale

F1: Kieferöffnung; F2: vorne-hinten

Onset-, Offsettransitionen und evtl. „steady state“, wenn genug Zeit für die Artikulaton vorhanden ist

Messungen der Formantenwerte

Sitzung 6

Den Cursor in die Mitte des schwarzen Balkens (Formanten) setzen und den Wert rechts neben der roten gestrichelten Linie ablesen

Wenn es problematisch ist die Formanten zu erkennen, geht man von vorgegebenen Werten aus, d.h. man verwendet die durchschnittlichen Formantwerte zur Orientierung (diese sind im fast jeden Buch zu finden)

Messungen der Formantenwerte

Sitzung 6

Den Cursor in die Mitte des Vokals setzen

über den Menüeintrag ‘Formant' -> ‘Show formants' die Formanten im Spektrogramm anzeigen

Wieder über den Menüeintrag ‘Formant' -> ‘Formant listing' den jeweiligen Zeitpunkt sowie F1, F2, F3 und F4 auflisten

Spektrogramm und Spektrum

Sitzung 8

Datei ip003rb.wav laden

Formantwerte (F1 und F2) vom /a:/ im ‘mal’ ablesen

Das Spektrogramm zeigt die Veränderung der Energieverteilung im Frequenzbereich

Welche Dimensionen stellt das Spektrogramm dar?

Aufrufen des Spektrums

Sitzung 8

den Cursor in die Mitte des zu untersuchenden Vokals setzen.

über den Menüeintrag 'Query' -> 'Get cursor' die Position des Cursors anzeigen (am besten die im Fenster angezeigte Zeit kopieren).

im 'Praat objects'-Fenster das Spektrogramm auswählen

auf ‘To Spectrum (slice)…‘ klicken (es erscheint ein Fenster, in dem die ausgewählte Zeit eingegeben wird)

nach 'OK' erscheint das Spektrum im 'Praat objects'-Fenster

Mit ‘Draw‘ wird das Spektrum angezeigt.

Aufrufen des Spektrums

Sitzung 8

Das Spektrum stellt 2 Dimensionen dar:x-Achse: Frequenzy-Achse: Energie

Das Spektrum zeigt die Energie in den Harmonischen und in den Geräuschkomponenten im gewählten Zeitabschnitt (normalerweise ein kurzer Zeitabschnitt).Bei längeren Zeitabschnitten (z.B. größer als 1 Sekunde) spricht man von einem Langzeitspektrum (Stimmqualitätsmaß)

Spektrum

Sitzung 8

Das Spektrogramm kann man als eine Reihe von Spektren betrachten (vgl. Wasserfallspektrogramm)

Anregung:Wie im Spektrogramm (welches?) kann man auch im Kurzzeit-Spektrum einzelne Harmonische erkennen, die mit der Anregung zusammenhängen.Die erste Harmonische (H1) ist der Grundton (F0), der mit der Geschwindigkeit der Stimmlippenschwingungen zusammenhängt. Alle anderen Harmonischen sind Vielfache des Grundtons. Die zweite Harmonische wird als der erste Oberton bezeichnet usw.N.B. Die HARMONISCHEN SIND KEINE FORMANTEN!

Spektrum

Sitzung 8

Filter:Die Resonanzen des Vokaltrakts (Formanten) kann man im Spektrum von der Hüllkurve ableiten. Dabei muß man darauf achten, daß die Gipfel in der Hüllkurve mit den Harmonischen nicht zusammenfallen.Um Formanten zu finden muß man mit dem Auge bestimmen, wo in der Hüllkurve Maxima vorhanden sind. Dazu benutzt man auch die Amplituden der Harmonischen:

Bei der Interpretation sind auch Kenntnisse über den Wert der erwarteten Formanten wichtig

FRIKATIVE

Sitzung 9

Die Entstehung der Frikative basiert auf einer Enge-bildung im Mundraum zwischen artikulierendem Organ und der Artikulationsstelle. Diese Verengung unterteilt den Mundraum in einen vorderen und einen hinteren Resonanzraum. Der Luftstrom, der diese Enge passiert, wird turbulent. Luftturbulenzen sind die typischen Schallquellen aller Frikative.

Das erzeugte Friktionsgeräusch wirkt als akustische Anregung für beide Resonanzräume. Es wird jedoch überwiegend im vorderen Mundraum moduliert, so daß das Spektrum des am Mund abgestrahlten Frikativ-schalls weitgehend von Größe und Form des vorderen Resonanzraumes abhängt.

FRIKATIVE

Sitzung 9

Generell gilt, je größer der vordere Resonanzraum ist, d.h. je weiter hinten die Artikulationsstelle, also der Ort der Engebildung, liegt, desto stärker wird der Schall moduliert und umso ausgeprägter ist sein Spektrum. Während also beim labiodentalen [f] das Spektrum sehr flach ist, weist das velare [x] bereits formant-ähnliche Strukturen auf.

Das Frikativspektrum weist wesentlich mehr Intensität in den höheren Frequenzbereichen oberhalb von 2500 Hz auf als in den unteren Frequenzbereichen. Je nach Artikulationsort konzentriert sich dieses 'Rauschen‘ auf bestimmte Frequenzbereiche.

Ein wichtiges Merkmal besonders zur Unterscheidung der hinteren Artikulationsstellen ist neben den Transitionen die spektrale Zusammensetzung des Frikativschalls, sein Schwerpunkt und seine Gesamtintensität. Das Frikativspektrum wird durch die Passage des frikativen Grundschalls von dem Ort der Engebildung bis zur Mundöffnung geprägt. Je länger die Passage, desto tiefer sind die am Mund abgestrahlten Frequenzen, bzw. ihr Gesamtschwerpunkt.

Je weiter hinten die Artikulationsstelle des Frikativs liegt, desto tiefer liegt auf der Frequenzachse die untere Grenze des Frikativschwerpunktes (vgl. [s] und [S]) und desto strukturierter ist das Frikativspektrum (vgl. [f] und [h]).

FRIKATIVE

Sitzung 9

Das Spektrum labiodentaler Frikative ist flach. Ihre Energie ist gleichmäßig über alle Frequenzbereiche verteilt mit einer leichten Energiekonzentration im obersten Frequenzbereich oberhalb von 6000 Hz. [f] und [v] sind - besonders im Vergleich zu [s] und [S] - Frikative geringer Energie.

Labiodental [f v]

Sitzung 9

Das Spektrum der alveolaren Frikative weist insgesamt eine sehr hohe Intensität auf. Es gibt eine Energiekonzentration im Bereich von 5000 Hz bis 8000 Hz. Die Untergrenze des Energieschwerpunktes (= Eckfrequenz) kann bei angrenzenden hinteren Vokalen um bis zu 1000 Hz tiefer liegen.

Alveolar [s z]

Sitzung 9

Postalveolare Frikative weisen im Zeitsignal die stärkste Energie, d.h. die höchste Amplitude auf. Dadurch weisen sie im Sonagramm einen sehr hohen Schwärzungsgrad auf. Ihr Energieschwerpunkt liegt im Bereich von 2500 Hz bis 7000 Hz. Damit liegt ihr Schwerpunkt um bis zu 2500 Hz tiefer als bei den alveolaren Frikativen. Die Schwerpunktsuntergrenze (= Eckfrequenz) variiert ebenfalls je nach angrenzendem Vokal.

Postalveolar [S Z]

Sitzung 9

Palatale Frikative sind wesentlich intensitätsschwächer als alveolare oder postalveolare. Ihr Frequenzschwer-punkt reicht hinunter bis ca. 3000 Hz und kann bereits formantähnliche Strukturen aufweisen. Damit liegt ihre Schwerpunktuntergrenze über der der postalveolaren Frikative.Dieses Faktum widerspricht dennoch nicht dem Gesetz der artikulatorischen Tiefe, da sich beim postalveolaren Frikativ [S] die vordere Mundraum-passage durch Lippenrundung verlängert. Dadurch liegt dieser, absolut gemessen, von der Mundöffnung weiter hinten als der palatale Frikativ.

Palatal [ç j]

Sitzung 9

Der velare Frikativ [x] zeichnet sich durch Friktions-energie bis in die untersten Frequenzbereiche aus und läßt sich dadurch vom palatalen [ç] unterscheiden. Sein Spektrum weist eine relativ gut ausgeprägte formant-ähnliche Struktur auf. Sie variiert zwar in Abhängigkeit von den angrenzenden Vokalen, entspricht aber nicht - anders als beim glottalen /h/ - deren Formantstruktur.

Zur Unterscheidung von [x] und [ç] kann im Deutschen der vokalische Kontext hinzugenommen werden, der entscheidet, welches /ch/-Allophon produziert wird, da beide distributive Allophone des Phonems /ch/ sind. So taucht das [x] niemals nach vorderen Vokalen oder initial auf. Das [ç] dagegen kann sowohl initial als auch im Diminuitivsuffix "-chen" nach jedem Vokal auftreten.

Velar [x] Sitzung 9

Sitzung 9

Glottal [h]

Der glottale Frikativ ist ein stark koartikulierter Laut. Das /h/ bezieht seine Vokalqualitäten aus dem

phonetischen Kontext, d.h. sowohl aus dem vorausgehenden als auch dem folgenden Vokal.

Auch im vokalischen Kontext zeigen sich im Bereich von 300 Hz bis 2400 Hz keine Transitionen an den Grenzen des Frikativs.

Lediglich der dritte Formant F3 scheint konstant und damit unabhängig vom Vokalkontext und /h/-immanent zu sein. Er liegt zwischen 2500 Hz und 2800 Hz.

sommersemester 2010 bistra andreeva fr 4.7 phonetik universität des saarlandes...

Documents