d więk w multimediach
DESCRIPTION
D więk w multimediach. Ryszard Gubrynowicz [email protected]. Wykład 7. Jak stany emocjonalne znajdują swoje odbicie w mowie ?. Interpretacja aktorska. happy sad angry interested. bo red. Funkcje emocjonalne cech prozodycznych. - PowerPoint PPT PresentationTRANSCRIPT
Jak stany emocjonalne znajdują swoje odbicie
w mowie ?
2
3
happysadangryinterested
bored
Interpretacja aktorska
Funkcje emocjonalne cech prozodycznych
Słuchacz na ogół kontroluje w wypowiedzi swój stan emocjonalny. W jego wyrażeniu posługuje się przede wszystkim tempem mówienia, głośnością, wprowadzaniem dodatkowych pauz, przedłużaniem niektórych dźwięków, a także modulowaniem melodii. W wypowiedziach nacechowanych emocjonalnie wahania melodii są znacznie większe, niż w wypowiedziach o charakterze neutralnym. Neutralne – 3-4 tony, z dużym ładunkiem emocjonalnym - > 1 oktawy.
4
5
Przykład opozycji szczęśliwy – smutny w konturze melodycznym
Przykład opozycji szczęśliwy – gniewny w konturze melodycznym
6
Przykład z dialogu typu HMIHY – How may I help you ?
Very Frustrated
Somewhat Frustrated
7
Trudności w określaniu emocji
Nadanie wypowiedzi określonego typu emocji jest zadaniem bardzo złożonym. Osoby określające typ wypowiedzi pod względem emocji rzadko są zgodne w swych ocenach, z wyjątkiem krańcowych, lub wyraźnie kontrastowych typów emocji
Słuchacze w swojej ocenie głównie opierają się na cechach prozodycznych, zwłaszcza na iloczasach i stylizowanym przebiegu F0.
8
9
Interkorelacje między emocjami
Emotion sad angry bored frust anxs friend conf happy inter encour
sad 0.44 0.44 0.26 0.22 -0.27 -0.32 -0.42 -0.32 -0.33
angry 0.70 0.21 -0.41 -0.37 -0.09 -0.32
bored 0.14 -0.14 -0.28 -0.17 -0.32 -0.42 -0.27
frustrated 0.32 -0.43 -0.09 -0.47 -0.16 -0.39
anxious -0.14 -0.25 -0.17 -0.14
friendly 0.44 0.77 0.59 0.75
confident 0.45 0.51
happy 0.58 0.73
interested 0.62
encouraging
(p < 0.001)
Cechy emocji w sygnale mowy
Prozodia nie uwzględnia jakości głosu, która może również nieść informację o stanie emocjonalnym osoby mówiącej (chrypka, krzyk, szept itp.) czy stylu mówienia (hyperartykulacja, wstawianie wydłużonych pauz…)
Wydaje się, że cechy akustyczne emocji mogą być specyficzne dla języka
Trudności w jednoznacznym określaniu emocji w sygnale mowy – często niesie równolegle szereg emocji jednocześnie, o podobnym charakterze
10
11
Emocje w płaszczyźnie subiektywnej
12
Strach/złość
-zwiększona prędkość i głośność wypowiedzi-podwyższone F0-zwiększony zakres F0-zaburzony rytm mowy-dokładniejsza artykulacja-zwiększona energia w zakresie wyższych częstotliwości
Smutek/odprężenie
-zmniejszona prędkość i głośność wypowiedzi-obniżone F0-zmniejszony zakres F0-wyrównany rytm mowy, płynna mowa-niedokładna artykulacja-obniżona energia w zakresie wyższych częstotliwości
Emocje kontrastowe w płaszczyźnie akustycznej
13
Miary akustyczne emocjiF0: zakres zmian, wartość średnia, nachylenie konturu (w górę/w dół), kształt konturu na sylabach akcentowanychStruktura harmoniczna sygnału: udział szumów przydechowych, laryngalizacja (zwężone impulsy krtaniowe, duża zmienność okresu tonu krtaniowego)Jasność brzmienia: stosunek energii w górnym zakresie częstotliwości do energii w dolnym zakresieGłośność: zakres zmian, wartość średnia, kontur, plozjiIloczasy: pauz, wyrazów, samogłoska/spółgłoska,
14
Wpływ emocji na głos i mowę
15
Cechy mowy emocjonalnej
Udział cech mowy w detekcji stanu emocjonalnego - radość
16
F0śred :+50%Zakres zmian F0 :+100%Tempo : +30%Jakość głosu = normalny lub napięty, wskaźnik rozchylenia warg F1/F2:+10%
Dla języka niemieckiego
Cechy istotne w detekcji stanu emocjonalnego – złość
17
Dla języka BE
F0śred :+10 HzZakres zmian F0 : 9 półtonówZmiana tempa mowy: +30 słów/minGłośność: +6 dBJakość głosu: laryngalizacja (+78%)Inne: wzrost F0 na akcentowanych sylabachzależnie od stopnia emocji - 10,20 i 40% (podkreślona)
Cechy istotne w detekcji stanu emocjonalnego – smutek
18
F0śred : „0” linia odniesienia - „-1”, końcowe obniżenie, co najmniej „-5”Zakres zmian F0 : „-1 -5”Zmiana tempa mowy : „-10”, pauzy niezbyt długie „+5”, wahania (pauzy) „+10”Głośność: „-5”Jakość głosu: przydechowy „+10”, jasność „-9”Inne: podniesienie częstotliwości na sylabie akcentowanej „+1”, dokładność artykulacji „-5”
Wg skali oceny subiektywnej – język AE
Cechy istotne w detekcji stanu emocjonalnego – zdziwienie
19
Wg skali oceny subiektywnej – język AE
F0śred : „0” linia odniesienia - „-8”Zakres zmian F0 : „+8”, skokowe zmiany konturu melodycznegoZmiana tempa mowy : „+4”, pauzy wydłużone „-510”Głośność: „+5”Jakość głosu: jasność „-3”
Ranking cech akustycznych emocji
Cecha akustyczna SFFS-Rank Single Perf.
F0, maksymalne nachylenie 1 31.5
FO, standardowe odchylenie odległości między przeciwstawnymi sobie punktami
2 23.0
F0, wartość średnia 3 25.6
Sygnał, gęstość przejść przez zero 4 16.9
F0, odchylenie standardowe 5 27.6
Iloczas pauz, wartość średnia 6 17.5
Iloczas głosek dźwięcznych, wartość średnia 7 18.5
Energia, średnia czasu opadania 8 17.8
Energia, średnia odległość między przeciwstawnymi sobie punktami
9 19.0
Energia, średnia czasu narastania 10 17.6 20
SFFS- Sekwencyjna selekcja podzbioru cech
Synteza mowy emocjonalnej
21
http://emosamples.syntheticspeech.de/#big4
Mechanizm percepcji dźwięków
22
23
Układ akustycznyUkład akustycznyodbiornik odbiornik - - ośrodekośrodek - - źródłoźródło
Narząd słuchuNarząd słuchu
W systemie percepcji dźwięków można wyróżnić 2 zasadnicze – układ peryferyjny słuchu i układ nerwowy tego narządu poprzez który dokonywane jest przetwarzanie bodźców na wyższych piętrach układu nerwowego (w mózgu). W narządzie słuchu dokonywane jest przetwarzanie zmian ciśnienia akustycznego na rozkład drgań na błonie podstawnej, który jest przekształcany na odpowiednie serie impulsów pobudzających nerw słuchowy. Informacje o odbieranych sygnałach docierających do narządu słuch są ekstrahowane na różnych poziomach układu nerwowego. 24
Anatomia narządu słuchu
25
Zasadnicze elementy Zasadnicze elementy narządu słuchu narządu słuchu
26
Schemat funkcjonalny organu słuchu
27
Charakterystyka częstotliwościowa ucha zewnętrznego
28Charakterystyka małżowiny – kąt 450
Ucho środkowe (przekrój)
1 – młoteczek
2 – kowadełko
3 – strzemiączko
4 – błona bębenkowa
5 – okienko okrągłe
6 – trąbka Eustachiusza (łączy z częścią gardłowo-nosową)
29
Ucho środkowe (od wewnątrz)1 – młoteczek, 2 – jego ścięgno3 – kowadełko, 4 – jego ścięgno6 – stopa strzemiączka, 5 – mięsień strzemiączka7 – błona bębenkowa
Układ kosteczek słuchowych (1,3,6) jest układem mechanicznym dopasowującym drgania w powietrzu do drgań w płynie którym jest wypełnione ucho wewnętrzne.
Bez tego układu 98% energii akustycznej uległoby odbiciu. 30
31
Funkcje kosteczek słuchowych swoistego rodzaju układ przekładni mechanicznej dopasowujący drgania w powietrzu do drgań w cieczy. Zamienia duży ruch tłoka o dużej powierzchni (błona bębenkowa) na mały ruch tłoka o małej powierzchni (podstawa strzemiączka w okienku owalnym). Wzmocnienie siły wynosi 27 razy. Transmisja dźwięków jest najskuteczniejsza w przedziale częstotliwości 500-4000 Hz. układ zabezpieczający – powyżej 90 dB(<1-2 kHz), następuje wzrost napięcia mięśni usztywniających układ kosteczek, w wyniku czego następuje ograniczenie przepływu energii akustycznej (odruch strzemiączkowy). Odruch ten jest zbyt wolny by chronić ucho przed hałasem impulsowym, np. wystrzał z broni palnej, gwałtowne pęknięcie ABS. 32
Jak działa ucho środkowe ?
Strzemiączko jest tłokiem umieszczonym w ścianie kostnej ucha wewnętrznego (w okienku owalnym). Tłok pobudza do drgań nieściśliwą ciecz wypełniającą przestrzenie ucha wewnętrznego.
Niska częstotliwość falidocierającej do ucha
Wysoka częstotliwość falidocierającej do ucha
33
Praca układu kosteczek ucha środkowego
34
Wzmocnienie w uchu środkowym
35
Występują tu dwa efekty – efekt wzmocnienia tłokowego (S1 /S2 ) ≈ 20 . S1 = 0.6 cm2
Efekt dźwigni (kosteczki) - d1/d2=1.3
Łączne wzmocnienie = 26 (28 dB)
Charakterystyka transmitancji ucha środkowego
36
Funkcje transmitancji ucha zewnętrznego i środkowego
Zewnętrzny przewód słuchowy (o długości 2-3 cm, średnica 1 cm) ma skomplikowaną geometrię, co powoduje, że w jego charakterystyce transmitancji występuje szereg rezonansów (ok. 6) w zakresie od 3 do 12 kHz. Małżowina uszna wspomaga kierunkowe słyszenie dźwięków.Funkcja transmitancji ucha środkowego ma jeden dominujący rezonans w pobliżu 1 kHz. Razem, obie części narządu słuchu kształtują częstotliwościową charakterystykę czułości słuchu z szerokim maksimum położonym w pobliżu 3 kHz.
37
Porównanie charakterystyki czułości słuchu z łączną charakterystyką ucha
zewnętrznego i środkowego
38Ucho wewnętrzne działa jak swoistego rodzaju detektor poziomu o stałym poziomie detekcji
Budowa ślimaka
Ślimak płodu (5 mies) – 2,5 zwojówo – okienko owalne, r – okienko
okrągłe (struktura kostna usunięta)
5 mm1 – kanał ślimakowy, 2 – schody przedsionka 3 – schody bębenka,
4 – zwój nerwowy5 – nerw słuchowy 39
40
41
Basilar membrane: it moves according to the pressure wave induced by the movement of
the eardrum on the oval window
Auditory nerve axons
VIII cranial nerve
The organ of Corti
inner outer
Two groups of hair cells: 1 row of Inner Hair Cells (IHC)and 3 rows of
Outer Hair Cells (OHC)
IHC connect to 90-95% of afferent auditory fibers
OHC are mostly efferent: top-down information modulates their response
Hair cells have stereocilia or “hairs” at their top. Their height increases progressively along the cell. The
longest is called “kinocilium”
Hair cells
1. Movement of basilar membrane
3. Receptor potential. Depolarization because of the entry of Potassium ions (K+) and subsequent
entry of Calcium ions (Ca++) 4. Synaptic vesicles release a neurotransmitter (glutamate), triggering the nervous impulse
2. Hair cell movement: increasing tension opens the ionic channels
in the hair cells. An ionic exchange happens
Dynamics of hair cells
Pobudzanie ślimaka
Długość membrany podstawnej – ~35mm
45
Drgania membrany podstawnej
Przebieg sinusoidalny niskiej częstotliwości
Przebieg sinusoidalny o wysokiej częstotliwości
Membrana tu drga niemal na całej swej długości
Tu membrana drga tylko do określonego miejsca46
Rozkład drgań na membranie podstawnej – 100 Hz
47
Rozkład drgań na membranie podstawnej – 400 Hz
48
Rozkład drgań na membranie podstawnej – 1200 Hz
49
Rozkład drgań na membranie podstawnej – 4800 Hz
50
Drgania membrany podstawnej przy pobudzeniu tonem sinusoidalnym
Dźwięki o różnych częstotliwościach wywołują maksymalny ruch membrany w jej różnych miejscach. W ten sposób powstaje przełożenie częstotliwości dźwięku na miejsce i dalej na odpowiednio zróżnicowanej odpowiedzi neuronów.
podstawa osklepek
51
Pobudzanie membrany podstawnej przez dźwięk złożony
52
Przekrój zwoju ślimaka
53
Przekrój zwoju ślimakowego
4 – błona Reisnera, 5 – membrana podstawna, 6 – błona pokrywkowa
Organ Cortiego
Schody przedsionka
Schody bębenka
54
Schemat organu Cortiego1- wewnętrzne
komórki rzęskowe2- zewnętrzne
komórki rzęskowe3- tunel Cortiego4- membrana
podstawna5- błona
siateczkowata6- błona pokrywkowa7- komórki Deitersa8- przestrzeń Nuela9- komórki Hensena
Drgający ruch struktur organu Cortiego wywołuje pobudzenie neuronów, co powoduje, że słyszymy dźwięk
55
Blona podstawnaOdśrodkowe
nerwy słuchowemózg
Zewnętrzne k. rz.
Wewnętrzne k. rz.
Organ Cortiego i włókna nerwoweGraeme Clark
The Bionic Ear Institute
56
Płyny w ślimaku3 zwoje ślimaka są wypełnione płynami – endolimfą i perylimfą. Mają one zasadnicze znaczenie dla działania komórek rzęskowych, które wytwarzają impulsy elektryczne
Różnice w składzie jonowym endolimfy i perylimfy powoduje powstanie między nimi różnicy napięć około
80 mV. 57
Komórki rzęskowe zewnętrzne i wewnętrzne
zewnętrzne wewnętrzne
W ślimaku jest 3 500 wewnętrznych komórek rzęskowych i 12 000 zewnętrznych. Jest to znikoma ilość w porównaniu z receptorami narządu wzroku
58
Funkcje komórek rzęskowych
59
Komórki rzęskowe wewnętrzne są przymocowane do doprowadzających włókien nerwu ślimakowego i ich funkcją jako „rzeczywistych komórek słuchowych” jest zamiana informacji akustycznej na sygnały nerwowe. Komórki rzęskowe zewnętrzne są w przeważającym stopniu stymulowane przez włókna odprowadzające nerwu ślimakowego i często są opisywane jako „silnik” ślimakowego wzmacniacza. Ich zadaniem jest spowodowanie, aby maksymalne uwypuklenie błony podstawnej było bardziej wyraźne tak, aby komórki rzęskowe wewnętrzne to zarejestrowały. Tak więc komórki rzęskowe zewnętrzne służą jedynie do tego by wzmocnić wędrującą falę, podczas gdy komórki rzęskowe wewnętrzne zamieniają bodźce mechaniczne na potencjał bioelektryczny.
Efekt współdziałania zewnętrznych i wewnętrznych komórek rzęskowych
60
Tylko dzięki współdziałaniu i wzajemnym oddziaływaniu komórek rzęskowych wewnętrznych i zewnętrznych ucho posiada tak niski próg słyszenia (= podwyższenie amplitudy wędrującej fali) i taką czułość w rozróżnianiu częstotliwości(=strome przesunięcie wędrującej fali).
Uszkodzona komórka rzęskowa zewnętrzna
zewnętrzne wewnętrzne
Uszkodzona komórka rz.61
Przestrzenny rozkład drgań w błonie podstawnej
62
osklepek
podstawa
Okienko owalne
Kierunek rozchodzenia się fali bieżącej
Rozkład komórek rzęskowych na błonie podstawnej
type 1
type 2Tonoto
py
Nerwy słuchowe w uchu wewnętrznym
Błona siateczkowataBłona siateczkowata
Wise et al, The Bionic Ear Institute, 2003.20 µm
Ludzki włos
60 µm60 µm
Spiralny zwój nerwowy
Zewnętrzne k.rz.
Wewnętrzne k.rz.
64
65
Mechaniczne i elektryczne własności komórek rzęskowych
Przy podstawie (bliżej okienka owalnego) komórki rzęskowe rozmieszczone wzdłuż błony podstawnej są odpowiednio dostrojone częstotliwościowo elektrycznie jak i mechanicznie. Rzęski przy okienku owalnym są krótsze i sztywniejsze, te bardziej oddalone są dłuższe i bardziej elastyczne. Jednocześnie własności komórek rzęskowych, decydujące o częstotliwości wyładowań elektrycznych własnych, są zgodne z rozmieszczeniem komórek wzdłuż membrany podstawnej. Częstotliwość wyładowań jest zgodna z rozkładem rezonansów błony podstawnej. A każdy neuron ma swoją „częstotliwość charakterystyczną”.
Schemat działania organu Cortiego
66
Rzęski zaczynają wychylać się w dwie strony (wychylenie czubków – 0.3 nm). W tym samym czasie dochodzi do zamykania się i otwierania kanałów jonowych . Dzięki nim z endolimfy ślimaka do wnętrza rzęsek napływają jony potasu. W ten sposób zostają wywołane chwilowe zmiany potencjału. Na zmiany te reagują zakończenia komórek nerwowych, które powstałe pobudzenie przekazują dalej do wyższych pięter układu słuchowego.
67
68
Rozkłady drgań na błony podstawnej w funkcji częstotliwości
f= 1000 Hz
f= 8000 Hz
f= 1000 Hz i 8000 Hz
Poziom => głośny cichy
69
Synchronizacja fazowa
Komórki rzęskowe rozmieszczone wzdłuż błony podstawnej są odpowiednio dostrojone częstotliwościowo elektrycznie, jak i mechanicznie.
Synchronizacja fazowa
Odpowiedź neuronu słuchowego na dźwięki o niskiej częstotliwości
Odpowiedź pozostaje zsynchronizowana dla dużego zakresu intensywności71
Synchronizacja fazy z pobudzeniem sinusoidalnym
Dla częstotliwości < 5 kHz, impulsy nerwowe pojawiają się z określoną fazą zgodnie z cyklem sygnału pobudzającego. Wyładowania te nie pojawiają się w każdym cyklu pobudzenia. Jednakże odległość między pojedynczymi impulsami może wynosić 2,3 lub więcej cykli.
72
73
Schemat synchronizacji pobudzeń
Schemat pobudzenia
neuronu
Zsynchronizowana odpowiedź słuchowa
• Włókna nerwowe synchronizują swoją odpowiedź w celu jej wyostrzenia w zakresie niskich częstotliwości i wygładzenia obwiedni w zakresie wysokich częstotliwości
• Synchroniczność odgrywa istotną rolę w
procesie lokalizacji źródeł dźwięków
74
Zakres dynamiczny słyszenia
• Im większa jest liczba impulsów/s tym większe wrażenie głośności
• Im większa jest liczba pobudzonych zakończeń nerwowych, tym dźwięk jest odbierany jako głośniejszy
75
Częstotliwościowa czułość słuchu
Pomiar dla pojedynczego nerwu. Charakterystyka jest symetryczna w skali log f. 76
Odpowiedź włókna nerwowego na 2 tony
77
Pojawienie się tonu w strefie zakreskowanej powoduje zmniejszenie się liczby impulsów odpowiadającej tonowi testowemu, co zwiększa lokalny kontrast częstotliwości.
Częstotliwościowa zależność poziomu progowego włókien nerwowych
78Szerokość pasma zależy od częstotliwości środkowej . Częstotliwościowe zakresy odpowiedzi są asymetryczne.
79
Membrana podstawna – rozkład częstotliwości
Od osklepka (szczytu) w kierunku podstawy błony podstawnej rozkład miejsc pobudzeń zmienia się proporcjonalnie do logarytmu częstotliwości
80
Membrana podstawna – rozkład częstotliwości pobudzeń
Znaczna część długości błony podstawnej reaguje na niższy zakres częstotliwości (zakres F1 w mowie), przy czym większość odpowiedzi neuronów jest w zakresie poniżej środkowych częstotliwości (2-3 kHz).
Słuch, mowa w korze mózgowej
81
Ośrodek Wernickego – słuchowy ośrodek mowyObszar Broca – okolica ruchowa mowy
Kodowanie częstotliwości w mózgu
20 kHz
10 kHz
5 kHz
25
10 20
2 kHz
Graeme Clark
The Bionic Ear Institute
polesłuchowe
ślimak 82
83
Implant ślimakowy – część zewnętrzna
1. mikrofon 2. przewód doprowadzający 3. procesor mowy 4 cewka odbiorcza 5. cewka odbiorcza wysyłająca poprzez skórę sygnały FM do implantowanego odbiornika pobudzającego 6. odbiornik pobudzający 7. elektrody pobudzające zakończenia nerwu słuchowego w ślimaku 8. nerw słuchowy 84
Implant ślimakowy – część wewnętrzna
85
Elektrody implantu ślimakowego
86
Wymiary elektrod
0.3mm0.3mm
0.45mm0.45mm
87
Procedura SPEAK
Widmo chwilowe
20-kanałowy zestawfiltrów pasmowych
Sygnał mowy
/a/
Powierzchnia elektrodpodstawaosklepek
6 maksymalnych napięć
88
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5-6
-4
-2
0
2
4
6
8Waveform of Original Sound
Time (sec)
Am
plit
ud
e
TextEnd
Time
Fre
qu
en
cy
TextEnd
Spectrogram of Original Sound
0 0.5 1 1.5 2 2.5 3 3.5 4 4.50
2000
4000
6000
8000
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5-1
-0.5
0
0.5
1
1.5
2x 104 Simulated waveform
Time (sec)
Am
plit
ud
e
TextEnd
Time
Fre
qu
en
cy
TextEnd
Spectrogram of simulated waveform
0 0.5 1 1.5 2 2.5 3 3.5 4 4.50
2000
4000
6000
8000
From herrick_uedamodel/script_demo1: best 6 of 16 channels, 250 Hz pulserate, 16 kHz sampling H/U filterbank
Symulacja działania implantu ślimakowego
89
Wpływ liczby kanałów pobudzających na zrozumiałość mowy
1
2
4
8
16
90