automatic speech recognition (seminarium)
TRANSCRIPT
- 1. Historia automatycznego rozpoznawania mowy
- Na podstawie:
- Automatic Speech Recognition- a Brief History of the Technology Development B.H. Juang & Lawrence R. Rabiner Arkadiusz Janicki seminarium na przedmiot: Automaty z wagamiprowadzcy: Sebastian Bala Uniwersytet Wrocawski, zima 2008
2. Skrty i pojcia
- ASR- automatic speech recognition - automatyczne rozpoznawanie mowy
- rozpoznawacz mechanizm (system, algorytm) do automatycznego rozpoznawania mowy.(Nie ma takiego sowa w sowniku PWN, ale wydaje si by utworzone wg poprawnych regu. Myl, e p. Miodek by mnie nie skrzycza.)
3. Po co nam rozpoznawacze mowy? Motywacje
- wyzwanie samo w sobie!
- ciekawo mechanizmw pozwalajcych na zautomatyzowanie procesu mwienia
- usprawnienie komunikacji pomidzy czowiekiem a komputerem
- zaprojektowanie maszyny z ktr mona by porozumiewa si w jzyku naturalnym (najwygodniejszym do wikszoci zada)
4. Historia 5. 1773 - Christian Kratzenstein
- rosyjski naukowiec, wytumaczy fizjologicznernice odpowiedzialne za rne brzmienie samogosek, oraz zaprezentowa aparat generujcy dwiki za pomoc rur rezonansowych podczonych do organw (np. kocielnych)
6. 1791 - Wolfgang von Kempelen
- Acoustic-Mechanical Speech Machine
7. 1879 - Charles Wheatstone
- rezonator zrobiony ze skry - mona byo rcznie modulowa gos
8. 1877 Gadajca lala - Thomas Edison 9. 1881 A.G. Bell, C. Bell i C.S. Tainter
- dyktafon - woskowa pyta
- automatyzacja biura - dyktowanie tekstw dla stenotypistek
10. 1922 - Fletcher et al.@ Bell Laboratories
- dokumentacja zwizku pomidzy spektrum gosu (rozkad siy dwiku pomidzy czstotliwociami), oraz informacje o tym jak gos jest odbierany przez czowieka.
11. 1930 - Homer Dudley - VODER
- Zafascynowany prac Fletchera stworzy VODERA Voice Operating DemonstratoR
12. VODER UI:
- nadgarstek: pasek wyboru- relaxation oscylator lub szum
- noga: peda do kontrolowania czstotliwoci oscylatora (tonacji gosu syntezatora).
- palce: 10 filtrw siy dwiku w danej czstotliwoci
13. 14. VODER podczas 'World Fair' New York, 1939
- wielki krok w ewolucji maszyn mwicych
15. 1961 - IBM 7094 - pierwszy piewajcy komputer
- Bell Laboratories - John Kelly, Carol Lockbaum, Max Mathews
- Arthur C. Clarke by przypadkowym gociem podczas demonstracji, co zaskutkowao umieszczeniem piosenki w Odysei Kosmicznej 2001
16. Daisy, Daisy...
- HAL 9000 piewa t piosenk gdy Dave Bowman "przecza go na stan upienia"
- (...) Daisy, Daisy, give me your answer do I'm half crazy all for the love of you It won't be a stylish marriage I can't afford a carriage But you'll look sweet upon the seat Of a bicycle made for two(...)
17. Rozpoznawanie gosu
- wczesne techniki bazoway na teorii akustyczno-fonetycznej i zrozumieniu jak gos jest generowany podczas wypowiedzi.
- np. aby wygenerowa samogosk struny gosowe musz wibrowa. naturalne czstotliwoci zwane formantami, lub czstotliwociami formantowymi (formant frequencies) s widoczne jako due skupiska energii na diagramach czstotliwoci
18. 19. 1952 - Davis, Biddulph, and Balashek @ Bell Laboratories
- rozpoznawacz cyfr dla jednego uytkownika, pniej 10 sylab
- Forgie and Forgie & MIT Lincoln Lab rozpoznawacz 10 samogosek dla wielu uytkownikw
20. 21. 1959 - Fry, Denes@ University College, England
- rozpoznawacz fonemw - 4 samogoski, 9 spgosek
- dodajc informacjestatystycznezwikszyli poprawno dla sw skadajcych si z 2 lub wicej fonemw
- pierwsze uycie skadnistatystycznej(na poziomie fonemw)
22. 1960s - japoski hardware
- rozpoznawacz cyfr - NEC Laboratories 1963
- rozpoznawacz samogosek - Suzuki and Nakata @ the Radio Research Lab in Tokyo 1961
- rozpoznawacz fonemw - Sakai and Doshita@ Kyoto University 1962
-
- segmentowaniewypowiedzi i analiza rnych porcji danych
-
- prekursor rozpoznawaniamowy cigej(continuous speech recognition)
23. Tom Martin @ RCA Laboratories
- alternatyw dla segmentowania byo uycie niejednorodnej skali czasu
- Tom Martin @ RCA Laboratories
- tymczasowa niejednorodno przy powtrzeniach, wykrywanie zakocze wypowiedzi, ...
24. Vintsyuk @ ZSRR 1968
- uyciedynamicznego programowaniado lepszego dopasowania czasu midzy dwiema wypowiedziami poprawiao jako oceny ich podobiestwa.
- jego praca, chocia mao znana na zachodzie, wydaje si wyprzedza osignicia Sakoe i Chiba [18] i innych, ktrzy zaproponowali bardziej formalne metody, znane jako dynamiczne wygicia czasu w dopasowaniu wzorca w mowie.
25. Programowanie dynamiczne
- od pnych lat 70-tych, gwnie dziki publikacji Sakoe i Chiba programowanie dynamiczne w przernych formach stao si nieodzownym elementem systemw ASR.
26. ARPA rozdaje granty ('70)
- Advanced Research Projects Agency (ARPA) of the U.S. Department of DefensefundujeSpeech Understanding Research (SUR)
- Carnegie Mellon Universitys Harpy - pierwszy system wykorzystujcy sieci stanw (finite state network FSN)
- rozpoznawany jzyk by dostarczony jako poczona sie stworzona na podstawie danych sownikowych z syntaktycznymi reguami produkcji i zakresami sw.
27. Fred Jelinek, IBM
- voice-activated typewriter (VAT), system transkrypcji dla jednego uytkownika
- skupiono si na wielkoci sownika - tak duego jak si da i strukturze modelu jzyka (gramatyce).
- statystyczne zasady syntaktyczne definioway z jakim prawdopodobiestwem sekwencja symboli (sw lub fonemw) moga pojawi si w wypowiedzi.
28. n-gramy
- zestaw zasad statystycznych nazywano 'modelem jzyka' i do jego reprezentacji najczciej uywano modelu'n-gramw'
- model n-gramw definiowa zalenoci w zakresie n sw - jest to bardzo wygodna i mocna statystyczna reprezentacja gramatyki
- Claude Shannon 1948 - zawody pomidzy czowiekiem a komputerem. zadanie: odgadnicie kolejnego sowa w zdaniu. komputer bazowa na wiedzy statystycznejn-gramw o dugoci 3 i mia znaczn przewag nad czowiekiem.
29. AT&T Bell Laboratories
- zautomatyzowane usugi telekomunikacyjne (wybieranie gosowe, przeczanie rozmw, etc.)
- dua wydajno - system mia dziaa dla dziesitkw milionw amerykanw,
- speaker-independent - bez potrzeby trenowania systemu dla indywidualnego uytkownika, bez wzgldu na jego ton gosu czy akcent
30. AT&T Bell Laboratories
- efektem bya caa gama algorytmw do tworzenia wzorcw sw i wyrazw, ktre rozpoznawayby sowo niezalenie od gosu czy akcentu.
- badania nad zrozumieniem akustycznej rnorodnoci gosw zaskutkowao wynalezieniem metod mierzenia odlegoci spektralnej (np. odlego Itakury[22])
- 'keyword spotting' - prosta forma rozumienia wypowiedzi.
31. 1980s
- zmiana metodologii z bardziej intuicyjnych metod opartych na wzorcach, na bardziej rygorystyczne rodowiska modelowania statystycznego (statistical modeling framework).
- w poowie lat '80 pojawiy si publikacje dotyczce HMM
- od tego czasu, do dzi HMM s podstawowym narzdziem wykorzystywanym w ASR, gwnie ze wzgldu na stay rozwj i cige usprawnienia tej technologii
32. HMM Hidden Markov Model(ukryty model Markova)
- HMM to podwjny proces stochastyczny modelujcy: 1) specyficzne zachowania sygnau gosowego wraz ze spektralnymi efektami 2) struktur jzyka w SMF (statistical modeling framework). Za pomoc prbek uczcychi algortymu Baum'a-Welch'a, tworzymy najlepsz sie odpowiadajc danemu modelowi.
33. 34. HMM
- poczenie HMM i skoczonej sieci stanw byo kolejnym wanym osigniciem '80
- w kadej chwili jest sprawdzanych wiele hipotetycznych moliwoci zidentyfikowania dwiku i wybierana jest ta o najlepszym wyniku
- liczba hipotez do sprawdzenia moe by ogromna i moe wymaga wielkiej mocy obliczeniowej
- finite state transducer - opracowana w poowie lat 90 staa si gwnym komponentem prawie wszystkich wspczesnych systemw rozpoznawania i rozumienia mowy.
35. artificial neural networks (ANN)
- ponowne prby w pnych latach '80
- sukcesy z rozpoznawanie pojedynczych cyfr
- jednak ograniczenia wynikajce ze specyfiki danych (czasowa zmienno)
- aktualnie trwaj prace nad poczeniem ANN i HMM
36. Lata '90 - wiele innowacji
- pattern recognition przeszo w problem optymalizacyjny, w ktrym starano si minimalizowa empirical recognition error [44].
- uzmysowiono sobie, e rozkad funkcji gosu nie moe by dokadnie wyznaczony, ani zdefiniowany, wic Bayes'owska teoria decyzyjna jest w tym przypadku nieodpowiednia
- celem rozpoznawacza powinno by osignicie jak najmniejszego bdu podczas rozpoznawania, a nie najlepsze dopasowanie do zadanego zestawu danych.
- wynik: zastosowanie discriminative training, support vector machines (SVM), ...
37. DARPA rzuca groszem
- sukces metod statystycznych zdoby zainteresowanie DARPA na przeomie '80/'90, w wyniku czego powstao kilka systemw:
- SPHINX system from CMU [47]
- BYBLOS system from BBN [48]
- DECIPHER system from SRI [49]
38. do pocztkw XXI wieku:
- kontynuowano prace nad systemami o rosncym stopniu trudnoci
- od rozpoznawania cigej mowy o stylizowanej strukturze gramatycznej (uywanej w zadaniach wojskowych, np. zarzdzaniu jednostkami morskimi)
- do transkrypcji wiadomoci (radiowych/telewizyjnych) (e.g., NAB uywajcy sownika o ponad 20K sw), oraz rozmw.
39. 40. Hidden Markov Model Tool Kit (HTK)
- System opracowany przez zesp z Cambridge University (led by Steve Young)[51], by i jest do dzisiaj jednym z najczciej adoptowanych narzdzi do bada nad automatycznym rozpoznawaniem mowy.
41. Zmiana dyskursu
- Wikszo bada nad ASR bya skoncentrowana na przetworzeniu gosu na sowa. wierzono, e jest to najwaniejszy problem z jakim trzeba byo si upora, aby zbudowa maszyn zdoln do rozmw.
- Po latach dowiadcze zaobserwowano dwie wane sprawy:
42. Zmiana dyskursu
- 1) ludzie, rozmawiajc z komputerami, czsto mwili naturalnym jzykiem, ktry nie zawsze spenia gramatyczne wizy rozpoznawacza (sowa spoza sownika, niegramatyczne konstrukcje i zdania)a dodatkowo gos by czsto zakcony rnego rodzaju haasami
- 2) podobnie jak w tradycyjnej formie komunikacji (czowiek z czowiekiem), tak i w przypadku aplikacji konwersujcych, czsto, aby uzyska odpowiedni stopie zrozumienia, potrzebny by dialog pomidzy rozmawiajcymi.
43.
- W takim dialogu pozwalano na operacje pytania i potwierdzania, dopuszczajc moliwo bdw w rozpoznawaniu lub rozumieniu wypowiedzi.
- z pierwszym problemem radzono sobie ju w pocztkowych aplikacjach (keyword spotting w AT&T)
- drugi problem skupi uwag spoecznoci badaczy na obszarzezarzdzania dialogiem.
44. 45. Pegasus, Jupiter - MIT 2000
- Pegasus i Jupiter to systemy z ktrymi mona porozmawia przez telefon. Pierwszy dostarcza informacji o lotach samolotw, drugi o pogodzie.
- Dziki bobrze zaprojektowanemu zarzdzaniu dialogiem systemy te dostarczay uytkownikowi odpowiednich informacji, bez koniecznoci zadawania szczegowych zapyta, oraz przedzierania si przez pozycje menu.
- Celem byo zaprojektowanie maszyny, ktra potrafia si komunikowa, a niekoniecznie rozumiaa wypowiadane sowa.
46. dzisiaj:
- HMIHY - How May I Help Yousystem at AT&T, Al Gorin - Consumer Communications Services in 2000
- technologia dostpna dla ograniczonego, ale ciekawego zakresu zastosowa
47. 48. - Apple Computer - wizja technologii na 2011 (apple community 1988)
- Knowledge Navigator =Speech User Interface (SUI)+ Multimodal User Interface (MUI)+ intelligent voice-enabled agents