Обзор инструментов распознавания речи

Обзор инструментов распознавания речи

для мобильных устройств

[email protected]

mailto:[email protected]?subject=

Как работают все эти системы?

• сигнал

• фонемы [Й], [А]

• фреймы

• распределение вероятностей

Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы анализируются и структурируются в иерархию структурных элементов (например, фонем), слов, фраз и предложений.

Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы анализируются и структурируются в иерархию структурных элементов (например, фонем), слов, фраз и предложений.СКУКОТА

Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры

(фото выше просто картинка по запросу «старая эвм», к устройству отношения не имеет. Наверно)

https://ru.wikipedia.org/wiki/1952_%D0%B3%D0%BE%D0%B4

• голосовое управление

• голосовые команды

• голосовой ввод текста

• голосовой поиск

• модуль шумоочистки

• акустическая модель

• языковая модель

• декодер

1. Оценка качества2. Расчет параметров3. Выделение характеристик для анализа4. В декодер!

Открытый Закрытый

Dragon Mobile SDK

Благодарю за внимание

[email protected]Карпов Паша

mailto:[email protected]?subject=

Все полезные ссылки на одном слайде, ура!

Регаемся на Dragon Mobiledragonmobile.nuancemobiledeveloper.com/public/index.php

Старенький док по Google Speech APIhttps://dvcs.w3.org/hg/speech-api/raw-file/tip/speechapi.html

По ЯндексуКраткое описание технологии: api.yandex.ru/speechkit/Документация для Android: api.yandex.ru/speechkit/generated/android/html/index.htmlДокументация для iOS: api.yandex.ru/speechkit/generated/ios/html/index.htmlСкачать же библиотеки можно на портале Технологий «Яндекса»: api.yandex.ru/speechkit/downloads/

Майкрософтовские технологииhttps://msdn.microsoft.com/en-us/library/hh323806.aspx

По опенсурсам1) Kai Fu Li, Hsiao-Wuen Hon. An overview of the Sphinx Speech Recognition Systems www.ri.cmu.edu/pub_files/pub2/lee_k_f_1990_1/lee_k_f_1990_1.pdf 2) Rybach, D.; C. Gollan, G. Heigold, B. Hoffmeister, J. Lööf, R. Schlüter, H. Ney (September 2009). «The RWTH Aachen University Open Source Speech Recognition System». Interspeech-2009: 2111–2114.3) Peter Grasch: simon: Open Sourcing Speech Recognition with KDE technology: www.desktopsummit.org/program/sessions/simon-open-sourcing-speech-recognition-kde-technology 4) Interactive Analysis, Transcription and Translation of Old Text Documents: prhlt.iti.upv.es/page/projects/multimodal/idoc/iatros 5) SHoUT speech recognition toolkit: www.digibic.eu/techprofile.asp?slevel=0z84z101&parent_id=101&renleewtsapf=1255

http://dragonmobile.nuancemobiledeveloper.com/public/index.php

https://dvcs.w3.org/hg/speech-api/raw-file/tip/speechapi.html

http://api.yandex.ru/speechkit/

http://api.yandex.ru/speechkit/generated/android/html/index.html

http://api.yandex.ru/speechkit/generated/ios/html/index.html

http://api.yandex.ru/speechkit/downloads/

https://msdn.microsoft.com/en-us/library/hh323806.aspx

http://www.ri.cmu.edu/pub_files/pub2/lee_k_f_1990_1/lee_k_f_1990_1.pdf

https://www.desktopsummit.org/program/sessions/simon-open-sourcing-speech-recognition-kde-technology

https://prhlt.iti.upv.es/page/projects/multimodal/idoc/iatros

http://www.digibic.eu/techprofile.asp?slevel=0z84z101&parent_id=101&renleewtsapf=1255

Все клевые книги по теме также на одном слайде,

уааау!• Huang Xuedong. Spoken language processing: a guide to theory, algorithm and system development. –New Jersey: Prentice Hall PTR, 2001. 910 p. (Настольная книга любого, кто хочет заниматься распознаванием речи. Многое из того, что приведено в цикле моих заметок взято именно из этой книги. Must Have.)

• Чистович Л. А., Венцов А. В., Гранстрем М. П. Физиология речи. Восприятие речи человеком. – Л.: Наука, 1976. (Книги по распознаванию речи на русском языке, к сожалению, прекратили выпускать еще 80-х годах. Но даже те, которые были выпущены стоят того, чтобы их изучить. Из этой книги я почерпнул информацию о слуховом тракте, устройстве улитки. Если кому интересны ТТХ слухового канала — милости прошу.)

• DongSuk Yuk. Robust speech recognition using neural networks and hidden Markov models. Adaptations using non-linear transformations. – New Jersey: The State University of New Jersey, 1999. (Многие американские ученые выкладывают тексты своих диссертаций в свободный доступ. Большое им за это человеческое спасибо.)

+++++++++

1) Frequently Asked Questions (and Answers) about Copyright: www.chillingeffects.org/copyright/faq.cgi#QID805

2) Stoughton, Nick (April 2005). «Update on Standards» (PDF). USENIX. Retrieved 2009-06-04.

3) Kai Fu Li, Speech Input API Specification. Editor's Draft 18 October 2010 Latest Editor's Draft: dev.w3.org/… Editors: Satish Sampath, Google Inc. Bjorn Bringert, Google Inc.

http://www.chillingeffects.org/copyright/faq.cgi#QID805

http://dev.w3.org/