Обзор инструментов распознавания речи
TRANSCRIPT
Обзор инструментов распознавания речи
для мобильных устройств
Как работают все эти системы?
• сигнал
• фонемы [Й], [А]
• фреймы
• распределение вероятностей
Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы анализируются и структурируются в иерархию структурных элементов (например, фонем), слов, фраз и предложений.
Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы анализируются и структурируются в иерархию структурных элементов (например, фонем), слов, фраз и предложений.СКУКОТА
Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры
(фото выше просто картинка по запросу «старая эвм», к устройству отношения не имеет. Наверно)
• голосовое управление
• голосовые команды
• голосовой ввод текста
• голосовой поиск
• модуль шумоочистки
• акустическая модель
• языковая модель
• декодер
1. Оценка качества2. Расчет параметров3. Выделение характеристик для анализа4. В декодер!
Открытый Закрытый
Открытый Закрытый
Dragon Mobile SDK
Все полезные ссылки на одном слайде, ура!
Регаемся на Dragon Mobiledragonmobile.nuancemobiledeveloper.com/public/index.php
Старенький док по Google Speech APIhttps://dvcs.w3.org/hg/speech-api/raw-file/tip/speechapi.html
По ЯндексуКраткое описание технологии: api.yandex.ru/speechkit/Документация для Android: api.yandex.ru/speechkit/generated/android/html/index.htmlДокументация для iOS: api.yandex.ru/speechkit/generated/ios/html/index.htmlСкачать же библиотеки можно на портале Технологий «Яндекса»: api.yandex.ru/speechkit/downloads/
Майкрософтовские технологииhttps://msdn.microsoft.com/en-us/library/hh323806.aspx
По опенсурсам1) Kai Fu Li, Hsiao-Wuen Hon. An overview of the Sphinx Speech Recognition Systems www.ri.cmu.edu/pub_files/pub2/lee_k_f_1990_1/lee_k_f_1990_1.pdf 2) Rybach, D.; C. Gollan, G. Heigold, B. Hoffmeister, J. Lööf, R. Schlüter, H. Ney (September 2009). «The RWTH Aachen University Open Source Speech Recognition System». Interspeech-2009: 2111–2114.3) Peter Grasch: simon: Open Sourcing Speech Recognition with KDE technology: www.desktopsummit.org/program/sessions/simon-open-sourcing-speech-recognition-kde-technology 4) Interactive Analysis, Transcription and Translation of Old Text Documents: prhlt.iti.upv.es/page/projects/multimodal/idoc/iatros 5) SHoUT speech recognition toolkit: www.digibic.eu/techprofile.asp?slevel=0z84z101&parent_id=101&renleewtsapf=1255
Все клевые книги по теме также на одном слайде,
уааау!• Huang Xuedong. Spoken language processing: a guide to theory, algorithm and system development. –New Jersey: Prentice Hall PTR, 2001. 910 p. (Настольная книга любого, кто хочет заниматься распознаванием речи. Многое из того, что приведено в цикле моих заметок взято именно из этой книги. Must Have.)
• Чистович Л. А., Венцов А. В., Гранстрем М. П. Физиология речи. Восприятие речи человеком. – Л.: Наука, 1976. (Книги по распознаванию речи на русском языке, к сожалению, прекратили выпускать еще 80-х годах. Но даже те, которые были выпущены стоят того, чтобы их изучить. Из этой книги я почерпнул информацию о слуховом тракте, устройстве улитки. Если кому интересны ТТХ слухового канала — милости прошу.)
• DongSuk Yuk. Robust speech recognition using neural networks and hidden Markov models. Adaptations using non-linear transformations. – New Jersey: The State University of New Jersey, 1999. (Многие американские ученые выкладывают тексты своих диссертаций в свободный доступ. Большое им за это человеческое спасибо.)
+++++++++
1) Frequently Asked Questions (and Answers) about Copyright: www.chillingeffects.org/copyright/faq.cgi#QID805
2) Stoughton, Nick (April 2005). «Update on Standards» (PDF). USENIX. Retrieved 2009-06-04.
3) Kai Fu Li, Speech Input API Specification. Editor's Draft 18 October 2010 Latest Editor's Draft: dev.w3.org/… Editors: Satish Sampath, Google Inc. Bjorn Bringert, Google Inc.