Обзор инструментов распознавания речи

24
Обзор инструментов распознавания речи для мобильных устройств [email protected]

Upload: artur-burakov

Post on 16-Apr-2017

247 views

Category:

Mobile


2 download

TRANSCRIPT

Page 1: Обзор инструментов распознавания речи

Обзор инструментов распознавания речи

для мобильных устройств

[email protected]

Page 2: Обзор инструментов распознавания речи

Как работают все эти системы?

Page 3: Обзор инструментов распознавания речи

• сигнал

• фонемы [Й], [А]

• фреймы

• распределение вероятностей

Page 4: Обзор инструментов распознавания речи

Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы анализируются и структурируются в иерархию структурных элементов (например, фонем), слов, фраз и предложений.

Page 5: Обзор инструментов распознавания речи

Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы анализируются и структурируются в иерархию структурных элементов (например, фонем), слов, фраз и предложений.СКУКОТА

Page 6: Обзор инструментов распознавания речи

Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры

(фото выше просто картинка по запросу «старая эвм», к устройству отношения не имеет. Наверно)

Page 7: Обзор инструментов распознавания речи

• голосовое управление

• голосовые команды

• голосовой ввод текста

• голосовой поиск

Page 8: Обзор инструментов распознавания речи

• модуль шумоочистки

• акустическая модель

• языковая модель

• декодер

Page 9: Обзор инструментов распознавания речи

1. Оценка качества2. Расчет параметров3. Выделение характеристик для анализа4. В декодер!

Page 10: Обзор инструментов распознавания речи

Открытый Закрытый

Page 11: Обзор инструментов распознавания речи

Открытый Закрытый

Page 12: Обзор инструментов распознавания речи

Dragon Mobile SDK

Page 13: Обзор инструментов распознавания речи
Page 14: Обзор инструментов распознавания речи
Page 15: Обзор инструментов распознавания речи
Page 16: Обзор инструментов распознавания речи
Page 17: Обзор инструментов распознавания речи
Page 18: Обзор инструментов распознавания речи
Page 19: Обзор инструментов распознавания речи
Page 20: Обзор инструментов распознавания речи
Page 21: Обзор инструментов распознавания речи
Page 22: Обзор инструментов распознавания речи

Благодарю за внимание

[email protected]Карпов Паша

Page 23: Обзор инструментов распознавания речи

Все полезные ссылки на одном слайде, ура!

Регаемся на Dragon Mobiledragonmobile.nuancemobiledeveloper.com/public/index.php

Старенький док по Google Speech APIhttps://dvcs.w3.org/hg/speech-api/raw-file/tip/speechapi.html

По ЯндексуКраткое описание технологии: api.yandex.ru/speechkit/Документация для Android: api.yandex.ru/speechkit/generated/android/html/index.htmlДокументация для iOS: api.yandex.ru/speechkit/generated/ios/html/index.htmlСкачать же библиотеки можно на портале Технологий «Яндекса»: api.yandex.ru/speechkit/downloads/

Майкрософтовские технологииhttps://msdn.microsoft.com/en-us/library/hh323806.aspx

По опенсурсам1) Kai Fu Li, Hsiao-Wuen Hon. An overview of the Sphinx Speech Recognition Systems www.ri.cmu.edu/pub_files/pub2/lee_k_f_1990_1/lee_k_f_1990_1.pdf 2) Rybach, D.; C. Gollan, G. Heigold, B. Hoffmeister, J. Lööf, R. Schlüter, H. Ney (September 2009). «The RWTH Aachen University Open Source Speech Recognition System». Interspeech-2009: 2111–2114.3) Peter Grasch: simon: Open Sourcing Speech Recognition with KDE technology: www.desktopsummit.org/program/sessions/simon-open-sourcing-speech-recognition-kde-technology 4) Interactive Analysis, Transcription and Translation of Old Text Documents: prhlt.iti.upv.es/page/projects/multimodal/idoc/iatros 5) SHoUT speech recognition toolkit: www.digibic.eu/techprofile.asp?slevel=0z84z101&parent_id=101&renleewtsapf=1255

Page 24: Обзор инструментов распознавания речи

Все клевые книги по теме также на одном слайде,

уааау!• Huang Xuedong. Spoken language processing: a guide to theory, algorithm and system development. –New Jersey: Prentice Hall PTR, 2001. 910 p. (Настольная книга любого, кто хочет заниматься распознаванием речи. Многое из того, что приведено в цикле моих заметок взято именно из этой книги. Must Have.)

• Чистович Л. А., Венцов А. В., Гранстрем М. П. Физиология речи. Восприятие речи человеком. – Л.: Наука, 1976. (Книги по распознаванию речи на русском языке, к сожалению, прекратили выпускать еще 80-х годах. Но даже те, которые были выпущены стоят того, чтобы их изучить. Из этой книги я почерпнул информацию о слуховом тракте, устройстве улитки. Если кому интересны ТТХ слухового канала — милости прошу.)

• DongSuk Yuk. Robust speech recognition using neural networks and hidden Markov models. Adaptations using non-linear transformations. – New Jersey: The State University of New Jersey, 1999. (Многие американские ученые выкладывают тексты своих диссертаций в свободный доступ. Большое им за это человеческое спасибо.)

+++++++++

1) Frequently Asked Questions (and Answers) about Copyright: www.chillingeffects.org/copyright/faq.cgi#QID805

2) Stoughton, Nick (April 2005). «Update on Standards» (PDF). USENIX. Retrieved 2009-06-04.

3) Kai Fu Li, Speech Input API Specification. Editor's Draft 18 October 2010 Latest Editor's Draft: dev.w3.org/… Editors: Satish Sampath, Google Inc. Bjorn Bringert, Google Inc.