sakrament. new in computer speech recognition and generation

40
Новое в синтезе и распознавании речи Вторая международная конференция «Мобильные технологии-2. Бизнес и Перспективы» Минск, Республика Беларусь 2008 г. Егоров Валерий Николаевич, Егоров Валерий Николаевич, директор компании директор компании «Сакрамент Сакрамент - ИТ ИТ»

Upload: belarus-state-university

Post on 25-Jun-2015

868 views

Category:

Education


2 download

TRANSCRIPT

Page 1: Sakrament. New in computer speech recognition and generation

Новое в синтезе и распознавании речи

Вторая международная конференция «Мобильные технологии-2. Бизнес и Перспективы»

Минск, Республика Беларусь2008 г.

Егоров Валерий Николаевич,Егоров Валерий Николаевич,директор компании директор компании ««Сакрамент Сакрамент -- ИТИТ»»

Page 2: Sakrament. New in computer speech recognition and generation

Презентация прочитана на

конференции Мобильные

технологии-2. Бизнес и технологии-2. Бизнес и

перспективыМинск. 2008

http://mobile.bynet2.org/

Page 3: Sakrament. New in computer speech recognition and generation

Опубликован список ИТ-переворотов на 10 лет вперед

Издание PC World опубликовало список из 10 "IT-переворотов", то есть событий, которые серьезно изменят жизнь пользователя в течение ближайших десяти лет.

На первом месте – развитие "облачных" вычислений.

На втором месте – бурное развитие интерфейса "человек-машина".

Page 4: Sakrament. New in computer speech recognition and generation

Компания «Компания «СакраментСакрамент ИТ»ИТ» :�� Ведет разработки программного Ведет разработки программного обеспечения в области синтеза и обеспечения в области синтеза и распознавания речи с 2000 года распознавания речи с 2000 года

Использует самые передовые Использует самые передовые �� Использует самые передовые Использует самые передовые технологии и подходытехнологии и подходы

�� Резидент Парка высоких технологий Резидент Парка высоких технологий №2№2

Page 5: Sakrament. New in computer speech recognition and generation

ТехнологииТехнологии ии разработкиразработки

Синтез речиречи Идентификация голоса

Распознавание речи

голоса

Page 6: Sakrament. New in computer speech recognition and generation

Особенности технологий и Особенности технологий и продуктовпродуктов:

�Фонетические и лингвистические модели универсальные для индоевропейской группы языков

Большая фонотека голосов� Большая фонотека голосов

� Мультиязычность

� Работа на всех типах мобильных устройств (КПК, смартфоны, коммуникаторы, микросхемы.)

Page 7: Sakrament. New in computer speech recognition and generation

Реализация продуктовРеализация продуктов

Языки:••русскийрусский

••английскийанглийский

ОСОС••WindowsWindows 98, 98, NTNT, , 2000, 2000, XPXP, 2003, , 2003, MEME, , MSMS

•• Pocket PCPocket PC, , MS MS ••английскийанглийский

••белорусскийбелорусский

••литовскийлитовский

•• Pocket PCPocket PC, , MS MS

••SmartphoneSmartphone

••SymbianSymbian SeriesSeries 6060

••UNIXUNIX

••LINUXLINUX

Page 8: Sakrament. New in computer speech recognition and generation

Программные продукты:�Программа для частного использования, для бизнес приложений, для встраивания в ПО сторонних производителейПО сторонних производителей

�Программа для самостоятельного создания голосов для синтезатора речи

� Программный код для реализации на микропроцессоре.

Page 9: Sakrament. New in computer speech recognition and generation

ОсновныеОсновные сферысферы примененияприменения1.1.ТелекоммуникацииТелекоммуникации

2.2.Мобильные устройства Мобильные устройства

3.3.Промышленные и бытовые Промышленные и бытовые электронные устройстваэлектронные устройства

4.4.Образовательные системыОбразовательные системы4.4.Образовательные системыОбразовательные системы

5.5.Компьютеризированные системы Компьютеризированные системы

6.6.InternetInternet--сервисысервисы

7.7.Системы ограничения доступа Системы ограничения доступа

8.8.Автомобильная индустрияАвтомобильная индустрия

Page 10: Sakrament. New in computer speech recognition and generation

ПокупателиПокупатели нашейнашей продукциипродукции1.1.Strom TelecomStrom Telecom (Чехия) (Чехия)

2.2.Alcatel Business SystemsAlcatel Business Systems (Франция)(Франция)

3.3.NewspaperDirectNewspaperDirect (Канада)(Канада)

4.4.Vector Consulting LtdVector Consulting Ltd(Германия)(Германия)4.4.Vector Consulting LtdVector Consulting Ltd(Германия)(Германия)

5.ООО «АВАЛОН» ТЭК» (Россия)5.ООО «АВАЛОН» ТЭК» (Россия)

6.ОАО «ТНТ6.ОАО «ТНТ––ТелесетьТелесеть» (Россия)» (Россия)

7.ОАО "7.ОАО "ТелекомПродуктТелекомПродукт» (Россия)» (Россия)

8.ЗАО «Санкт8.ЗАО «Санкт--Петербургская Петербургская информационная компания» (Россия)информационная компания» (Россия)

Page 11: Sakrament. New in computer speech recognition and generation

9. ОО 9. ОО БелТИЗБелТИЗ – Брестская областная организация общественного объединения “Белорусское товарищество инвалидов по зрению”.

10. РАРДИЗ10. РАРДИЗ – “Республиканская ассоциация родителей детей инвалидов по зрению”

11. ООО Издательско-полиграфический ТифлоинформационныйТифлоинформационный комплекс «Логос»комплекс «Логос»ТифлоинформационныйТифлоинформационный комплекс «Логос»комплекс «Логос»Всероссийского общества слепых (ООО «ИПТК «Логос» ВОС»), Москва, Россия

12.ЗАО НПП Центр «Реабилитация»Центр «Реабилитация» ( Россия)13. 13. Code FactoryCode Factory– производитель системы экранного доступа для людей с проблемами зрения для мобильных платформ (Испания).

Page 12: Sakrament. New in computer speech recognition and generation

Технология создания и использования мультимедийных

электронных электронных библиотек.

Sakrament BookAssist

Page 13: Sakrament. New in computer speech recognition and generation

«Sakrament BookAssist» – средство создания мультимедийных электронных библиотек на персональных компьютерах и пользования ими. Программа позволяет организовать два рабочих позволяет организовать два рабочих места: рабочее место создателя библиотеки / книги («Учителя») и рабочее место пользователя («Ученика») на ПК и на мобильном устройстве.

Page 14: Sakrament. New in computer speech recognition and generation

Основные свойства и возможности программы

• Возможность управления программой исключительно с клавиатуры.

• Озвучивание всех действий пользователя – в том числе навигации по списку книг библиотеки. Возможность выбора голоса для озвучивания

•Для рабочего места «Учителя» – возможность нестандартной расстановки ударений, создания дополнительных описаний графиков, рисунков, таблиц и т.п.

Возможность выбора голоса для озвучивания действий и чтения, регулировка скорости и громкости речи.

•Озвучивание голосом с текущими настройками любых документов в формате RTF.

• Запоминание настроек различных пользователей, в том числе – последней позиции работы с документом (для «Ученика» – чтения, для «Учителя» – обработки).

Page 15: Sakrament. New in computer speech recognition and generation

В последней версии реализуется возможность записи озвученных книг в аудиофайлы стандартного формата. Это является бюджетным решением для людей, не имеющих возможности пользоваться персональным пользоваться персональным компьютером: для прослушивания достаточно простейшего МР3- плеера.

Page 16: Sakrament. New in computer speech recognition and generation

Перспективный план развития

Планируется разработка клиент-серверного программного комплекса для более эффективного использования мобильных устройств использования мобильных устройств (смартфонов, КПК), позволяющий получать доступ к электронным мультимедийным библиотекам удалённо.

Page 17: Sakrament. New in computer speech recognition and generation

• Возможность получения пользователем на своё мобильное устройство готовых аудиофайлов, созданных в соответствии с заказанными им настройками озвучивания (голос, темп речи, громкость), с центрального сервера.

• Возможность получения пользователем на своё мобильное устройство с • Возможность получения пользователем на своё мобильное устройство с центрального сервера RTF-файлов, подготовленных к озвучиванию «Учителем», и озвучивание непосредственно на смартфоне / КПК в соответствие с настройками «Ученика» (бюджетный вариант с уменьшенным трафиком).

Page 18: Sakrament. New in computer speech recognition and generation

• Компания “Сакрамент ИТ” может создать синтезаторы речи для молдавского, казахского, армянского, таджикского, узбекского и других языков и выполнить их добавление в программу «Sakrament BookAssist v3.0». Срок выполнения работ: от 8 до 12 месяцев. Ориентировочная от 8 до 12 месяцев. Ориентировочная стоимость проекта для одного языка: от 100 000 до 200 000 EUR. По нашим данным стоимость аналогичных работ, выполняемых российскими компаниями выше в 8-10 раз, а западноевропейскими и американскими в 15-20 раз.

Page 19: Sakrament. New in computer speech recognition and generation

Sakrament AssistentAssistent

Page 20: Sakrament. New in computer speech recognition and generation

ПРЕАМБУЛАИнформационный взрыв:

• Объём поступающей к нам информации за последние 20-30 лет возрос в десятки раз в результате развития радио, телевидения • Резко возросла нагрузка на зрение, поскольку основной в результате развития радио, телевидения

и особенно – Интернета.

• Игнорировать эту информацию становится невозможно, поскольку она жизненно необходима человеку в его производственной и повседневной деятельности.

зрение, поскольку основной способ получения информации –работа с экраном.

Page 21: Sakrament. New in computer speech recognition and generation

ПРОБЛЕМА

Трудности ориентации в потоках информации:

• Информация плохо структурирована, разбросана по множеству источников разбросана по множеству источников

• Для получения нужной информации необходимы специальные знания – как обращаться с поисковыми системами, а также много времени.

Page 22: Sakrament. New in computer speech recognition and generation

ПРОБЛЕМАСложности пользования современными

электронными устройствами:• Для настройки и пользования электронными устройствами (ПК, коммуникаторы, смартфоны) необходимы специальные знания и время. Отсутствие специальные знания и время. Отсутствие таких знаний и времени приводит в массе к использованию только малой доли возможностей устройств.

• Малый размер экранов коммуникаторов и смартфонов –дополнительная нагрузка на зрение

Page 23: Sakrament. New in computer speech recognition and generation

ПРОБЛЕМАОптимальность настроек, соответствие их

ситуации:

• Создать оптимальные настройки электронных устройств и программного

• Все эти настройки статичны и при изменении ситуации (и потребностей

Составление плана действий:

• При необходимости выполнять различные действия пользователю необходимо не забыть их выполнить

• Такой план действий статичен, и электронных устройств и программного обеспечения для своих конкретных потребностей у пользователя чаще всего не хватает специальных знаний.

изменении ситуации (и потребностей пользователя) перестают быть оптимальными и требуют опять изменения вручную.

различные действия пользователю необходимо не забыть их выполнить вручную либо самому составить (если он это умеет) задачу для планировщика (если таковой предусмотрен в программном обеспечении).

• Такой план действий статичен, и при любых изменениях в ситуации должен быть вовремя откорректирован пользователем.

Page 24: Sakrament. New in computer speech recognition and generation

РЕШЕНИЕ

1. Создание программного комплекса АССИСТЕНТ для управления устройствами, контроля за ситуацией.

2. Использование речевых технологий

3. Учёт доступных технических возможностей и характеристик пользователя при составлении плана действий.

2. Использование речевых технологий для общения программы с пользователем позволяет снизить нагрузку на зрение.

действий.4. Учёт действий пользователя и его

реакции на ситуацию в дальнейшей работе

Page 25: Sakrament. New in computer speech recognition and generation

ВАРИАНТ РЕАЛИЗАЦИИ –ПОМОЩНИК

Назначение:

• Помогать пользователю в его ежедневной деятельности (в работе, быту, учёбе и т.п.) посредством быту, учёбе и т.п.) посредством своевременного предоставления необходимой информации, рекомендаций и напоминаний.

Page 26: Sakrament. New in computer speech recognition and generation

ПОМОЩНИК:ФУНКЦИОНАЛЬНЫЕ

ВОЗМОЖНОСТИ• Осуществление определённых действий –

в зависимости от занятий и интересов пользователя – по расписанию.

• Возможность автоматического выполнения пользователя – по расписанию.

• Возможность динамического получения данных с центрального сервера в интересующих пользователя областях

• Возможность модификации предлагаемой пользователю линии поведения на основе анализа регулярно повторяемых действий.

• Возможность автоматического выполнения запланированных действий или автоматической реакции на поступающую информацию.

Page 27: Sakrament. New in computer speech recognition and generation

ПОМОЩНИК: Особенности

• Работа программы управляется двумя профилями (наборами настраиваемых свойств): собственно ПОМОЩНИКА и пользователя.

• Профиль пользователя изначально формируется как предустановленный тип на основе базовых сведений (пол, возраст, семейное положение, образование, род

• Оценка ситуации и, соответственно, важности той или иной могущей быть

• Исходя из различной важности выполняемых действий для пользователя в различных ситуациях план выполнения (время и ПОМОЩНИКА и пользователя.

• Программный профиль может выбираться из преустановленных наборов свойств, а также в любое время избирательно меняться пользователем.

семейное положение, образование, род занятий). В дальнейшем этот профиль постоянно уточняется и модифицируется на основе реакции пользователя в конкретных ситуациях.

важности той или иной могущей быть выполненной операции определяется с учётом профиля пользователя (важность отдельных событий для пенсионера и бизнесмена может быть различной).

пользователя в различных ситуациях план выполнения (время и очерёдность) этих действий может меняться.

Page 28: Sakrament. New in computer speech recognition and generation

ПОМОЩНИК: Основные свойства

1. Программный профиль – психотип ПОМОЩНИКА – задаётся изначально выбором пользователя из предлагаемого ему списка. В любой момент пользователь может изменить

3. Интеллектуально-психологический портрет пользователя изначально формируется в виде некоего предустановленного типа на основе базовых сведений о пользователе

5. Гибкая стратегия позволяет комбинировать и использовать функциональные возможности программы в зависимости от оценки конкретной ситуации. пользователь может изменить

программный профиль, выбрав другой

2. Программный профиль может быть кастомизируемым: пользователь может сам назначать ему основные характеристики

базовых сведений о пользователе

4. В зависимости от интеллектуально-психологического портрета пользователя производится оценка конкретных ситуаций

конкретной ситуации. 6. Общение с пользователем

интерактивно – на каждое действие программы возможна его реакция, которая будет учтена для уточнения интеллектуально-психологического портрета пользователя.

Page 29: Sakrament. New in computer speech recognition and generation

ПОМОЩНИК: Основные свойства

• 7. ПОМОЩНИК осуществляет не только пассивную информационную поддержку, но и может способствовать самообразованию пользователя, оформляя подписки на необходимые темы –новости,

8. На основе анализа повторяющихся действий пользователя формируются образы событий и

9. Интерактивность позволяет не только пассивно отслеживать интеллектуально-психологический портрет пользователя, но и активно подписки на необходимые темы –новости, художественная литература, наука, образование, различная литература по интересам (хобби) – и предлагая их к прослушиванию (или просмотру/чтению)

образы событий и пользователю предоставляется удобный интерфейс к ним.

портрет пользователя, но и активно влиять на его формирование посредством предложения пользователю информации, которая может способствовать его развитию.

Page 30: Sakrament. New in computer speech recognition and generation

РЕАЛИЗАЦИЯ СЕРВЕРНОЙ ЧАСТИ

Назначение центрального сервера – служить динамическим источником информации для клиентских приложений.

Каждый полученный и выполненный запрос способствует пополнению и актуализации информационной базы сервера. Сведения, содержащиеся в информационной базе сервера, доступны всем клиентским

Сервер получает формализованные запросы от клиентских приложений, выполняет поиск необходимой информации в доступных источниках и отсылает клиентским приложениям запрошенную информацию

Информация в базе данных сервера хранится в виде типизированных и параметризованных данных, что позволяет обеспечивать поиск образов, релевантных новым запросам, в уже имеющихся записях.

базе сервера, доступны всем клиентским приложениям, что позволяет минимизировать обращения к сторонним источникам информации

Page 31: Sakrament. New in computer speech recognition and generation

ВЗАИМОДЕЙСТВИЕ КЛИЕНТСКОЙ ВЗАИМОДЕЙСТВИЕ КЛИЕНТСКОЙ ЧАСТИ С ПРОГРАММНЫМ ЧАСТИ С ПРОГРАММНЫМ ОБЕСПЕЧЕНИЕМ ДРУГИХ ОБЕСПЕЧЕНИЕМ ДРУГИХ

ПРОИЗВОДИТЕЛЕЙПРОИЗВОДИТЕЛЕЙПРОИЗВОДИТЕЛЕЙПРОИЗВОДИТЕЛЕЙ

Page 32: Sakrament. New in computer speech recognition and generation

Клиентская часть АССИСТЕНТа может быть реализована в виде исполняемых модулей для функционирования на различных платформах. Каждый модуль функционален только на платформе, для которой он предназначен, функционален только на платформе, для которой он предназначен, однако структура информации в базе данных АССИСТЕНТа является единой и платформно-независимой (при этом используемые СУБД могут быть различными).

Page 33: Sakrament. New in computer speech recognition and generation

Клиентская часть АССИСТЕНТа взаимодействует с установленным в операционной системе программным

обеспечением двумя основными способами:

использование т.н. «стандартных обработчиков» – программ, зарегистрированных в реестре

запуск по расписанию (на основе, например, анализа повторяющихся действий пользователя) любых других зарегистрированных в реестре операционной системы в качестве обработчиков файлов определённых типов

действий пользователя) любых других программ, установленных в операционной системе вычислительного устройства –для чего АССИСТЕНТу необходимо знаниеместорасположения такой программы.

Page 34: Sakrament. New in computer speech recognition and generation

МУЛЬТИПЛАТФОРМЕННОСТЬ И МУЛЬТИПЛАТФОРМЕННОСТЬ И ПЕРЕНОСИМОСТЬ КЛИЕНТСКОЙ ПЕРЕНОСИМОСТЬ КЛИЕНТСКОЙ

ЧАСТИЧАСТИ

• При переносе (переустановке) клиентской части АССИСТЕНТа на другое вычислительное устройство –

Инсталляция соответствующего исполняемого модуля программы.Импорт информации из

При возникновении проблем (отсутствие обработчика либо инсталляции программы) у пользователя запрашивается дополнительная другое вычислительное устройство –и при этом, возможно, на другую платформу (например, с MS Windows на Linux или с Windows Mobile на Symbian) – производятся следующие действия:

Импорт информации из существующей локальной базы данных от старой версии АССИСТЕНТа.

Верификация импортированных данных на соответствие новой среде

запрашивается дополнительная информация: какую программу/утилиту использовать в качестве стандартного обработчика, где расположена инсталляция той или иной программы в новой среде

Page 35: Sakrament. New in computer speech recognition and generation

• Перенос инсталляций программ других производителей, восстановление бэкапов из

МУЛЬТИПЛАТФОРМЕННОСТЬ И МУЛЬТИПЛАТФОРМЕННОСТЬ И ПЕРЕНОСИМОСТЬ КЛИЕНТСКОЙ ПЕРЕНОСИМОСТЬ КЛИЕНТСКОЙ

ЧАСТИЧАСТИ

восстановление бэкапов из предыдущих операционных систем и прочие подобные операции при переустановке клиентской части АССИСТЕНТа не предусматриваются.

Page 36: Sakrament. New in computer speech recognition and generation

ПРИМЕРЫ ИНТЕРФЕЙСОВ К СУЩЕСТВУЮЩИМ

ПРИЛОЖЕНИЯМ/СИСТЕМАМ

В программном комплексе АССИСТЕНТ предусматривается широкое применение интерфейсов с целью использования (интеграции) функционала уже (интеграции) функционала уже имеющихся систем и технологий. Применение интерфейсов позволит избежать ненужных дублирующих разработок со всеми вытекающими последствиями (экономия средств и времени).

Page 37: Sakrament. New in computer speech recognition and generation

ВОЗМОЖНЫЕ ЗАКАЗЧИКИ И ВОЗМОЖНЫЕ ЗАКАЗЧИКИ И ПОТРЕБИТЕЛИПОТРЕБИТЕЛИ

• Операторы мобильной связи, интернет-провайдеры.

• Производители вычисительной техники, в том числе мобильных устройств (OEM-версии программного обеспечения).

• Разработчики операционных систем, в том числе • Разработчики операционных систем, в том числе для мобильных устройств.

• Сфера туристического бизнеса: турагенства, туроператоры и их партнёры (сети отелей, ресторанов, магазинов и т.п.).

• Любые владельцы вычислительных – в том числе мобильных – устройств.

Page 38: Sakrament. New in computer speech recognition and generation

Клиентские приложения (потребители услуг)

Провайдер услуг

Центральный сервер

ПККПК,

коммуникаторы

Мобильные телефоны

Провайдеры информации

Центральный сервер

Локальная база информации центрального

сервера

Интернет Др

Page 39: Sakrament. New in computer speech recognition and generation
Page 40: Sakrament. New in computer speech recognition and generation

СпасибоСпасибозазазаза

вниманиевнимание