dialog systems design
TRANSCRIPT
![Page 1: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/1.jpg)
Речевые интерфейсы
Бочаров Виктор
![Page 2: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/2.jpg)
Disclaimer
• Мы не будем говорить …
– о чат ботах, тесте Тьюринга и премии Лебнера
– поисковых системах (http://www.ask.com)
• «Мопед не мой …» (с)
![Page 3: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/3.jpg)
Источники
• Ravenclaw/Olympus dialog system architecture(http://www.ravenclaw-olympus.org)
• “Jaspis - A Spoken Dialog Architecture and its Applications”Markku Turunen (University of Tampere), 2004
• сайт W3C(http://www.w3c.org/voice)
![Page 4: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/4.jpg)
Речевой интерфейс?
• наиболее естественный для человека
• иногда является единственным возможным
• интеграция нескольких технологий в одном решении
![Page 5: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/5.jpg)
Речевой интерфейс – где?
• контакт центры (IVR)
• точки самообслуживания
• речевой доступ к WEB
• речевой интерфейс к настольным ПК
![Page 6: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/6.jpg)
Контакт центр – альтернативы?
Оператор IVR
Кнопочки Речевой ввод
![Page 7: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/7.jpg)
Речевой интерфейс – проблемы?
• оговорки, ошибки, …
• вокруг бывает шумно
• распознавание речи работает не идеально
• речь подразумевает интеллект
![Page 8: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/8.jpg)
Что дальше?
1 Ravenclaw/Olympus
2 Что можно сделать иначе?
3 Стандарты W3C
![Page 9: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/9.jpg)
• Разработчики
– Dan Bohus – Antoine Raux– …
![Page 10: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/10.jpg)
Ravenclaw/Olympus - demo
• VERA
![Page 11: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/11.jpg)
Ravenclaw/Olympus
• Olympus – dialog system architecture
• Ravenclaw – dialog management framework for task-oriented spoken dialog systems
![Page 12: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/12.jpg)
Ravenclaw/Olympus
PROCESSMONITOR
SPHINXSPHINXSPHINX
Dialog Manag.RAVENCLAW
Back-end(perl)
Lang. GenerationROSETTA
HUB
Lang. Understand.PHOENIX/HELIOS
RecognitionServer
SynthesisTHETA
Multiple, paralleldecoders
DateTime
Other domain agents
Back-endGalaxy Stub
Actual PerlBack-end
Lang. GenerationROSETTA (Perl)
Lang. GenerationGalaxy Stub
Text I/OTTYServer
ParsingPHOENIX
ConfidenceHELIOS
Inputs from othermodalities
![Page 13: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/13.jpg)
SPHINX – распознавание речи
• несколько параллельных декодеров
• LM генерируется исходя из ожидаемых грамматик
• предоставляет несколько гипотез
![Page 14: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/14.jpg)
PHOENIX - парсер
• обрабатывает все гипотезы
• понимает неполные и неверные фразы
• фреймы / слоты
![Page 15: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/15.jpg)
PHOENIX - парсер
• Show fares of flights from Denver to Boston on United
[Field]( show [_fares](fares of flights))[Origin]( from [City]( Denver ))[Destination]( to [City]( Boston ))[airline]( on [AirlineName]( United ))
![Page 16: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/16.jpg)
HELIOS – оценка гипотез
• на оценку влияют:– оценки распознавания речи– оценки парсера– ожидания диалогового менеджера
• выбирается одна гипотеза
![Page 17: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/17.jpg)
Ravenclaw – диалог …
• дерево задач
• терминалы – агенты– inform– request– expect– execute
• нетерминалы – агенства
![Page 18: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/18.jpg)
Ravenclaw – диалог …
![Page 19: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/19.jpg)
Ravenclaw - логика
• Фаза исполнения:– Выбор следующего агента– Исполнение
• Фаза ввода:– Сбор семантических ожиданий– Ожидание– Связывание слотов с концептами– Оценка ввода
![Page 20: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/20.jpg)
Ravenclaw - Roomline
• запись …
• исходный код
![Page 21: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/21.jpg)
Ravenclaw – ошибки …
• Типы ошибок:
– non-understanding(ничего не поняли)
– misunderstanding(поняли неправильно)
![Page 22: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/22.jpg)
Ravenclaw – стратегии …
• non-understanding– попросить повторить– переспросить– сообщить, что ничего не понятно– помолчать– «вы могли бы сказать …»– продолжить диалог – …
![Page 23: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/23.jpg)
Ravenclaw – стратегии …
• misunderstanding– явное подтверждение– неявное подтверждение– незапланированное неявное
подтверждение
![Page 24: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/24.jpg)
Ravenclaw - реализации
System Domain Type Interaction Type
# of agents # of concepts
LARRI Guidance & Browsing
System Guided 61 + 31 +
Bus Line Information Exploration
Mixed Initiative
44 10
Room Line Information Mgmt.
Mixed Initiative
50 9
Team Talk Command & Control
User Initiative ~80 estim. ~20 estim.
![Page 25: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/25.jpg)
Ravenclaw - LARRI
• LAnguage-Based Retrieval of Repair Information
• интерактивный справочник по тех. обслуживанию F-18
• мультимодальный интерфейс– визуальный: экран - мышь– речевой: наушники - микрофон
![Page 26: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/26.jpg)
![Page 27: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/27.jpg)
План
1 Ravenclaw/Olympus
2 Что можно сделать иначе?
3 Стандарты W3C
![Page 28: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/28.jpg)
JASPIS - отличия
• Центральное хранилище информации
![Page 29: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/29.jpg)
JASPIS - отличия
• Агенты и оценщики
![Page 30: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/30.jpg)
Поддержка стандартов …
• см. след. слайд
![Page 31: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/31.jpg)
План
1 Ravenclaw/Olympos
2 Что можно сделать иначе?
3 Стандарты W3C
![Page 32: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/32.jpg)
“Voice browser” activity
• “Applying Web technology to enable users to access services from their telephone via a combination of speech and DTMF.”
• http://www.w3.org/Voice/
• http://www.w3.org/2002/mmi/
![Page 33: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/33.jpg)
“Модальности”
• клавиатура• мышь• перо• речь• экран• GPS• системные события• …
![Page 34: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/34.jpg)
Модель мультимодального интерфейса (W3C)
клавиатура
речь
перо
...
интерпретация
интерпретация
интерпретация
интерпретация
интеграция
Управление пользовательским
интерфейсом
разделение
генерация
генерация
генерация
речь
графика
...
![Page 35: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/35.jpg)
Грамматика
SRGS
Управление диалогом
VoiceXML
SALT
Управление синтезом
SSML
Семантическое представление
SISR
Управление логикой
CCXML SCXML
реплика, меню, форма, поле
состояние, переход между состояниями,
условие
правила
ASP.NET
адрес, имя, номер, дата, действие, ...
фонема, интонация, громкость
N-Gram вероятность
SML(based on SI draft)
W3C Recommendations
Microsoft Speech ServerVoxeo, ...
MicrosoftУровень модели Единицы
![Page 36: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/36.jpg)
VoiceXML 2.0
• Voice Extensible Markup Language
• управление диалогом– речевые меню– речевые формы
• синтезированная речь
• распознавание речи и DTMF ввода
![Page 37: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/37.jpg)
VoiceXML - пример
<form><field name="drink">
<prompt>Would you like coffee, tea, milk, or
nothing?</prompt><grammar src="drink.grxml"
type="application/srgs+xml"/></field><block><submit next="http://www.drink.example.com/drink2.asp"/> </block>
</form>
![Page 38: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/38.jpg)
VoiceXML - пример
• C (компьютер): Would you like coffee, tea, milk, or nothing?
• H (человек): Orange juice.
• C: I did not understand what you said.
• C: Would you like coffee, tea, milk, or nothing?
• H: Tea
• C: (продолжение в drink2.asp)
![Page 39: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/39.jpg)
Грамматики
• SRGS– Speech Recognition Grammar
Specification– W3C Proposed Recommendation,
December 2003
• N-Gram– Stochastic Language Models (N-Gram)
Specification – W3C Working Draft 3 January 2001
![Page 40: Dialog Systems Design](https://reader035.vdocuments.net/reader035/viewer/2022062300/5550526cb4c905ae3f8b4739/html5/thumbnails/40.jpg)
Вопросы