Системы автоматического синтеза речи
TRANSCRIPT
![Page 1: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/1.jpg)
Системы автоматического синтеза речиText-To-Speech
А.В. Луканин
Автоматическая обработка естественного языка. Лекция 7
![Page 2: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/2.jpg)
Система автоматического синтеза речи
• это компьютеризированная система, которая может произносить любой текст– введён в компьютер оператором– отсканирован и распознан системой
оптического распознавания символов (Optical Character Recognition (OCR) system)
• отличается от других говорящих машин (магнитофон и т.д.)– нас интересует автоматическое
произнесение новых предложений
![Page 3: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/3.jpg)
Системы с речевым ответом Voice Response Systems
• просто склеивают изолированные слова или части предложений
• применимы только тогда, когда используется – ограниченный словарь (несколько сотен
слов)– ограниченная структура (к примеру, в
объявлениях о прибытии поездов на вокзале).
![Page 4: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/4.jpg)
Система автоматического синтеза речи
• используется в тех случаях, когда невозможно (и бесполезно) записать и хранить все слова языка
• TTS - система автоматической генерации речи посредством графемно-фонемной транскрипции предложений
![Page 5: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/5.jpg)
Сферы применения TTS
1. Средства телекоммуникаций • получения текстовой информации по
телефону• в кинотеатрах, театрах и т.д.• из огромных баз данных• чтение электронных сообщений или факсов
по телефону
• запросы: посредством голоса пользователя (АРР) или тонального набора. • телефонная релейная связь
![Page 6: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/6.jpg)
Сферы применения TTS
2. Обучение языку• низкое качество часто не удовлетворяет
требованиям таких задач• в качественном синтезаторе речи
большинство текстовой информации должно дополнительно сопровождаться интонационными управляющими тегами (за�мок и замо�к)
• Google Translate (английский, гаитянский креольский, французский, итальянский, немецкий, хинди, испанский), для других 27 языков качество ниже (eSpeak)
![Page 7: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/7.jpg)
Сферы применения TTS
3. Помощь инвалидам • немые: клавиатуры и программы
быстрого составления предложений • астрофизик Стивен Хокинг (Stephen
Hawking) • слепые: сочетание систем АСР и ОРС
4. Говорящие книги и игрушки 5. Голосовой контроль
• GPS-навигатор в автомобиле
6. Multimedia, человеко-машинное общение
![Page 8: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/8.jpg)
Устройство системы TTS
Модуль обработки естественного языка
Модуль обработки цифрового сигнала
фонемы
просодия
речьтекст
СИНТЕЗАТОР РЕЧИ
![Page 9: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/9.jpg)
Модуль обработки ЕЯ
Модуль обработки ЕЯ
Текст
Анализ текста
Предобработка
Морфологическ. анализатор
Анализатор контекста
Синтаксико-просодический
парсер
МУСД
или
КА
Автоматическ. транскрипция
Генератор просодии
В блок обработки цифрового сигнала
![Page 10: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/10.jpg)
Анализ текста
• Модуль предобработки– числа, акронимы, идиоматические
выражения– Многозначность пунктуационных знаков
элементарные регулярные грамматики
• Модуль морфологического анализа– определение возможных частей речи
(простые регулярные грамматики, лексиконы основ и аффиксов)
![Page 11: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/11.jpg)
Анализ текста
• Модуль анализа контекста – наиболее вероятные части речи
• n-граммы (вероятностный конечный автомат или многослойный персептрон)
• локальные нестохастические грамматики (созданные экспертами или автоматически при помощи деревьев решений)
• Синтаксико-просодический парсер – определение структуры текста для
подбора просодической реализации
![Page 12: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/12.jpg)
Автоматическая транскрипция: словари или правила?
• Словари содержат только транскрипцию лемм
• В словаре может быть несколько омографов (record: ['reko:d] или [rı'ko:d]) или омоформ (read: ['ri:d] или ['red])
• Не приводятся все варианты словообразования– 'electricity' из леммы 'electric', редукция t в
слове 'softness' ['sоfnıs]Нужен первичный морфосинтаксический
анализ предложения
![Page 13: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/13.jpg)
Автоматическая транскрипция: словари или правила?
• Слова в окружении других слов звучат не так, как по отдельности
• Не все слова можно найти в словаре
произношения: – Неологизмы– Собственные имена, которые должны
произноситься по типу существующих слов
Нужен синтаксический или метрический анализ предложения
Нужен модуль морфологии или модуль нахождения графемной аналогии
![Page 14: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/14.jpg)
Стратегия использования словаря
• хранение большинства фонологической информации в лексиконах– словари основ и аффиксов
• произношение поверхностных форм вычисляется на основе правил:– словоизменительных– словообразовательных морфофонемных – словосложения
![Page 15: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/15.jpg)
Стратегия использования словаря
ВНУТРЕННЯЯ СТРУКТУРА
ДАННЫХ
Транскрипция со словарём
Транскриб. морфемы
Морфолог. правила
Морфо-фонемный
модуль
Модуль транскрибиро-
вания букв
Правила транскрипции
Коартикуляцион-ные правила
Финальная фонетическая
обработка
морфемы
фонемы
фонемы
фоны
фонемынеизвестные
морфемы
![Page 16: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/16.jpg)
Стратегия использования словаря
• Морфемы, не найденные в словаре, транскрибируются по правилу
• Затем выполняется последующая фонетическая обработка для учёта коартикуляционного феномена
• Такой подход используется в системе MITalk– Словарь: около 12 000 морфем, покрывает 95%
входных слов
• Компания AT&T Bell Laboratories также использовала этот подход в своей системе АСР– словарь увеличен до 43 000 морфем
![Page 17: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/17.jpg)
Стратегия использования словаря
ВНУТРЕННЯЯ СТРУКТУРА
ДАННЫХ
Транскрипция со словарём
Транскриб. морфемы
Морфолог. правила
Морфо-фонемный
модуль
Модуль транскрибиро-
вания букв
Правила транскрипции
Коартикуляцион-ные правила
Финальная фонетическая
обработка
морфемы
фонемы
фонемы
фоны
фонемынеизвестные
морфемы
![Page 18: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/18.jpg)
Стратегия использования правил
• большинство фонологической компетенции словарей переносится во множество правил преобразования графема-фонема
• в словаре хранятся только слова-исключения• многие исключения являются очень
частотными словами достаточно небольшой словарь исключений может покрыть слова большинства текстов– в английском языке 2000 слов достаточно, чтобы
покрыть 70% слов текста
• Выбор подхода очень часто зависит от языка
![Page 19: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/19.jpg)
Стратегия, основанная на правилах
ВНУТРЕННЯЯ СТРУКТУРА
ДАННЫХ
Транскрипция по правилам
Исключения
Модуль транскриби-рования букв
Правила транскрипции
Коартикуляцион-ные правила
Финальная фонетическая
обработка
слоги
Морфо-синтакс. хар-ки
фоны
фоны
фоны
графемы
![Page 20: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/20.jpg)
Модуль обработки цифрового сигнала
• Существует два способа преобразования фонем в звук:– синтез по правилам: явно, в виде набора
правил, которые формально описывают влияние одних фонем на другие
– компилятивный синтез: неявно, путём хранения примеров фонетических переходов и коартикуляций в базе данных отрезков речи и использования их, в конечном счёте, вместо фонем
![Page 21: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/21.jpg)
Акустический синтез по правилам
• формантные синтезаторы– используются в основном фонетистами и
фонологистами
• синтезатор Klatt– Для качественной речи нужно около 60
параметров: частота, амплитуда и ширина формант и антиформант
– необходимы правила для параметров, которые описывают динамически меняющиеся характеристики голосового и шумовых источников звука
![Page 22: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/22.jpg)
Акустический синтез по правилам
- требуется большая подготовительная работа (акустический анализ значительных речевых массивов и формулировка нужных правил)
- получаемая речь часто сопровождается гудением или жужжанием, что снижает её естественность
+ есть возможность имитировать разные голоса, отслеживать изменения в стиле произношения и тембре голоса
• MITALK, DECTALK для английского языка• многоязычная система синтеза INFOVOX • eSpeak
![Page 23: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/23.jpg)
Акустический синтез на основе конкатенации
Подготовка базы данных
1. выбираются сегменты речи– дифоны – полуслоги– трифоны– нежелательные позиции в словах (внутри
ударных слогов или слишком редуцированных контекстах) не берутся во внимание
![Page 24: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/24.jpg)
Подготовка акустической базы данных
2. записывается корпус речи и сегментируется• вручную при помощи визуальных средств
представления цифрового сигнала• либо автоматически с последующей
корректировкой
3. результаты записываются в акустическую базу данных в виде названия сегмента, формы волны, продолжительности и позиций внутренних сегментов
• при записи дифонов также необходимо указывать границу между фонами, чтобы можно было изменить продолжительность одного полуфона, не затрагивая длину другого
![Page 25: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/25.jpg)
Акустический синтез на основе конкатенации фонемы
+просодия
Обработка цифрового сигнала
Подготовка базы данных
Корпус речи
сегментацияБД
сегментов речи
Генерация списка
сегментовАнализ
речи
Выравни-вание
Параметр.БД
сегментов
Кодированиеречи
![Page 26: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/26.jpg)
Параметрическая база данных сегментов речи
• Сегменты впоследствии приводятся к параметрическому виду, последовательности векторов параметров, выдаваемых речевым анализатором
+ Удачно выбранные речевые модели позволяют сократить размер базы данных звуков
+ Некоторые модели разделяют сигнал на источник звука и фильтра (голосовой тракт), что очень помогает при операциях, непосредственно предшествующих синтезу: подбору просодии и конкатенации сегментов
![Page 27: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/27.jpg)
Акустический синтез на основе конкатенации фонемы
+просодия
Обработка цифрового сигнала
Подготовка базы данных
Корпус речи
сегментацияБД
сегментов речи
Генерация списка
сегментовАнализ
речи
Выравни-вание
Параметр.БД
сегментов
Кодированиеречи
![Page 28: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/28.jpg)
База данных сегментов синтеза
• Параметрическое представление отрезков речи позволяет легко изменять высоту тона, длину волны и огибающую спектра, что нельзя сделать с просто записанными отрезками речи
• Так как отрезки речи были получены из разных слов, т.е. из разных фонетических контекстов, при конкатенации их амплитуда и тембр могут не совпадать
![Page 29: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/29.jpg)
База данных сегментов синтеза
• Необходимо выравнить спектр амплитуды на концах сегментов, оставляя без изменения сами сегменты– уровни громкости плавно корректируются в начале
и конце сегмента– громкости различных фонов одной фонемы
приводятся к её среднему значению
• разница в тембре снимается во время синтеза для каждой пары сегментов, а не выравнивается для всех сегментов сразу, оставляя естественное фонетическое различие в коартикуляциях
![Page 30: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/30.jpg)
Акустический синтез на основе конкатенации фонемы
+просодия
Обработка цифрового сигнала
Подготовка базы данных
Корпус речи
сегментацияБД
сегментов речи
Генерация списка
сегментовАнализ
речи
Выравни-вание
Параметр.БД
сегментов
Кодирование речи
![Page 31: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/31.jpg)
Акустический синтез на основе конкатенации
Синтез речи
Декодированиеречи
БД сегментов
синтеза
Речь
Подбор просодии
Конкатенация сегментов
Синтез речи
![Page 32: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/32.jpg)
Синтез речи
• фонам ставится в соответствие последовательность сегментов в блоке генерации списка сегментов
• модуль подбора просодии запрашивает в базе данных сегментов синтеза параметры этих сегментов и приводит их в соответствие один за другим с требуемой просодией
![Page 33: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/33.jpg)
Акустический синтез на основе конкатенации фонемы
+просодия
Обработка цифрового сигнала
Подготовка базы данных
Корпус речи
сегментацияБД
сегментов речи
Генерация списка
сегментовАнализ
речи
Выравни-вание
Параметр.БД
сегментов
Кодированиеречи
![Page 34: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/34.jpg)
Акустический синтез на основе конкатенации
Синтез речи
Декодированиеречи
БД сегментов
синтеза
Речь
Подбор просодии
Конкатенация сегментов
Синтез речи
![Page 35: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/35.jpg)
Синтез речи
• В блоке конкатенации сегментов производится подгонка сегментов– производится простая интерполяция
параметров, приблизительно соответствующая сглаживанию акустических переходов между звуками
• Полученная последовательность параметров передаётся в блок синтеза сигнала, в котором производится операция обратная анализу речи — синтез речи
![Page 36: Системы автоматического синтеза речи](https://reader036.vdocuments.net/reader036/viewer/2022081511/557f1517d8b42a01678b4c46/html5/thumbnails/36.jpg)
Акустический синтез на основе конкатенации
Синтез речи
Декодированиеречи
БД сегментов
синтеза
Речь
Подбор просодии
Конкатенация сегментов
Синтез речи