Системы автоматического синтеза речи

Системы автоматического синтеза речиText-To-Speech

А.В. Луканин

Автоматическая обработка естественного языка. Лекция 7

Система автоматического синтеза речи

• это компьютеризированная система, которая может произносить любой текст– введён в компьютер оператором– отсканирован и распознан системой

оптического распознавания символов (Optical Character Recognition (OCR) system)

• отличается от других говорящих машин (магнитофон и т.д.)– нас интересует автоматическое

произнесение новых предложений

Системы с речевым ответом Voice Response Systems

• просто склеивают изолированные слова или части предложений

• применимы только тогда, когда используется – ограниченный словарь (несколько сотен

слов)– ограниченная структура (к примеру, в

объявлениях о прибытии поездов на вокзале).

Система автоматического синтеза речи

• используется в тех случаях, когда невозможно (и бесполезно) записать и хранить все слова языка

• TTS - система автоматической генерации речи посредством графемно-фонемной транскрипции предложений

Сферы применения TTS

1. Средства телекоммуникаций • получения текстовой информации по

телефону• в кинотеатрах, театрах и т.д.• из огромных баз данных• чтение электронных сообщений или факсов

по телефону

• запросы: посредством голоса пользователя (АРР) или тонального набора. • телефонная релейная связь


2. Обучение языку• низкое качество часто не удовлетворяет

требованиям таких задач• в качественном синтезаторе речи

большинство текстовой информации должно дополнительно сопровождаться интонационными управляющими тегами (за�мок и замо�к)

• Google Translate (английский, гаитянский креольский, французский, итальянский, немецкий, хинди, испанский), для других 27 языков качество ниже (eSpeak)


3. Помощь инвалидам • немые: клавиатуры и программы

быстрого составления предложений • астрофизик Стивен Хокинг (Stephen

Hawking) • слепые: сочетание систем АСР и ОРС

4. Говорящие книги и игрушки 5. Голосовой контроль

• GPS-навигатор в автомобиле

6. Multimedia, человеко-машинное общение

Устройство системы TTS

Модуль обработки естественного языка

Модуль обработки цифрового сигнала

фонемы

просодия

речьтекст

СИНТЕЗАТОР РЕЧИ

Модуль обработки ЕЯ

Модуль обработки ЕЯ

Текст

Анализ текста

Предобработка

Морфологическ. анализатор

Анализатор контекста

Синтаксико-просодический

парсер

МУСД

или

КА

Автоматическ. транскрипция

Генератор просодии

В блок обработки цифрового сигнала


• Модуль предобработки– числа, акронимы, идиоматические

выражения– Многозначность пунктуационных знаков

элементарные регулярные грамматики

• Модуль морфологического анализа– определение возможных частей речи

(простые регулярные грамматики, лексиконы основ и аффиксов)


• Модуль анализа контекста – наиболее вероятные части речи

• n-граммы (вероятностный конечный автомат или многослойный персептрон)

• локальные нестохастические грамматики (созданные экспертами или автоматически при помощи деревьев решений)

• Синтаксико-просодический парсер – определение структуры текста для

подбора просодической реализации

Автоматическая транскрипция: словари или правила?

• Словари содержат только транскрипцию лемм

• В словаре может быть несколько омографов (record: ['reko:d] или [rı'ko:d]) или омоформ (read: ['ri:d] или ['red])

• Не приводятся все варианты словообразования– 'electricity' из леммы 'electric', редукция t в

слове 'softness' ['sоfnıs]Нужен первичный морфосинтаксический

анализ предложения

Автоматическая транскрипция: словари или правила?

• Слова в окружении других слов звучат не так, как по отдельности

• Не все слова можно найти в словаре

произношения: – Неологизмы– Собственные имена, которые должны

произноситься по типу существующих слов

Нужен синтаксический или метрический анализ предложения

Нужен модуль морфологии или модуль нахождения графемной аналогии

Стратегия использования словаря

• хранение большинства фонологической информации в лексиконах– словари основ и аффиксов

• произношение поверхностных форм вычисляется на основе правил:– словоизменительных– словообразовательных морфофонемных – словосложения


ВНУТРЕННЯЯ СТРУКТУРА

ДАННЫХ

Транскрипция со словарём

Транскриб. морфемы

Морфолог. правила

Морфо-фонемный

модуль

Модуль транскрибиро-

вания букв

Правила транскрипции

Коартикуляцион-ные правила

Финальная фонетическая

обработка

морфемы

фонемы

фонемы

фоны

фонемынеизвестные

морфемы


• Морфемы, не найденные в словаре, транскрибируются по правилу

• Затем выполняется последующая фонетическая обработка для учёта коартикуляционного феномена

• Такой подход используется в системе MITalk– Словарь: около 12 000 морфем, покрывает 95%

входных слов

• Компания AT&T Bell Laboratories также использовала этот подход в своей системе АСР– словарь увеличен до 43 000 морфем



ДАННЫХ

Транскрипция со словарём

Транскриб. морфемы

Морфолог. правила

Морфо-фонемный

модуль

Модуль транскрибиро-

вания букв




обработка

морфемы

фонемы

фонемы

фоны

фонемынеизвестные

морфемы

Стратегия использования правил

• большинство фонологической компетенции словарей переносится во множество правил преобразования графема-фонема

• в словаре хранятся только слова-исключения• многие исключения являются очень

частотными словами достаточно небольшой словарь исключений может покрыть слова большинства текстов– в английском языке 2000 слов достаточно, чтобы

покрыть 70% слов текста

• Выбор подхода очень часто зависит от языка

Стратегия, основанная на правилах


ДАННЫХ

Транскрипция по правилам

Исключения

Модуль транскриби-рования букв




обработка

слоги

Морфо-синтакс. хар-ки

фоны

фоны

фоны

графемы

Модуль обработки цифрового сигнала

• Существует два способа преобразования фонем в звук:– синтез по правилам: явно, в виде набора

правил, которые формально описывают влияние одних фонем на другие

– компилятивный синтез: неявно, путём хранения примеров фонетических переходов и коартикуляций в базе данных отрезков речи и использования их, в конечном счёте, вместо фонем

Акустический синтез по правилам

• формантные синтезаторы– используются в основном фонетистами и

фонологистами

• синтезатор Klatt– Для качественной речи нужно около 60

параметров: частота, амплитуда и ширина формант и антиформант

– необходимы правила для параметров, которые описывают динамически меняющиеся характеристики голосового и шумовых источников звука

Акустический синтез по правилам

- требуется большая подготовительная работа (акустический анализ значительных речевых массивов и формулировка нужных правил)

- получаемая речь часто сопровождается гудением или жужжанием, что снижает её естественность

+ есть возможность имитировать разные голоса, отслеживать изменения в стиле произношения и тембре голоса

• MITALK, DECTALK для английского языка• многоязычная система синтеза INFOVOX • eSpeak

Акустический синтез на основе конкатенации

Подготовка базы данных

1. выбираются сегменты речи– дифоны – полуслоги– трифоны– нежелательные позиции в словах (внутри

ударных слогов или слишком редуцированных контекстах) не берутся во внимание

Подготовка акустической базы данных

2. записывается корпус речи и сегментируется• вручную при помощи визуальных средств

представления цифрового сигнала• либо автоматически с последующей

корректировкой

3. результаты записываются в акустическую базу данных в виде названия сегмента, формы волны, продолжительности и позиций внутренних сегментов

• при записи дифонов также необходимо указывать границу между фонами, чтобы можно было изменить продолжительность одного полуфона, не затрагивая длину другого

Акустический синтез на основе конкатенации фонемы

+просодия

Обработка цифрового сигнала


Корпус речи

сегментацияБД

сегментов речи

Генерация списка

сегментовАнализ

речи

Выравни-вание

Параметр.БД

сегментов

Кодированиеречи

Параметрическая база данных сегментов речи

• Сегменты впоследствии приводятся к параметрическому виду, последовательности векторов параметров, выдаваемых речевым анализатором

+ Удачно выбранные речевые модели позволяют сократить размер базы данных звуков

+ Некоторые модели разделяют сигнал на источник звука и фильтра (голосовой тракт), что очень помогает при операциях, непосредственно предшествующих синтезу: подбору просодии и конкатенации сегментов


+просодия








речи



сегментов


База данных сегментов синтеза

• Параметрическое представление отрезков речи позволяет легко изменять высоту тона, длину волны и огибающую спектра, что нельзя сделать с просто записанными отрезками речи

• Так как отрезки речи были получены из разных слов, т.е. из разных фонетических контекстов, при конкатенации их амплитуда и тембр могут не совпадать

База данных сегментов синтеза

• Необходимо выравнить спектр амплитуды на концах сегментов, оставляя без изменения сами сегменты– уровни громкости плавно корректируются в начале

и конце сегмента– громкости различных фонов одной фонемы

приводятся к её среднему значению

• разница в тембре снимается во время синтеза для каждой пары сегментов, а не выравнивается для всех сегментов сразу, оставляя естественное фонетическое различие в коартикуляциях


+просодия








речи



сегментов

Кодирование речи


Синтез речи

Декодированиеречи

БД сегментов

синтеза

Речь

Подбор просодии

Конкатенация сегментов



• фонам ставится в соответствие последовательность сегментов в блоке генерации списка сегментов

• модуль подбора просодии запрашивает в базе данных сегментов синтеза параметры этих сегментов и приводит их в соответствие один за другим с требуемой просодией


+просодия








речи



сегментов






синтеза

Речь





• В блоке конкатенации сегментов производится подгонка сегментов– производится простая интерполяция

параметров, приблизительно соответствующая сглаживанию акустических переходов между звуками

• Полученная последовательность параметров передаётся в блок синтеза сигнала, в котором производится операция обратная анализу речи — синтез речи





синтеза

Речь




Системы автоматического синтеза речи

Education