Управління проектами УДК 519.68 Ю.М. Тесля,...

Post on 25-May-2020

15 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Управління проектами

© Ю.М. Тесля, Ю.О. Остапчук, І.М. Бахмач, О.О. Кучеренко60

УДК 519.68

Ю.М. Тесля, Ю.О. Остапчук, І.М. Бахмач, О.О. Кучеренко

Київський національний університет будівництва і архітектури, Київ

СУЧАСНИЙ СТАН КОМП’ЮТЕРНИХ СИСТЕМ РОЗПІЗНАННЯ МОВЛЕННЯ

Розглянуто сучасний стан розвитку комп’ютерних систем розпізнання природноїмови, виокремлено основні пріоритети розвитку та основні типи проблем з якимистикаються розробники систем розпізнання голосу на даному етапі їх розвитку.

Ключові слова: методології розпізнавання природної мови, голосове управління,комп’ютерні системи

Сучасний стан комп’ютерних системрозпізнання мови

Використання сучасних, але високо-інтелектуальних інформаційних комп’ютернихтехнологій у сфері людської діяльності вимагаєкардинальної зміни в управлінні автоматизованимисистемами для більш зручного та раціонального їхвикористання. Необхідність в мовному спілкуванні зкомп’ютером є абсолютно природною. Найбільшоюмірою її стимулює не стільки бажання створитибільші зручності користувачу, скільки існуванняспецифічних областей комп’ютеризації, де голосовікоманди є найбільш придатними чи навіть єдинимможливим рішенням. До них можна віднестиголосовий доступ до автоматичних довідковихсистем, керування віддаленим комп’ютером чипортативним пристроєм, що відбувається під часруху. Створення повноцінних мовних інтерфейсів,які підтримують діалог «користувач – комп’ютер» єдуже перспективним, але надзвичайно складнимнапрямом розвитку сучасних комп’ютерних систем,що стикаються з велетенською кількістю проблем нашляху їх вирішення [10].

На сьогодні, під поняттям «розпізнаванняголосу» прихована ціла сфера наукової таінженерної діяльності [8]. В цілому, завданнярозпізнавання голосу зводиться до того, щобвиділити, класифікувати та відповідним чиномвідреагувати на людський голос з вхідногозвукового потоку. Це може бути виконання певноїдії на команду людини чи виокремлення певногослова-маркера з великого масиву телефоннихрозмов, чи система для голосового вводу тексту.Також всім відомі програми голосової ідентифікаціїкористувачів, що реалізовані в деяких системахбезпеки. Потенційно, сфера використанняголосового розпізнання надзвичайно широка, але, нажаль, на даний момент не може бути реалізована

внаслідок слабкої стійкості самих системрозпізнання мови до різних факторів.

Ознаки класифікації систем розпізнаннямови

Кожна система розпізнання мови має певнізадачі, які вона створена вирішувати, та комплексметодів котрий використовується для рішення цихзадач [1]. Класифікація систем розпізнання мовибуде проводитися згідно нового стандартуприйнятого в галузі програмування таких систем -Microsoft Speech API. Згідно з цим стандартомсистеми розпізнання мови розрізняються за певнимиознаками. Інтервал між окремими словами. Якщо

система розпізнає здільну мову, користувачможе вимовляти фрази в природному вигляді,не роблячи проміжків між словами. Неперервнерозпізнання має перевагу, але його реалізаціябільш складна та вимагає більших апаратнихможливостей комп’ютерів, результатом чого ємала кількість таких систем. В системах, щопрацюють з дискретною мовою диктор маєробити паузи між окремими словами, якправило не менше 1/4 секунди. Третімрізновидом є системи, які виділяють одне слово– маркер, в певному мовному інтервалі. Навіть,якщо маркер знаходиться всередині фразивимовленої здільно.

Залежність від диктора. За визначеннямсистема залежна від диктора призначена длявикористання одним користувачем, в той час,як альтернативні системи призначені дляроботи з будь-яким диктором. Незалежність віддиктора – складна задача оскільки під часнавчання системи вона налаштовується напараметри голосу диктора, на прикладі якоговона навчається. Кількість помилок в такихсистемах, як правило в 4-5 разів більша, ніж в

Управління розвитком складних систем (8) ISSN 2219-5300

61

системах залежних від диктора. Системи, щоволодіють відносною незалежністю віддиктора, дозволяють працювати з ними безпопереднього налаштування, навчаннясистеми, однак результати все таки є кращими,за умови навчання системи. Незалежність віддиктора, як правило, досягається за рахунокзбереження звукових еталонів для всіхнайбільш типових голосових носіїв даноготипу, що в результаті ставить більші апаратнівимоги до таких систем. Процес навчання,налаштування під диктора, як правило, займаєвід 30 хв. до кількох годин. Саме цей факт єголовною незручністю для користувачів.Третім різновидом за даною ознакою єсистеми, що автоматично налаштовуються наголос диктора в процесі їх експлуатації. Усистем такого типу є дві особливості: їмнеобхідно знати чи зробив користувачпомилку, вимовляючи те чи інше слово (інакшенавчання буде не вірним); після налаштуванняна конкретного диктора, ці системи стаютьменш надійними при роботі з іншим диктором.

Ступінь деталізації при задаванні еталонів.Розрізняють алгоритми, в яких за еталониприймають цілі слова та алгоритми, щовикористовують в якості еталонів частини слів.Порівняння цілих слів дає більшу точність,швидкість, але при цьому вимагає більшогообсягу пам’яті. Алгоритми порівнянняелементів слів (фонем, складів і т.д.)доводиться використовувати у випадку великихсловників, оскільки об’єм необхідної пам’ятіпропорційний кількості цих еталонних слів тане залежить від об’єму словника.

Розмір словника. Системи розпізнання можутьвикористовувати як великі, так і маленькісловники. Системи, що працюють змаленькими словниками (близько 50 слів),дозволяють користувачу давати комп’ютерупрості команди. Для диктування текстівнеобхідний великий словник (десятки тисячслів). Очевидно, що чим більший розмірсловника, котрий закладено в системурозпізнання, тим більша частота помилок підчас роботи системи. Наприклад, словник із 20слів може бути розпізнано майже без помилок,тоді як частота помилок при роботі зісловником в 1000 слів може досягати 45%. Зіншого боку, навіть розпізнання невеликогословника може дати велику кількість помилок,якщо слова в даному словнику дуже схожі однена одне.Не дивлячись на те, що в теорії можлива будь-

яка комбінація даних характеристик, на практицінайбільш популярними є системи голосового

управління комп’ютером та систем дискретногодиктування тексту.

Різновиди методів розпізнання голосуУ процесі створення системи розпізнання

голосу потрібно обрати рівень абстракціїадекватний поставленій задачі. Параметри звуковоїхвилі мають використовуватися для розпізнання таметодів розпізнання цих параметрів [5]. Можнавиокремити таку основну різницю в структурі іпроцесі роботи різноманітних систем розпізнанняголосу: За типом структурної одиниці. У процесі

аналізу голосу, як базові одиниці можуть бутиобрані окремі слова чи частини вимовленихслів: фонеми, ди- чи трифони, аллофони.Залежно від того, яка структурна частинаобрана, змінюється структура, універсальністьта складність словника елементів, щорозпізнається.

За виділенням ознак. Сама послідовністьвідрізків тиску звукової хвилі – надмірнозбиткова для систем розпізнавання звуків тамістить багато зайвої інформації, яка длярозпізнання не потрібна чи навіть шкідлива.Таким чином, для представлення голосовогосигналу з нього слід виокремити усі параметри,що адекватно представляють даний сигнал длярозпізнання.

За механізмом функціонування. В сучаснихсистемах широко використовуютьсярізноманітні підходи до механізмуфункціонування розпізнавальних систем.Імовірнісно-мережевий підхід полягає в тому,що голосовий сигнал розбивається на певнічастини (кадри або за фонетичною ознакою),після чого імовірнісна оцінка того, до якогосаме елементу словника, що розпізнається маєвідношення дана частина і (чи) весь вхіднийсигнал. Підхід, оснований на рішенні зворотноїзадачі синтезу звука, полягає в тому, що завхідним сигналом визначається характер рухуартикулярів мовного каналу та за спеціальнимсловником відбувається визначення вимовленихфонем.Для кращого розуміння особливостей задач

розпізнання мови слід відмітити, що основна масасистем працюють практично однаково,використовуючи переважно одні й ті ж методи таалгоритми [7]. Різниця полягає в манері диктуванняголосу, розмірі словника, ступені фільтраціївхідного сигналу, обумовлена лише специфікоюзадачі та наявними технічними можливостями.Якщо спробувати представити спрощено процесрозпізнання голосу, то він може бути описаний впослідовності таких кроків:

Управління проектами

62

фільтрація шуму та виокремлення необхідногосигналу;

перетворення вхідного голосового сигналу внабір акустичних параметрів;

приведення акустичної форми сигналу довнутрішнього алфавіту еталонних елементів;

розпізнання послідовності фонем таперетворення їх на слова.

Класичний вид системи розпізнанняголосу

Розпізнання голосу – це багаторівнева задачарозпізнання образів, в якій акустичний сигналаналізується та структурується в ієрархіюструктурних елементів, наприклад, фонем, слів,фраз та речень [4]. Кожен рівень ієрархії можепередбачати деякі часові константи, наприклад,можливі послідовності слів чи відомі видивимовляння, які дозволяють зменшувати кількістьпомилок розпізнання на більш низькому рівні. Чимбільше ми знаємо апріорної інформації про вхіднийсигнал, тим якісніше ми можемо йогоопрацьовувати та розпізнавати. Якщо спробуватипредставити класичний варіант системи розпізнанняголосу, то він може мати такий вигляд:

Рис.1. Модель системи розпізнання голосу

Неопрацьований голосовий сигнал. Як правило,це потік звукових даних, записаний з високоюдискретизацією (20 кГц при записі з мікрофона чи8 кГц при записі з телефонної лінії).

Аналіз сигналу. Сигнал, що надходить має бутипочатково трансформований та стиснений, дляполегшення подальшого опрацювання. Є

різноманітні методи для виокремлення кориснихпараметрів та стиснення початкових даних в десяткиразів без втрати корисної інформації. Найбільшпопулярні: аналіз Фурьє, лінійне прогнозуваннямови, кепстральний аналіз.

Голосові кадри. Результатом аналізу сигналу єпослідовність голосових кадрів. Зазвичай, коженголосовий кадр – це результат аналізу сигналу наневеликому відрізку часу (близько 10 мс), щомістить інформацію про дану ділянку.

Акустичні моделі. Для аналізу складуголосових кадрів потрібен набір акустичнихмоделей. Найбільш розповсюдженими з них є: Шаблонна модель. Як акустична модель

виступає яким-небудь чином збереженийприклад розпізнаної структурної одиниці(слова, команди). Варіативність розпізнаннятакою моделлю досягається шляхомзбереження різноманітних варіантіввимовляння одного й того ж елементу (перелікдикторів багато разів повторюють одну й ту жкоманду). Використовується переважно длярозпізнання слів, як єдиного цілого (команднісистеми).

Модель стану. Кожне слово моделюється, якпослідовність станів, що вказують на набірзвуків, які можна почути в даній ділянці слова,базуючись на імовірнісних правилах. Цейпідхід використовується в більш масштабнихсистемах.Акустичний аналіз. Полягає у зіставленні

різноманітних акустичних моделей до кожногокадру голосу та видає матрицю зіставленняпослідовності кадрів та множини акустичнихмоделей. Для шаблонної моделі ця матриця являєсобою Евклідову відстань між шаблонами івідстанями кадрів (тобто вираховує як сильновідрізняється отриманий сигнал від записаногошаблону й знаходиться шаблон, який найбільшпідходить до отриманого сигналу). Для моделейоснованих на стані, матриця складається зймовірності того, що даний стан може згенеруватиданий кадр.

Коригування часу. Використовується дляопрацювання часової варіативності, виникаючої підчас вимовляння слів (наприклад, «розтягуванні» чи«ковтанні» звуків).

Порядок слів. В результаті роботи, системарозпізнавання голосу виділяє послідовність (чидекілька імовірних послідовностей) слів, котра,найбільш ймовірно, відповідає вхідному потокуголосу.

Неопрацьованийголосовий сигнал

Голосовікадри

Аналізсигналу

Акустичнімоделі

Акустичнийаналіз

Множинакадрів

Корегуваннячасу

Послідовністьслів

Сегментація

Навчання

Навчання

Управління розвитком складних систем (8) ISSN 2219-5300

63

Проблеми та перспективи їх рішенняБеручи до уваги все викладене, можна

виокремити проблеми, які стоять передрозробниками систем розпізнання голосу.

Проблема подолання стаціонарних танестаціонарних перешкод [2]; [3]. Наявні на даниймомент системи голосового керування комп’ютеромі диктування тексту практично не використовують всвоїй роботі алгоритми подолання шумів. Цепов’язано з тим, що дані системи використовуються,як правило, в умовах дому чи офісу, де рівеньзовнішніх шумів мінімальний. Відсутністьподолання шуму в комп’ютерних голосовихсистемах відбивається на кількості помилок під часрозпізнання.

Проблема переходу до розпізнаваннянеперервного голосу. Ця проблема обумовленанедоліками технічних характеристик персональнихкомп’ютерів, що робить на даний момент системидиктування здільної мови занадто дорогими, томунепопулярними.

Проблема аналізу контексту. На сьогодні дляврахування контексту (синтаксису та семантики)при відновленні хронології вимовлених сліввикористовують, як правило, мінімальний набірправил [6]. У подальшому слід очікуватиускладнення граматичних підходів пов’язаних зіспецифікою певної мови.

Проблема пошуку нових звукових параметрів.На сьогодні для розпізнання голосу в основномувикористовують спектральні параметри голосу –швидке перетворення Фурьє, спектр лінійногопрогнозування, кепстральні коефіцієнти [9]. Ціпараметри мають як ряд переваг, так і недоліків(залежність спектральних параметрів від голосудиктора).

Проблема пошуку нових алгоритміввідновлення звукової черги. На сьогодні наявніалгоритми відновлення черги вимовлених звуківпрактично вичерпали свій потенціал збільшенняточності розпізнавання голосу, тому в найближчомумайбутньому слід очікувати створення новихпідходів до рішення даної проблеми.

Список літератури1. Информационное Агентство "Алгоритм".

Распознавание речи: еще один тупик. AlgoNet. [З мережі]http://www.algonet.ru/?ID=180615.

2. Ализар, Анатолий. Незаметная смертьраспознавания речи. Хабрахабр. [З мережі]4травень2010p.http://habrahabr.ru/blogs/artificial_intelligence/92771/.

3. Курочкин С.Н., Бродин А.Г. Проблеми созданиямногоуровневой системи распознавания речи.Официальный сайт МГТУ "Станкин". [З мережі]1997p.http://magazine.stankin.ru/arch /n_02/automation/art05.html.

4. Савенкова О.А., Карпов О.Н. Технологияпостроения интеллектуальной системы распознаванияречи. Національна бібліотека України імені В. І.Вернадського. [З мережі] 17.08.2008p.http://www.nbuv.gov.ua/portal/natural/ii/2008_4/JournalAI_2008_4/Razdel9/00_Savenkova_Karpov.pdf

5. Веренич И.В. Анализ методов построениясистем распознавания речи на основе гибрида скрытоймарковской модели и нейросети. Портал магистровДонНТУ. [З мережі] 2008 p.http://masters.donntu.edu.ua/2008/fvti/verenich/diss/index.htm.

6. Галунов В.И., Соловьев А.Н. Современныепроблемы в области распознавания речи. Порталмагистров ДонНТУ. [З мережі]http://masters.donntu.edu.ua/2008/fvti/verenich/library/darkness.htm.

7. Гребнов С.В. Аналитический обзор методовраспознавания речи в системах голосового управления.ИГЭУ. [З мережі] 2009p. http://www.ispu.ru/files/%2083-85.pdf.

8. Мазуренко И.Л. Компьютерные системыраспознавания речи. Интелектуальные системы. [Змережі]1998p. http://www.intsys.msu.ru /magazine/archive/v3 (1-2)/mazurenko.pdf.

9. Фролов А.В., Фролов Г.В. Синтез ираспознавание речи. Современные решения. Электроннаябиблиотека книг братьев Фроловых. [З мережі] 2003 p.http://frolov-lib.ru/books/hi/index.html.

10. Интернет-портал "История компьютера".История компьютера - Распознавание речи. Историякомпьютера. [З мережі] http://chernykh.net/component/option,com_joomap/Itemid,63/.

Стаття надійшла до редколегії 21.10.2011

Рецензент: д-р техн. наук, проф. C.Д.Бушуєв , Київськийнаціональний університет будівництва і архітектури, Київ.

top related