automatic build of semantic translational dictionary

19
Метод автоматического построения переводного семантического словаря для машинного перевода Кан Дмитрий Александрович аспирантура ПМ-ПУ, 3 курс кафедра ТП 2009

Upload: dmitry-kan

Post on 29-Nov-2014

1.331 views

Category:

Technology


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Automatic Build Of Semantic Translational Dictionary

Метод автоматического построенияпереводного семантического

словаря для машинного перевода

Кан Дмитрий Александровичаспирантура ПМ-ПУ, 3 курскафедра ТП2009

Page 2: Automatic Build Of Semantic Translational Dictionary

Outline

Два фундаментальных подхода кмашинному переводу (МП)Характеристика классического подходаХарактеристика статистического подходаЗадача скрещивания двух подходовПереводной семантический словарьЭкспериментальная система МП

Page 3: Automatic Build Of Semantic Translational Dictionary

Классика и статистика

Классика: лингвистические правила; трансфер синтаксиса; интерлингваСтатистика: статистические модели языка, перевода и переупорядочивания слов

Page 4: Automatic Build Of Semantic Translational Dictionary

Интерлингва

Компьютерная семантикаСемантический анализатор снимаетпервые две языковые оболочки: морфологию и синтаксисКаждое слово выражается насемантическом языке (аналогинтерлингвы)

Page 5: Automatic Build Of Semantic Translational Dictionary

Семантический анализ

Областью определения базисных функций является множество объектовбазы знаний.является<X005.001>(@Тв Областью<X001.001><+СущГлаг3+>

(@Род определения<X002.002><+СущСущ1+>(@Род функций<X004.002><+СущСущ6+>

(@Род базисных<X003.001><+КАКОЙ:ПрилСущ7+>))

),@Им множество<X006.001><+ГлагСущ8+>

(@Род объектов<X007.001><+СущГлагСущ+>(@Род базы_знаний<X008.006><+СущСущ4+>)

))

.

Page 6: Automatic Build Of Semantic Translational Dictionary

GIZA++

Модуль выравнивания словВходит в состав пакета Moses(статистический МП)86000 предложений -> 1,3 млн пар слов ввыходных данныхЗадача разрешения полисемииВысокий уровень избыточности данных всловаре

NULL And the program has been implemented| | | | | | |

| | | | +-+---+| | | | | | |

Le programme a ete mis en application

Page 7: Automatic Build Of Semantic Translational Dictionary

Пара || предложений и выходныеданные

Desperate to hold onto power , Pervez Musharraf hasdiscarded Pakistan ' s constitutional framework anddeclared a state of emergency .

NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 })стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) ,({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 })конституционную ({ 14 15 }) систему ({ })Пакистана ({ 11 12 13 }) и ({ 16 })объявил ({ 17 }) о ({ 18 }) введении ({ })чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })

Page 8: Automatic Build Of Semantic Translational Dictionary

Таблица соответствий слов

..

state emergencyчрезвычайного

declaredобъявил

andи

Pakistan ’ sПакистана

constitutional frameworkконституционную

has discardedотверг

MusharrafМушарраф

PervezПервез

,,

powerвласть

toстремлении

Desperate to holdотчаянном

ofNULL

Page 9: Automatic Build Of Semantic Translational Dictionary

Переводной семантический словарь

Семантический анализатор разрешаетполисемию посредствомморфологического, синтаксического исемантического анализаКаждое слово слева имеет свой контекст впаре параллельных предложенийКонтекст выражается своейсемантической формулой

Page 10: Automatic Build Of Semantic Translational Dictionary

Схема алгоритма

|| корпус

GIZA++

Семантический анализатор

merging

Переводнойсемантическийсловарь

Page 11: Automatic Build Of Semantic Translational Dictionary

Выдержка из словаря

В Y1>HabU(Y1:,ПРЕД:Z1) \\ <149>--->WithinВ Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) \\ <146>--->atВ Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) \\ <208>--->InВ Y1>Loc(Y1:,ПРЕД:Z1) \\ <224>--->Throughout...МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) \\ <2>--->Marshall...НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) \\ <67>--->atНА Y1>Direkt(Y1:,РОД:Z1) \\ <100>--->onНА Y1>Direkt(Y1:,РОД:Z1) \\ <69>--->forНА Y1>Direkt(Y1:,РОД:Z1) \\ <74>--->for the...ОБРАЗ (РОД:Z1) \\ <2>--->a wayОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227))\\ <1>--->global...

Всего около 18 тысяч пар слов

Page 12: Automatic Build Of Semantic Translational Dictionary

Экспериментальная система МП

Словарный метод третьего уровняПервые два: прямой с перебором всехфлексий (первый уровень) и сприменением морфологического анализадля перехода к леммам (второй уровень)Третий уровень: семантический анализ, учитывающий ещё и контекст слова

Page 13: Automatic Build Of Semantic Translational Dictionary

Оценка по BLEU score

c – длина перевода-кандидата

r – длина Referenceкорпуса

База: N=4, wn=1/N

Page 14: Automatic Build Of Semantic Translational Dictionary

Сравнение с Moses

3000 предложений для оценки по BLEUЭкспериментальная СМП BLEU = 12,89Moses BLEU = 21,31Moses оперирует над словоформами, в товремя как экспериментальная СМПоперирует над леммами

Page 15: Automatic Build Of Semantic Translational Dictionary

Примеры переводовэкспериментальной СМП

Исходное предложение: Распутина скомпрометировалигосударственностью.

перевод Moses: Распутина compromised государственностью.перевод экспериментальной СМП: Rasputin compromisedby statehood.

Исходное предложение: У Распутина скрытые доходы.перевод Moses: the распутина hidden incomes .перевод экспериментальной СМП: has Rasputin animplicit income.

Page 16: Automatic Build Of Semantic Translational Dictionary

Future plans

Корректный морфологический синтезЛинеаризация (переупорядочивание словв выходном предложении)Перевод корпуса в нижний регистр передGIZA++Отработка имён собственныхТщательная вычистка словаряПостоянное пополнение

Page 17: Automatic Build Of Semantic Translational Dictionary

Благодарности

Владимир ПорошинM-Brain

Page 18: Automatic Build Of Semantic Translational Dictionary

Литература

1. Тузов В.А. Компьютерная семантика русского языка. СПб, изд-воСПбГУ, 2004. 400 с.

2. Al-Onaizan Y., Curin J., Jahr M., Knight K., Laerty J., MelamedD., Och F.J., Purdy J., Smith N. A., Yarowsky D. Statistical MachineTranslation. Final report, JHU Workshop, 1999

3. Och F.J. An Ecient Method for Determining Bilingual Wordclasses. // Ninth Conf. of the Europ. Chapter of the Association forComputational Linguistics. EACL'99. Bergen, Norway, June 1999. P7176.

4. Brown P.F., Della Pietra V.J., Della Pietra S.A. and Mercer R.L. Themathematics of statistical machine translation: Parameter estimation.// Computational linguistics 19(2), 1993

5. Koehn P., Hoang H., Birch A., Callison-Burch C., Federico M.,Bertoldi N., Cowan B., Shen W., Moran C., Zens R., Dyer C.,Bojar O., Constantin A., Herbst E. Moses: Open Source Toolkit forStatistical Machine Translation. // Annual Meeting of the Associationfor Computational Linguistics (ACL), demonstration session, Prague,Czech Republic, June 2007.

6. Klyueva N., Bojar O. UMC 0.1: Czech-Russian-English MultilingualCorpus. // Proceedings of the Conference "Corpora 2008". (In print.)

Page 19: Automatic Build Of Semantic Translational Dictionary

Спасибо!

Вопросы?