automatic build of semantic translational dictionary
DESCRIPTION
TRANSCRIPT
Метод автоматического построенияпереводного семантического
словаря для машинного перевода
Кан Дмитрий Александровичаспирантура ПМ-ПУ, 3 курскафедра ТП2009
Outline
Два фундаментальных подхода кмашинному переводу (МП)Характеристика классического подходаХарактеристика статистического подходаЗадача скрещивания двух подходовПереводной семантический словарьЭкспериментальная система МП
Классика и статистика
Классика: лингвистические правила; трансфер синтаксиса; интерлингваСтатистика: статистические модели языка, перевода и переупорядочивания слов
Интерлингва
Компьютерная семантикаСемантический анализатор снимаетпервые две языковые оболочки: морфологию и синтаксисКаждое слово выражается насемантическом языке (аналогинтерлингвы)
Семантический анализ
Областью определения базисных функций является множество объектовбазы знаний.является<X005.001>(@Тв Областью<X001.001><+СущГлаг3+>
(@Род определения<X002.002><+СущСущ1+>(@Род функций<X004.002><+СущСущ6+>
(@Род базисных<X003.001><+КАКОЙ:ПрилСущ7+>))
),@Им множество<X006.001><+ГлагСущ8+>
(@Род объектов<X007.001><+СущГлагСущ+>(@Род базы_знаний<X008.006><+СущСущ4+>)
))
.
GIZA++
Модуль выравнивания словВходит в состав пакета Moses(статистический МП)86000 предложений -> 1,3 млн пар слов ввыходных данныхЗадача разрешения полисемииВысокий уровень избыточности данных всловаре
NULL And the program has been implemented| | | | | | |
| | | | +-+---+| | | | | | |
Le programme a ete mis en application
Пара || предложений и выходныеданные
Desperate to hold onto power , Pervez Musharraf hasdiscarded Pakistan ' s constitutional framework anddeclared a state of emergency .
NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 })стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) ,({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 })конституционную ({ 14 15 }) систему ({ })Пакистана ({ 11 12 13 }) и ({ 16 })объявил ({ 17 }) о ({ 18 }) введении ({ })чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
Таблица соответствий слов
..
state emergencyчрезвычайного
aо
declaredобъявил
andи
Pakistan ’ sПакистана
constitutional frameworkконституционную
has discardedотверг
MusharrafМушарраф
PervezПервез
,,
powerвласть
toстремлении
Desperate to holdотчаянном
ofNULL
Переводной семантический словарь
Семантический анализатор разрешаетполисемию посредствомморфологического, синтаксического исемантического анализаКаждое слово слева имеет свой контекст впаре параллельных предложенийКонтекст выражается своейсемантической формулой
Схема алгоритма
|| корпус
GIZA++
Семантический анализатор
merging
Переводнойсемантическийсловарь
Выдержка из словаря
В Y1>HabU(Y1:,ПРЕД:Z1) \\ <149>--->WithinВ Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) \\ <146>--->atВ Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) \\ <208>--->InВ Y1>Loc(Y1:,ПРЕД:Z1) \\ <224>--->Throughout...МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) \\ <2>--->Marshall...НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) \\ <67>--->atНА Y1>Direkt(Y1:,РОД:Z1) \\ <100>--->onНА Y1>Direkt(Y1:,РОД:Z1) \\ <69>--->forНА Y1>Direkt(Y1:,РОД:Z1) \\ <74>--->for the...ОБРАЗ (РОД:Z1) \\ <2>--->a wayОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227))\\ <1>--->global...
Всего около 18 тысяч пар слов
Экспериментальная система МП
Словарный метод третьего уровняПервые два: прямой с перебором всехфлексий (первый уровень) и сприменением морфологического анализадля перехода к леммам (второй уровень)Третий уровень: семантический анализ, учитывающий ещё и контекст слова
Оценка по BLEU score
c – длина перевода-кандидата
r – длина Referenceкорпуса
База: N=4, wn=1/N
Сравнение с Moses
3000 предложений для оценки по BLEUЭкспериментальная СМП BLEU = 12,89Moses BLEU = 21,31Moses оперирует над словоформами, в товремя как экспериментальная СМПоперирует над леммами
Примеры переводовэкспериментальной СМП
Исходное предложение: Распутина скомпрометировалигосударственностью.
перевод Moses: Распутина compromised государственностью.перевод экспериментальной СМП: Rasputin compromisedby statehood.
Исходное предложение: У Распутина скрытые доходы.перевод Moses: the распутина hidden incomes .перевод экспериментальной СМП: has Rasputin animplicit income.
Future plans
Корректный морфологический синтезЛинеаризация (переупорядочивание словв выходном предложении)Перевод корпуса в нижний регистр передGIZA++Отработка имён собственныхТщательная вычистка словаряПостоянное пополнение
Благодарности
Владимир ПорошинM-Brain
Литература
1. Тузов В.А. Компьютерная семантика русского языка. СПб, изд-воСПбГУ, 2004. 400 с.
2. Al-Onaizan Y., Curin J., Jahr M., Knight K., Laerty J., MelamedD., Och F.J., Purdy J., Smith N. A., Yarowsky D. Statistical MachineTranslation. Final report, JHU Workshop, 1999
3. Och F.J. An Ecient Method for Determining Bilingual Wordclasses. // Ninth Conf. of the Europ. Chapter of the Association forComputational Linguistics. EACL'99. Bergen, Norway, June 1999. P7176.
4. Brown P.F., Della Pietra V.J., Della Pietra S.A. and Mercer R.L. Themathematics of statistical machine translation: Parameter estimation.// Computational linguistics 19(2), 1993
5. Koehn P., Hoang H., Birch A., Callison-Burch C., Federico M.,Bertoldi N., Cowan B., Shen W., Moran C., Zens R., Dyer C.,Bojar O., Constantin A., Herbst E. Moses: Open Source Toolkit forStatistical Machine Translation. // Annual Meeting of the Associationfor Computational Linguistics (ACL), demonstration session, Prague,Czech Republic, June 2007.
6. Klyueva N., Bojar O. UMC 0.1: Czech-Russian-English MultilingualCorpus. // Proceedings of the Conference "Corpora 2008". (In print.)
Спасибо!
Вопросы?