ingilizce-türkçe istatistiksel makine Çevirisinde biçimbilim kullanımı

20
˙ Istatistiksel Makine Çevirisi ˙ Ilgili Çalı¸ smalar Uygulanan Modeller Deneyler Sonuçlar ve Tartı¸ sma ˙ Ingilizce-Türkçe ˙ Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı Onur GÖRGÜN, Olcay Taner YILDIZ Bilgisayar Mühendisli˘ gi Bölümü SIK ÜN ˙ IVERS ˙ ITES ˙ I ˙ Istanbul, TÜRK ˙ IYE SIU 2012 Onur GÖRGÜN, Olcay Taner YILDIZ ˙ Ingilizce-Türkçe ˙ Istatistiksel Makine Çevirisinde Biçimbilim Kullanı

Upload: truongnhu

Post on 31-Dec-2016

266 views

Category:

Documents


11 download

TRANSCRIPT

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Ingilizce-Türkçe Istatistiksel MakineÇevirisinde Biçimbilim Kullanımı

Onur GÖRGÜN, Olcay Taner YILDIZ

Bilgisayar Mühendisligi BölümüISIK ÜNIVERSITESIIstanbul, TÜRKIYE

SIU 2012

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Sunum Planı

1 Istatistiksel Makine Çevirisi

2 Ilgili Çalısmalar

3 Uygulanan Modeller

4 Deneyler

5 Sonuçlar ve Tartısma

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Giris

Kaynak dilde verilen cümlenin hedef dildeki en olasıkarsılıgının tespit edilmesiParalel dermeceyi olusturuan kaynak-hedef dildekicümleler arasında kelime, kelime grubu veya sözdizilimagacı hizalama.Hizalama sonuçları üzerinden istatistiksel bir çeviri modeliolusturma ve çeviri olasılıklarının çıkarımı.Artı: Düsük seviyeli insan gücü gereksinimi (?).Eksi: Sözcük dizilimi sorunsalı!

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Istatistiksel Makine Çevirisi

Kaynak dilde verilen cümlenin hedef dildeki en olasıkarsılıgının tespit edilmesi.

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Istatistiksel Makine Çevirisi - Genel Görünüm

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Kelime Grubu Tabanlı Model

Kaynak cümle kelime gruplarına ayrılması.Her kelime grubunun hedef dildeki kelime grubu ileeslestirilmesi.Kelime gruplarının sıralarının düzenlenmesi.

Çeviri modeli her bir ögeyi ayrı bir kelime biçimi olarakkabul eder. → Veri seyrekligi problemi!Çözüm: Biçimbilimsel Çözümleme

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Dile Özgü Ögelerinin Sisteme Entegrasyonu

Figure : Faktörlü Çeviri Modeli. Kelime hizalama 3 safhaya ayrılmıstır:kök esleme, cümle ögesi esleme ve biçimbilimsel ögelerin eslenmesi

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Dile Özgü Ögelerinin Sisteme Entegrasyonu

Soru:Kaynak-Hedef dil ikilisi biçimbilimsel olarak farklılıkgösteriyorsa?

Table : Türkçe-Ingilizce çeviri örnegi. Türkçe’ye ait ekler Ingilizcekelime veya eklerle eslesebilir. Tekli çubuklar ek, çiftli çubuklar isekelime sınırlarını temsil etmektedir.

sonuç +lAr +sH +nA daya+HnHl +yarakconclusion +s of the basis on

bir ortaklık +sH olus +dHr +Hl +yacak +dHra partnership draw up +ed will be

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Dile Özgü Ögelerinin Sisteme Entegrasyonu

Soru:Kaynak-Hedef dil ikilisi biçimbilimsel olarak farklılıkgösteriyorsa?

Table : Türkçe-Ingilizce çeviri örnegi. Türkçe’ye ait ekler Ingilizcekelime veya eklerle eslesebilir. Tekli çubuklar ek, çiftli çubuklar isekelime sınırlarını temsil etmektedir.

sonuç +lAr +sH +nA daya+HnHl +yarakconclusion +s of the basis on

bir ortaklık +sH olus +dHr +Hl +yacak +dHra partnership draw up +ed will be

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Ilgili Çalısmalar

Faktörlü model ve kelime grubu bazlı modelin birlesimi.(El-Kahlout, 2009)Degisik gösterimler kullanılarak bu gösterimlerin çeviriperformansına olan katkısı tartısılmaktadır.Türkçe

Kök + Biçimbilim→ “bir+lA s+dIr+mA"Kök| ek1 | ek2 ... → “bir | +lA s | +dIr | +mA"Kök | Biçimbilim→ “bir | +lA s+dIr+mA"Seçimli Parçalı Model→ Bazı Türkçe ekler için Ingilizceesleme mümkün olmamaktadır. (örn: “+sH")

Ingilizce:Cümlenin ögeleri etiketleri (POS tags) ve kısıtlı biçimbilimkullanımı.

BLUE metrigi bazından performans artısı.

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Hedefler

Ingilizce-Türkçe dil çifti için nitelikli paralel metin elde etme.Önerilen modellerin performanslarını, kısıtlı uzunlukta birparalel metin üzerinde detaylı ve kapsamlı birzengilestirme yapmadan karsılastırma.Sözcük Dizilim Agacı tabanlı bir çeviri modeli olusturmakiçin temel olusturma.

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Biçimbilimsel Gösterimler

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Deney Verisi

2004-2011 tarihleriarasında SIUÖzetçe-Abstract çevirileri.Cümle Hizalama→Gale&Church algoritması.Egitim kümesi: 3074 cümleve 80000 kelime. TestKümesi: 64 cümle ve 1700kelime.

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Deney Düzenegi

Biçimbilimsel Çözümleme→ Sak, 2007, BiçimbilimselAnlamsızlık Giderici→ Yuret, 2007Ingilizce Cümlenin Ögelerine ayırma→ TreeTagger.Kelime Hizalama→ GIZA++, Dil Modelleme→ SRILM veIRSTLM.Kelime Grubu Hizalama→ Moses.

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Çeviri Modelinin Olusturulması

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Performans Degerlendirme

BLEU: Dogru çeviri sıralamasını bulabilmek için n-gramtabanlı bir çözüm.Konum bagımsız bir kelime-hata oranı.

BLEU-n = KC × expn∑

i=1

λi log precisioni

KC = min(

1,cikti-uzunlugu

referans-uzunluk

) (1)

BLEU − 4 = min(

1,cikti − uzunlugu

referans − uzunluk

) 4∏i=1

precisioni

(2)

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

BLEU: Örnek

R1: It is a guide to action that ensures that the military willforever heed Party commands.R2: It is the Guiding Principle which guarantees the militaryforces always being under the command of the Party.R3: It is the practical guide for the army always to heed thedirections of the party.C1: It is to insure the troops forever hearing the activityguidebook that party direct.C2: It is a guide to action which ensures that the military alwaysobeys the command of the party.

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

BLEU: Örnek

R1: It is a guide to action that ensures that the military willforever heed Party commands.R2: It is the Guiding Principle which guaranteesthe military forces always being underthe command of the Party.R3: It is the practical guide for the army always to heed thedirections of the party.C1: It is to insure the troops forever hearing the activityguidebook that party direct.C2: It is a guide to action which ensures that the militaryalways obeys the command of the party.

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Sonuçlar

Model-0 Model-1 Model-2 Model-3BLEU 4.36 4.92 5.29 4.41

Zengilestirilmis veri seti üzerinde yapılan çalısmalaraoranla düsük bir performans (21 BLEU puanı).Model-1, Model-0’ a göre göreceli olarak %13’ lük birperformans artısı göstermistir.Veri boyutunun ve cümle uzunluklugunun bir sonucu olarakKelime Hizalama problemi gözlemlenmistir.Model-3, son islemlerde ek bazında kulalnılan dil modelininyetersizliginden ötürü düsük performans göstermistir.

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı

Istatistiksel Makine ÇevirisiIlgili Çalısmalar

Uygulanan ModellerDeneyler

Sonuçlar ve Tartısma

Gelecek Çalısmalar

Kısıtlı boyuttaki paralel metin üzerinde zengilestirmeçalısmaları (kelime ve kelime grupları ekleme, (El-Kahlout,2009)).Bilisim terimlerinden olusan bir sözlük ile desteklenmis vebir biçimbilim çözümleyici.

Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı