ingilizce-türkçe istatistiksel makine Çevirisinde biçimbilim kullanımı
TRANSCRIPT
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Ingilizce-Türkçe Istatistiksel MakineÇevirisinde Biçimbilim Kullanımı
Onur GÖRGÜN, Olcay Taner YILDIZ
Bilgisayar Mühendisligi BölümüISIK ÜNIVERSITESIIstanbul, TÜRKIYE
SIU 2012
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Sunum Planı
1 Istatistiksel Makine Çevirisi
2 Ilgili Çalısmalar
3 Uygulanan Modeller
4 Deneyler
5 Sonuçlar ve Tartısma
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Giris
Kaynak dilde verilen cümlenin hedef dildeki en olasıkarsılıgının tespit edilmesiParalel dermeceyi olusturuan kaynak-hedef dildekicümleler arasında kelime, kelime grubu veya sözdizilimagacı hizalama.Hizalama sonuçları üzerinden istatistiksel bir çeviri modeliolusturma ve çeviri olasılıklarının çıkarımı.Artı: Düsük seviyeli insan gücü gereksinimi (?).Eksi: Sözcük dizilimi sorunsalı!
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Istatistiksel Makine Çevirisi
Kaynak dilde verilen cümlenin hedef dildeki en olasıkarsılıgının tespit edilmesi.
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Istatistiksel Makine Çevirisi - Genel Görünüm
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Kelime Grubu Tabanlı Model
Kaynak cümle kelime gruplarına ayrılması.Her kelime grubunun hedef dildeki kelime grubu ileeslestirilmesi.Kelime gruplarının sıralarının düzenlenmesi.
Çeviri modeli her bir ögeyi ayrı bir kelime biçimi olarakkabul eder. → Veri seyrekligi problemi!Çözüm: Biçimbilimsel Çözümleme
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Dile Özgü Ögelerinin Sisteme Entegrasyonu
Figure : Faktörlü Çeviri Modeli. Kelime hizalama 3 safhaya ayrılmıstır:kök esleme, cümle ögesi esleme ve biçimbilimsel ögelerin eslenmesi
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Dile Özgü Ögelerinin Sisteme Entegrasyonu
Soru:Kaynak-Hedef dil ikilisi biçimbilimsel olarak farklılıkgösteriyorsa?
Table : Türkçe-Ingilizce çeviri örnegi. Türkçe’ye ait ekler Ingilizcekelime veya eklerle eslesebilir. Tekli çubuklar ek, çiftli çubuklar isekelime sınırlarını temsil etmektedir.
sonuç +lAr +sH +nA daya+HnHl +yarakconclusion +s of the basis on
bir ortaklık +sH olus +dHr +Hl +yacak +dHra partnership draw up +ed will be
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Dile Özgü Ögelerinin Sisteme Entegrasyonu
Soru:Kaynak-Hedef dil ikilisi biçimbilimsel olarak farklılıkgösteriyorsa?
Table : Türkçe-Ingilizce çeviri örnegi. Türkçe’ye ait ekler Ingilizcekelime veya eklerle eslesebilir. Tekli çubuklar ek, çiftli çubuklar isekelime sınırlarını temsil etmektedir.
sonuç +lAr +sH +nA daya+HnHl +yarakconclusion +s of the basis on
bir ortaklık +sH olus +dHr +Hl +yacak +dHra partnership draw up +ed will be
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Ilgili Çalısmalar
Faktörlü model ve kelime grubu bazlı modelin birlesimi.(El-Kahlout, 2009)Degisik gösterimler kullanılarak bu gösterimlerin çeviriperformansına olan katkısı tartısılmaktadır.Türkçe
Kök + Biçimbilim→ “bir+lA s+dIr+mA"Kök| ek1 | ek2 ... → “bir | +lA s | +dIr | +mA"Kök | Biçimbilim→ “bir | +lA s+dIr+mA"Seçimli Parçalı Model→ Bazı Türkçe ekler için Ingilizceesleme mümkün olmamaktadır. (örn: “+sH")
Ingilizce:Cümlenin ögeleri etiketleri (POS tags) ve kısıtlı biçimbilimkullanımı.
BLUE metrigi bazından performans artısı.
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Hedefler
Ingilizce-Türkçe dil çifti için nitelikli paralel metin elde etme.Önerilen modellerin performanslarını, kısıtlı uzunlukta birparalel metin üzerinde detaylı ve kapsamlı birzengilestirme yapmadan karsılastırma.Sözcük Dizilim Agacı tabanlı bir çeviri modeli olusturmakiçin temel olusturma.
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Biçimbilimsel Gösterimler
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Deney Verisi
2004-2011 tarihleriarasında SIUÖzetçe-Abstract çevirileri.Cümle Hizalama→Gale&Church algoritması.Egitim kümesi: 3074 cümleve 80000 kelime. TestKümesi: 64 cümle ve 1700kelime.
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Deney Düzenegi
Biçimbilimsel Çözümleme→ Sak, 2007, BiçimbilimselAnlamsızlık Giderici→ Yuret, 2007Ingilizce Cümlenin Ögelerine ayırma→ TreeTagger.Kelime Hizalama→ GIZA++, Dil Modelleme→ SRILM veIRSTLM.Kelime Grubu Hizalama→ Moses.
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Çeviri Modelinin Olusturulması
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Performans Degerlendirme
BLEU: Dogru çeviri sıralamasını bulabilmek için n-gramtabanlı bir çözüm.Konum bagımsız bir kelime-hata oranı.
BLEU-n = KC × expn∑
i=1
λi log precisioni
KC = min(
1,cikti-uzunlugu
referans-uzunluk
) (1)
BLEU − 4 = min(
1,cikti − uzunlugu
referans − uzunluk
) 4∏i=1
precisioni
(2)
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
BLEU: Örnek
R1: It is a guide to action that ensures that the military willforever heed Party commands.R2: It is the Guiding Principle which guarantees the militaryforces always being under the command of the Party.R3: It is the practical guide for the army always to heed thedirections of the party.C1: It is to insure the troops forever hearing the activityguidebook that party direct.C2: It is a guide to action which ensures that the military alwaysobeys the command of the party.
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
BLEU: Örnek
R1: It is a guide to action that ensures that the military willforever heed Party commands.R2: It is the Guiding Principle which guaranteesthe military forces always being underthe command of the Party.R3: It is the practical guide for the army always to heed thedirections of the party.C1: It is to insure the troops forever hearing the activityguidebook that party direct.C2: It is a guide to action which ensures that the militaryalways obeys the command of the party.
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Sonuçlar
Model-0 Model-1 Model-2 Model-3BLEU 4.36 4.92 5.29 4.41
Zengilestirilmis veri seti üzerinde yapılan çalısmalaraoranla düsük bir performans (21 BLEU puanı).Model-1, Model-0’ a göre göreceli olarak %13’ lük birperformans artısı göstermistir.Veri boyutunun ve cümle uzunluklugunun bir sonucu olarakKelime Hizalama problemi gözlemlenmistir.Model-3, son islemlerde ek bazında kulalnılan dil modelininyetersizliginden ötürü düsük performans göstermistir.
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı
Istatistiksel Makine ÇevirisiIlgili Çalısmalar
Uygulanan ModellerDeneyler
Sonuçlar ve Tartısma
Gelecek Çalısmalar
Kısıtlı boyuttaki paralel metin üzerinde zengilestirmeçalısmaları (kelime ve kelime grupları ekleme, (El-Kahlout,2009)).Bilisim terimlerinden olusan bir sözlük ile desteklenmis vebir biçimbilim çözümleyici.
Onur GÖRGÜN, Olcay Taner YILDIZ Ingilizce-Türkçe Istatistiksel Makine Çevirisinde Biçimbilim Kullanımı