Download - Data extraction
Information Extraction, Automatic(Hamish Cunningham-2004)
Canan GİRGİNYıldız Teknik Üniversitesi
Bilgisayar Mühendisliği
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 1
.
Çıkarım ve Getirim Farkı Anlamadan Dil İşleme Uygulama Senaryoları 5 IE Turu MUC dan Sonra IE
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 2
Program
Çıkarım ve Getirim Farkı
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 3
IR sistemi alakalı metinleri bulur bunları kullanıcıya sunar
IE uygulaması metinleri analiz eder ve kullanıcıya sadece ilgisini çeken belirli bir bilgi sunar.
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 4
Anlamadan Dil İşleme
1990 Message Understanding Conferences (MUCs )
Standartlar
Yarışma
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 5
Uygulama Senaryoları
Finansal Analiz Market Stratejileri Halkla İlişkiler Çalışanları Medya Analistleri
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 6
Finansal Analiz
“Şirketimizle aynı konuda çalışan guçlu bir performansa sahip olacağı tahmin edilen kaç tane şirket var?”
“Geçtiğimiz yıl bu şirket için tahminlerin profilleri nasıl değişti?”
“Şirket için kaç tane olumlu/olumsuz duşunce ifade edildi?”
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 7
Market Stratejileri
• “Bu sabah IT yazılarının %7 sinde şirketinizden bahsetti. Sizin şirketinizle doğrudan ilgili olanlarının avaraj oranı 33%. Sizin sektörünüzdeki diğer şirketlerin özet olarak goruntusu ekteki tablodadır.”
• «Şirket Y Comdex de sergilendi. Bir sonraki hafta Comdex sergisi ile ilgili yazıların %20 si Y şirketi ile ilgiliydi.»
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 8
Halkla İlişkiler Çalışanları
‘Aşağıdaki tablo IT haberlerinde ki şirketiniz hakkında son 24 saatte çıkan 12 negatif raporlanacak olayı özetliyor.”
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 9
Medya Analistleri
“Sizin şirketiniz ve XML konusundaki medya uzaklığı 0.09; IBM için bu değer 0.2”
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 10
5 IE Turu
Named Entity recognition (NE) Coreference resolution (CO) Template Element construction (TE) Template Relation construction (TR) Scenario Template production (ST)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 11
Örnek:
Salı günü parlak kırmızı roket atıldı. Bu Dr. Big Head ‘in parlak bir buluşu. Dr. Head We Build Rockets şirketinde bilim adamı olarak çalışmakta.
NE “roket, Salı, Dr. Head ve We Build Rockets Inc” varlıklarını bulur.
CO rokete başvuracağını bulur.
TE roketin parlak kırmızı olduğunu ve Head’in buluşu olduğunu bulur.
TR Dr. Head’in “We Build Rockets Inc.” İçin çalıştığını bulur.
ST birçok varlığı barındıran bir roket fırlatma olayının olduğunu bulur.
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 12
Named Entity recognition (NE) “Named Entity Extraction”
NE sistemi tum kişi isimlerini, yerleri, organizasyonları, tarihleri, para miktarlarını vs. tanımlar
NE varlık tanıması 95% oranda başarılı olmuştur
Coreference resolution (CO)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 13
Kimlik ilişkileri tanımları
“Ne yazık, zavallı Yorick, ben onu Horatio olarak bilirdim.”
Yoric => onu
Problemler: Zamir Çözumleme( anaphoric resolution)
Örneğin: ‘Ben’ ile “Ahmet”. Özel isim çözumleme(proper-noun resolution)
Örneğin: ‘IBM’, ‘IBM Europe’, ‘International Business Machines Ltd.’. .
Başarı: %50-60
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 14
Template Element construction (TE)
Açıklayıcı bilgiler ile varlıkları ilişkilendirir.
En iyi başarı oranı %80
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 15
Template Relation construction (TR)
Template elemenler arasında ki az sayıdaki olası ilişkiyi tanımlar
Örneğin bir kişi ve şirket arasındaki çalışan ilişkisi iki kişi arasındaki akrabalık ilişkisi, ya da iki şirket arasındaki ortaklık ilişkisi.
En iyi başarı oranı %75
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 16
Scenario Template production (ST)
Scenario templates (STs) IE sistemleri için prototip çıktılardır.
Başarı oranı %60
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 17
MUC dan Sonra IE
Taşınabilir IE Otomatik İçerik Çıkarımı ( Automatic Content Extraction ACE) Ontoloji Tabanlı IE
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 18
Teşekurler