data extraction
DESCRIPTION
Data Extraction Bilgi çıkarımıTRANSCRIPT
![Page 1: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/1.jpg)
Information Extraction, Automatic(Hamish Cunningham-2004)
Canan GİRGİNYıldız Teknik Üniversitesi
Bilgisayar Mühendisliği
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 1
![Page 2: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/2.jpg)
.
Çıkarım ve Getirim Farkı Anlamadan Dil İşleme Uygulama Senaryoları 5 IE Turu MUC dan Sonra IE
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 2
Program
![Page 3: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/3.jpg)
Çıkarım ve Getirim Farkı
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 3
IR sistemi alakalı metinleri bulur bunları kullanıcıya sunar
IE uygulaması metinleri analiz eder ve kullanıcıya sadece ilgisini çeken belirli bir bilgi sunar.
![Page 4: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/4.jpg)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 4
Anlamadan Dil İşleme
1990 Message Understanding Conferences (MUCs )
Standartlar
Yarışma
![Page 5: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/5.jpg)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 5
Uygulama Senaryoları
Finansal Analiz Market Stratejileri Halkla İlişkiler Çalışanları Medya Analistleri
![Page 6: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/6.jpg)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 6
Finansal Analiz
“Şirketimizle aynı konuda çalışan guçlu bir performansa sahip olacağı tahmin edilen kaç tane şirket var?”
“Geçtiğimiz yıl bu şirket için tahminlerin profilleri nasıl değişti?”
“Şirket için kaç tane olumlu/olumsuz duşunce ifade edildi?”
![Page 7: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/7.jpg)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 7
Market Stratejileri
• “Bu sabah IT yazılarının %7 sinde şirketinizden bahsetti. Sizin şirketinizle doğrudan ilgili olanlarının avaraj oranı 33%. Sizin sektörünüzdeki diğer şirketlerin özet olarak goruntusu ekteki tablodadır.”
• «Şirket Y Comdex de sergilendi. Bir sonraki hafta Comdex sergisi ile ilgili yazıların %20 si Y şirketi ile ilgiliydi.»
![Page 8: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/8.jpg)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 8
Halkla İlişkiler Çalışanları
‘Aşağıdaki tablo IT haberlerinde ki şirketiniz hakkında son 24 saatte çıkan 12 negatif raporlanacak olayı özetliyor.”
![Page 9: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/9.jpg)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 9
Medya Analistleri
“Sizin şirketiniz ve XML konusundaki medya uzaklığı 0.09; IBM için bu değer 0.2”
![Page 10: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/10.jpg)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 10
5 IE Turu
Named Entity recognition (NE) Coreference resolution (CO) Template Element construction (TE) Template Relation construction (TR) Scenario Template production (ST)
![Page 11: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/11.jpg)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 11
Örnek:
Salı günü parlak kırmızı roket atıldı. Bu Dr. Big Head ‘in parlak bir buluşu. Dr. Head We Build Rockets şirketinde bilim adamı olarak çalışmakta.
NE “roket, Salı, Dr. Head ve We Build Rockets Inc” varlıklarını bulur.
CO rokete başvuracağını bulur.
TE roketin parlak kırmızı olduğunu ve Head’in buluşu olduğunu bulur.
TR Dr. Head’in “We Build Rockets Inc.” İçin çalıştığını bulur.
ST birçok varlığı barındıran bir roket fırlatma olayının olduğunu bulur.
![Page 12: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/12.jpg)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 12
Named Entity recognition (NE) “Named Entity Extraction”
NE sistemi tum kişi isimlerini, yerleri, organizasyonları, tarihleri, para miktarlarını vs. tanımlar
NE varlık tanıması 95% oranda başarılı olmuştur
![Page 13: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/13.jpg)
Coreference resolution (CO)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 13
Kimlik ilişkileri tanımları
“Ne yazık, zavallı Yorick, ben onu Horatio olarak bilirdim.”
Yoric => onu
Problemler: Zamir Çözumleme( anaphoric resolution)
Örneğin: ‘Ben’ ile “Ahmet”. Özel isim çözumleme(proper-noun resolution)
Örneğin: ‘IBM’, ‘IBM Europe’, ‘International Business Machines Ltd.’. .
Başarı: %50-60
![Page 14: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/14.jpg)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 14
Template Element construction (TE)
Açıklayıcı bilgiler ile varlıkları ilişkilendirir.
En iyi başarı oranı %80
![Page 15: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/15.jpg)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 15
Template Relation construction (TR)
Template elemenler arasında ki az sayıdaki olası ilişkiyi tanımlar
Örneğin bir kişi ve şirket arasındaki çalışan ilişkisi iki kişi arasındaki akrabalık ilişkisi, ya da iki şirket arasındaki ortaklık ilişkisi.
En iyi başarı oranı %75
![Page 16: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/16.jpg)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 16
Scenario Template production (ST)
Scenario templates (STs) IE sistemleri için prototip çıktılardır.
Başarı oranı %60
![Page 17: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/17.jpg)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 17
MUC dan Sonra IE
Taşınabilir IE Otomatik İçerik Çıkarımı ( Automatic Content Extraction ACE) Ontoloji Tabanlı IE
![Page 18: Data extraction](https://reader037.vdocuments.net/reader037/viewer/2022110120/55860affd8b42a3d6b8b4c5d/html5/thumbnails/18.jpg)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 18
Teşekurler