bsb demo day - gotscharek - spezial-lexika

25
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. 11. 10. 2011, BSB München – IMPACT Demo Day Spezial-Lexika zur Erschließung historischer Texte Ludwig-Maximilians-Universität München Centrum für Informations- und Sprachverarbeitung Annette Gotscharek

Upload: impact-centre-of-competence

Post on 21-Dec-2014

385 views

Category:

Documents


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day

Spezial-Lexika zur Erschließung historischer TexteLudwig-Maximilians-Universität München

Centrum für Informations- und Sprachverarbeitung

Annette Gotscharek

Page 2: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 2

Spezial-Lexika zur Erschließung historischer Texte:

“Erschließung”?

OCR :Textuelle Repräsentation des Dokuments aus dem Scan gewinnen.

Aufgabe des Lexikons:

Definition der Menge gültiger Wörter (mit Wahrscheinlichkeiten)

... Teil (355.133)

des (1.243.455)

Lexikons (4.625)

Lexika (512) ...

Page 3: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 3

Spezial-Lexika zur Erschließung historischer Texte:

“Erschließung”?

Information Retrieval (IR):Zu einer Benutzeranfrage relevante Dokumente aus einer Kollektion

finden.

Aufgabe des Lexikons:

Benutzeranfrage sinnvoll erweitern, um Recall zu erhöhen.

... Lexikon � Lexika, Lexikons

Teil � Teile, Teils, Teilen

Geist � Geister, Geists, Geistern ...

Page 4: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Problem der historischen Sprachvariation

� Historische Schreibvarianten: geyſte �Geiste

� Veraltetes Vokabular: mirackel �Wunder (?)

� Historische Morphologie: er frug � er fragte

� Veralteter Zeichensatz: ſ � s, aͤ � ä, …

11. 10. 2011, BSB München – IMPACT Demo Day 4

Page 5: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 5

Adaptierte Lexika für historische Texte: Struktur

OCR : ...Teil (355.133) Theile (223.405)

des (1.243.455) teyls (41.944)

Lexikons (4.625) Lexicons (1.520)

Lexika (512) frug (2.311)

...

IR: ...Geist � Geister, Geists, Geistern, geyſte, geyſt, geyster

Lexikon � Lexika, Lexikons, Lexicon, Lexica, Lexicons

Teil � Teile, Teils, Teilen, Theyl, Theil, Theyls, Theilen

Page 6: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 6

Ressourcen und Spezial-Lexika

für historische Texte

� Diachrones Groundtruth Korpus (1500-1950)

� Hypothetisches Lexikon für regelbasierte Varianten

� Manuell verifiziertes Lexikon

� Lexika für Named Entities

Page 7: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 7

Ressourcen und Spezial-Lexika

für historische Texte

� Diachrones Groundtruth Korpus (1500-1950)

� Hypothetisches Lexikon für regelbasierte Varianten

� Manuell verifiziertes Lexikon

� Lexika für Named Entities

Page 8: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 8

Diachrones Groundtruth – Korpus (1500-1950)

� Korpus-Erstellung aus verschiedenen Quellen im Web bzw. nicht-öffentlichen elektronischen Korpora (IDS Mannheim).

� Große Lücke insbesondere im 16. /17. Jahrhundert� Mit BSB: Erstellung eines zusätzlichen Korpus aus BSB-Dokumenten.

Insgesamt ~ 3.380.000 token aus 4 Jahrhunderten.

� Basis für verschiedene Analysen und Lexikonerstellung

Page 9: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 9

Ressourcen und Spezial-Lexika

für historische Texte

� Diachrones Groundtruth Korpus (1500-1950)

� Hypothetisches Lexikon für regelbasierte Varianten

� Manuell verifiziertes Lexikon

� Lexika für Named Entities

Page 10: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 10

Hypothetisches Lexikon: Regelbasierte Varianten

� Regelmäßig auftretende Ersetzungsmuster (Patterns) erklären auf Symbolebene die Unterschiede zwischen moderner und historischer Schreibung:

� Auf Basis des modernen Lexikons und der 140 Patterns kann automatisch die Menge der potentiellen regelbasierten historischen Varianten erzeugt werden („Hypothetisches Lexikon“).

theylteil eyeitht → →→ ,

Page 11: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 11

Hypothetisches Lexikon

Esel

Teil

Modernes

Lexikon

e →eh

ei →ey

s →ß

l→ll

t →th

Esel

Esell

Esehl

Esehll

Eßel

Eßell

Eßehll

Hypothetisches

Lexikon

Teil

Teill

Teyl

Teyll

Tehill

Theil

Patternmenge

Page 12: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 12

Hypothetisches Lexikon: Regelbasierte Varianten

� Zuordnung von regelbasierten Varianten zu ihren Entsprechungen im modernen Wortschatz automatisch möglich:

Geyst = Geist + (ei � ey)

Theile = Teile + (t �th)

� Bei weitem nicht alle historischen Varianten lassen sich mit einfachen Ersetzungsregeln ableiten:

frug = fragte + ?

Mirackel = ? + ?

Page 13: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 13

Abdeckung auf diachronem Korpus

� Einsatz als Lexikon bei der OCR: Verbesserung der Erkennungsqualität über IMPACT Abbyy External Dictionary Interface (publiziert 2009)

� Zentrale Ressource bei Text- und Fehlerprofilierung und im Postkorrektursystem (� vgl. Vortrag Ulrich Reffle)

1500-

1549

1550-

1599

1600-

1649

1650-

1699

1700-

1749

1750-

1799

1800-

1849

1850-

1899

1900-

1949

Modern simple

words

Modern

compounds

Hypothetic

Types (%)

15.3 28.8 29.2 31.5 38.1 52.0 54.7 48.0 60.1

5.1 6.1 6.9 8.6 7.13 15.5 20.6 28.1 27.8

29.5 29.8 27.9 26.0 21.9 14.3 8.1 7.7 2.0

Page 14: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 14

Abdeckung auf diachronem Korpus

� Hoher Anteil „schwierigen“ Vokabulars vor 1750, insbesondere im 16. Jhdt.

� manuell verifiziertes Lexikon notwendig!

1500-

1549

1550-

1599

1600-

1649

1650-

1699

1700-

1749

1750-

1799

1800-

1849

1850-

1899

1900-

1949

Modern simple

words

Modern

compounds

Hypothetic

Missing

Types (%)

15.3 28.8 29.2 31.5 38.1 52.0 54.7 48.0 60.1

5.1 6.1 6.9 8.6 7.13 15.5 20.6 28.1 27.8

29.5 29.8 27.9 26.0 21.9 14.3 8.1 7.7 2.0

45.9 28.7 29.7 26.0 23.5 15.1 13.9 13.5 8.1

Page 15: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 15

Ressourcen und Spezial-Lexika

für historische Texte

� Diachrones Groundtruth Korpus (1500-1950)

� Hypothetisches Lexikon für regelbasierte Varianten

� Manuell verifiziertes Lexikon

� Lexika für Named Entities

Page 16: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 16

Manuell verifiziertes IR-Lexikon: Struktur

Ein Eintrag enthält:– Historische Wortform aus Korpus

– Entsprechende moderne Wortform

– Ggf. Patterns

– Entsprechendes modernes Lemma

– Mindestens eine Textstelle aus dem Korpus als Beleg für die Lesart

� Manuelle Zuordnung von moderner Wortform und Lemma

� Explizites Kodieren nicht regelbasierter historischer Varianten

Page 17: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 17

Manuell verifiziertes IR-Lexikon: Erstellung

� Webbasierte, kollaborative Oberfläche

� Unterstützung des Bearbeiters durch:– Vorschläge für entsprechende moderne Wortformen für regelbasierte

Varianten durch Hypothetisches Lexikon (theile -> teile)

– Vorschläge aller möglichen Lemmas für die entsprechende moderne Wortform aus einem großen modernen Lexikon CISLEX

(teile -> der Teil, das Teil, teilen)

– Konkordanz der zu bearbeitenden Variante

Page 18: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 18

Aktueller Stand des IR-Lexikons

� Auf dem diachronen Korpus wurden 41.300 Einträge für 24.700 historische Wortformen erstellt, 71.400 Belegstellen annotiert.

� IMPACT-Partner in Slowenien und Bulgarien erstellen entsprechende historische Lexika mithilfe einer adaptierte Version des tools.

� Suchmaschine mit Queryexpansion

Page 19: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Suchmaschine mit Queryexpansion

Page 20: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 20

Ressourcen und Spezial-Lexika

für historische Texte

� Diachrones Groundtruth Korpus (1500-1950)

� Hypothetisches Lexikon für regelbasierte Varianten

� Manuell verifiziertes Lexikon

� Lexika für Named Entities

Page 21: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 21

Named Entities (NEs)

� Wörter / Mehrwortlexeme, die auf einzelnes Element der realen Weltreferieren (Personen, geographische Bezeichner, Organisationen).

� NEs sind nicht im allgemeinen Lexikon enthalten und sind besonders problematisch für die OCR.

Page 22: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 22

Named Entities

� Evaluationskorpus: NE-Annotation von Materialen u.a. von der Österreichischen Nationalbibliothek

� Gekeyte NE-Daten von der ONB: 85 Dokumente (Adress-Register, Ortsnamenverzeichnisse)

� ~ 300.000 geographische Entitäten, Vor- und Nachnamen-Lexika

� Tests zur NE-Erkennung:– mithilfe lokaler Grammatiken (regelbasiert)

– mithilfe eines statistischen Klassifikators (maschinelles Lernen).

Page 23: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 23

NEs – Erkennung: Reichsrat-Protokolle

� Statistische (stat) und regelbasierte (RB) Klassifikatoren.

� Mit speziellen NE-Lexika (+lex) bzw. ohne NE-Lexika (-lex)

� Trainiert auf allgemeinem Korpus (-train) bzw. auf Reichsrat-Korpus (+train)

Classifier Recall Precision F

Stat +train +lex 89,62 96,91 92,98

Stat +train –lex 88,38 96,01 92,04

Stat –train +lex 21,01 90,03 34,07

Stat –train –lex 20,15 87,71 32,77

RB +lex 70,49 85,02 77,07

RB –lex 20,91 86,76 24,07

Page 24: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Suchmaschine mit NE Highlighting

Page 25: BSB Demo Day - Gotscharek - Spezial-Lexika

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11. 10. 2011, BSB München – IMPACT Demo Day 25

Vielen Dank.