interoperable standards als voraussetzung für die nutzung ... · blau, währenb bie metopen unb...
TRANSCRIPT
Interoperable Standards als Voraussetzung für die Nutzung von Volltexten als Forschungsdaten
Dr. Alexander Geyken
Deutsches Textarchiv Digitales Wörterbuch
www.deutschestextarchiv.de www.dwds.de
- Zentrum Sprache -
Berlin-Brandenburgische Akademie der Wissenschaften
Beiratstreffen, Etelsen, 28.2.2014
Gliederung
Interoperable Standards als Voraussetzung für die Nutzung von Volltexten als Forschungsdaten
1. Einleitung: Historische Textkorpora für die Forschung
2. Welche Qualität?
3. Standardisierung und Interoperabilität
2
1. Einleitung: Historische Korpora …
• Aufbau historischer Korpora
– Verfahren der Erfassung, Qualitätskriterien
– Strukturierung, Annotation
• Interoperabilität von Korpusressourcen
• Analyse historischer Korpora
– Maschinell: Normalisierung der Schreibung, morpho-syntaktische Analyse, Eigennamenextraktion, …
– Philologische Auswertung
• Nachhaltige Sicherung der Ressourcen
… eingebettet in langfristiges Ziel
Momentaner Stand historischer deutscher Korpora (~15.–20. Jh.):
(1) Historische Korpora vielfältig vorhanden, aber sie liegen „verstreut“ in der Korpuslandschaft
(2) Unterschiedliche Kodierungsformate; Problem der Interoperabilität
(3) Kein anerkanntes System der Qualitätssicherung
(4) Keine etablierte Kultur des Teilens von Ressourcen (Lizenzen!)
(5) Unsicherheit über die nachhaltige Verfügbarkeit von Korpora
Ziel: Ein (verteilter) Ort, an dem man die verfügbaren bzw. verlässlichen Texte finden kann und eine (verteilte) Plattform, auf der diese analysiert werden können (Panel DH-2012 (Hamburg): Th. Gloning, Th. Stäcker, A. Geyken)
Gliederung
Interoperable Standards als Voraussetzung für die Nutzung von Volltexten als Forschungsdaten
1. Einleitung: Historische Textkorpora für die Forschung
2. Welche Qualität?
3. Standardisierung und Interoperabilität
5
2. Qualität: Kontext - Deutsches Textarchiv
• Disziplinen- und gattungsübergreifender Grundbestand (1600 – ~1900)
– Kommentierte Vorschläge von Mitgliedern aller Klassen der BBAW
– Euler, Boltzmann, Hilbert; Marx, Wundt; Goethe, Lessing …
• Digitalisierung (Erstausgaben, sehr hohe Erfassungsqualität), XML/TEI-P5; schreibweisentolerante Durchsuchbarkeit
• Kooperationen / Textaustausch
• Gefördert:
DTA (Erstausgaben) vs. Zeno
Wedekind, Frank: Frühlings Erwachen. Zürich, 1891. In: Deutsches Textarchiv http://www.deutschestextarchiv.de/wedekind_erwachen_1891,
abgerufen am 17.09.2013.
Dass. in: Werke in drei Bänden. Berlin u. Weimar : Aufbau, 1969. In: TextGridRep, PID:hdl:11858/00-1734-0000-0005-94F9-5
abgerufen am 17.09.2013.
DTA vs Zeno (TextGridRep)
www.juxtasoftware.org
gieb ] gib Brod ] Brot Thüre ] Türe Klex ] Klecks
zu Muthe ] zumute
Kniee ] Knie
citiren ] zitieren examiniren ] examinieren
Corset ] Korsett Guitarre ] Gitarre
Epheukranz ] Efeukranz
gräuliche ] greuliche behülflich ] behilflich
Verabscheuenswürdiges ] Verabscheuungswürdiges
Kawboy ] Cowboy
unverrichteter Sache ] unverrichtetersache
DTA (Erstausgaben) vs. Zeno
seit fünfzig Jahren ] seit fünfzehn Jahren
Adelar trank aus der Zuckerdose ] Adelar trank aus dem Aschenbecher
dich küssen, daß dir der Athem vergeht ] dich küssen, daß dir der Atem ausgeht
eine Drainage in die Stirnhöhle appliciren zu lassen ] […] einen Ventilator […]
Ist's denn nicht der stupendeste Beweis ] Ist's denn nicht der eklatanteste Beweis
Der einmalige Fehltritt könne noch zu ihrem Glücke führen ] Der ehemalige […]
in Gottes freier Natur ] draußen
dringend darum ersuchen ] bitten
Ich schmiß die Staffelei um ] Ich werfe […]
Artig ] Brav
DTA (Erstausgaben) vs. Zeno
Weiß der Himmel, mir ist um mich nicht mehr bange. Ich habe diesmal zu tief hinunterblickt. ] Weiß der Himmel, mir ist um mich nicht mehr bange. Dazu habe ich diesmal zu tief hinuntergeblickt.
so wird uns ein hohes Cultusministerium für das hereingebrochene Unglück, an dem neben dem Verunglückten unser schuldbeladener Schüler die Hauptschuld trägt, verantwortlich machen.
Wir sehen uns, wie wir einander einstimmig eingestehen, in die zwingende Nothwendigkeit versetzt, den Schuldbeladenen zu richten.
DTA (Erstausgaben) vs. Zeno
DTA und Qualitätssicherung
• Web-basierte Korrekturplattform für XML/TEI
• Ansichten: Faksimile + Volltext (HTML, XML/TEI, Linguistische Ansicht)
• Für alle Nutzer (derzeit 400): Fehlermeldesystem
• Für Administratoren: Editiermöglichkeiten WYSIWYG und XML
www.deutschestextarchiv.de/dtaq
Qualitätssicherung
a. WYSIWYG-editor – Nur Änderungen auf
Text(knoten)ebene
b. XML Editor Änderungen auf
Strukturebene
basiert auf ACE (ajaxorg/ace · GitHub)
DTAQ: Fakten
• 400 Nutzer (Feb. 2014)
• Wachsender Bestand:
– 1000 Werke (500 M. Zeichen), Nov. 2012
– 1500 Werke (~720 M. Zeichen), Aug. 2013
• Über 70 000 Anmerkungen, davon ~ 55 000 korrigiert
OCR: Qualität und Interoperabilität
• Zwei Ebenen der Qualitätskontrolle:
– Textkorrektur (hierfür webbasierte verteilte Editoren, z.B. Typewright, TextBerg-Editor, DTAQ, …
– Strukturkorrektur
• Beispiel 1: DFG-Projekt Grenzbote
– Nationalliberale Zeitschrift (1841-1922)
– 270 Bände, 187 000 Seiten, ca. 450 Mill. Zeichen
– Phase 1: 2011-2013 Digitalisierung
– Phase 2: Seit 08/2013 Text- und Strukturkorrektur
Partner: Univ. Bremen; DTA (für Phase 2)
www.deutschestextarchiv.de/files/ error-hl_nn_charaktere01_1848.html
Basis der Evaluierung: • 20 Textseiten • ca. 59700 Zeichen • 663 fehlerhafte Stellen = ca. 98.89 % korrekte
Erkennungsrate ⌀ 33,15 Fehler pro
Textseite
Korrektheit OCR: 98,89 %
ABBYY-OCR-Zonen (<block/>-Tags)
Probleme:
• Überschrift
• Schmuckinitiale
• Falsche Grenzen
• Fußnotenerkennung
Lösungen (Skript + manuelle Nachkorrektur):
• Überschrift (d1)
• Absatzgrenzen (p)
• Schmuckinitiale
• Markup semantischer Funktionen von Zonen (pb, column title, initial vs. figure, footnote)
<p>…</p>
<p>…</p>
<p>…</p>
<p>…</p>
Zonenkorrektur(DTA)
OCR: Qualität und Interoperabilität
• Beispiel 2:
– Georg-Eckert-Institut (Braunschweig)
– GEI-Digital: Sammlung historischer Lehrwerke
– Geplant bis 2015: 3000 Werke, 1 Mill. Seiten
– Genauigkeit der OCR: ~ 98%
Grundriß der Akropolis von Athen, E die eherne Athene, Promnrih n3. *) Diese Bemalung der Architektur, sowie die der Bildhauerarbeiten nennt rnttft : - n Polychromie. 208 Die Baukunst. II § 62 Mirnietl ^^udes aus vollen, runden Statuen bestehend. - Ein Dachaesims. as. ©tebelfclb roxcber ein. Auf dem Gipfel und über den Ecken des Giebels befanben st* Steinplatten, n, welche eine Giebelblume, oft auch einen Dreifuß oder eine Statue trugen. ' 1 ; Die hinter der Säulenhalle befinbliche Wand zierte oben ein Fries beffen Figuren aber nur Flachrelief waren. Die Decke bes Tempels war eine' aerobe ^te [*£ beL.^°ä ^thtg machte. Auch später kannten bte Griechen die Wolbekunst mcht. Die Decke der ^anlenhalle war durch die hinter den Triglyphen liegenden Balken m viereckige Felber getheilt. _ dem Dache wurde bei größeren Tempeln eine Öffnung gelassen, durch welche das -jnnere Licht erhielt. Solche Gebäude nennt man Hypathraltempel. Man baute bte Tempel, ober wenigstens beren Vorderseite, meistens aus 4ß weißem Marmor. Manchmal würbe ber leuchteube tir9' ' ^lanZ bes pentelischen Marmors burch maßvoll angebrachten Farbenschmuck*) gemilbert. Die Triglyphen waren gewöhnlich blau, währenb bie Metopen unb bas Giebelfeld einen rothen Hinter- (m.. ^ r c grunb hatten. Die Verzierungen waren mit Blättern Maanderbanb. ober mit Mäanderschmuck bemalt. §62. Architektur (Fortsetzung). Der^ griechische Tempel war nicht zur Aufnahme großer Menschenmassen bestimmt unb war beshalb von einem fest umgrenzten heiligen Tempelbezirk um-Leben, in welchem bie großen Feierlichkeiten stattfanben, unb in welchem sich häufia ein heiliger Ham befanb. Gleich vor dem Tempel stanb ber Altar für bas große Branbopfer, fo gestellt, baß bas Bilb ber Gottheit burch bie geöffnete Tempelpforte baranf Hinblicken konnte. Man liebte'es oft, mehrere Heiligthümer nahe zusammen zu erbauen. Der Eingang zu bereit Bezirk würbe bann burch ein prächtiges Thor, ja burch einen förmlichen Portalb au (Propyläen b. h. Vorhallen) aebilbet. 1* Dte Zeit von Solon bis auf Kimon 390—470 v. Chr. In biefer Zeit würbe in Griechenland) unb in bett westlichen Colonieen (namentlich in Unterttalien unb Sicilien) in borischem Style, in Kleinasien in ionischem Fig' 47. x S'%%iM!SSlÄi//iiiiiiiiiii////Z',,
Döring, Emilie: Lehrbuch der Geschichte der alten Welt. Teil 1. Frankf./Main: Diesterweg 1880, S. 208 URL: http://gei-digital.gei.de/viewer/!image/PPN622799606/220/-/
Grundriß der Akropolis von Athen, E die eherne Athene, Promnrih n3. *) Diese Bemalung der Architektur, sowie die der Bildhauerarbeiten nennt rnttft : - n Polychromie. 208 Die Baukunst. II § 62 Mirnietl ^^udes aus vollen, runden Statuen bestehend. - Ein Dachaesims. as. ©tebelfclb roxcber ein. Auf dem Gipfel und über den Ecken des Giebels befanben st* Steinplatten, n, welche eine Giebelblume, oft auch einen Dreifuß oder eine Statue trugen. ' 1 ; Die hinter der Säulenhalle befinbliche Wand zierte oben ein Fries beffen Figuren aber nur Flachrelief waren. Die Decke bes Tempels war eine' aerobe ^te [*£ beL.^°ä ^thtg machte. Auch später kannten bte Griechen die Wolbekunst mcht. Die Decke der ^anlenhalle war durch die hinter den Triglyphen liegenden Balken m viereckige Felber getheilt. _ dem Dache wurde bei größeren Tempeln eine Öffnung gelassen, durch welche das -jnnere Licht erhielt. Solche Gebäude nennt man Hypathraltempel. Man baute bte Tempel, ober wenigstens beren Vorderseite, meistens aus 4ß weißem Marmor. Manchmal würbe ber leuchteube tir9' ' ^lanZ bes pentelischen Marmors burch maßvoll angebrachten Farbenschmuck*) gemilbert. Die Triglyphen waren gewöhnlich blau, währenb bie Metopen unb bas Giebelfeld einen rothen Hinter- (m.. ^ r c grunb hatten. Die Verzierungen waren mit Blättern Maanderbanb. ober mit Mäanderschmuck bemalt. §62. Architektur (Fortsetzung). Der^ griechische Tempel war nicht zur Aufnahme großer Menschenmassen bestimmt unb war beshalb von einem fest umgrenzten heiligen Tempelbezirk um-Leben, in welchem bie großen Feierlichkeiten stattfanben, unb in welchem sich häufia ein heiliger Ham befanb. Gleich vor dem Tempel stanb ber Altar für bas große Branbopfer, fo gestellt, baß bas Bilb ber Gottheit burch bie geöffnete Tempelpforte baranf Hinblicken konnte. Man liebte'es oft, mehrere Heiligthümer nahe zusammen zu erbauen. Der Eingang zu bereit Bezirk würbe bann burch ein prächtiges Thor, ja burch einen förmlichen Portalb au (Propyläen b. h. Vorhallen) aebilbet. 1* Dte Zeit von Solon bis auf Kimon 390—470 v. Chr. In biefer Zeit würbe in Griechenland) unb in bett westlichen Colonieen (namentlich in Unterttalien unb Sicilien) in borischem Style, in Kleinasien in ionischem Fig' 47. x S'%%iM!SSlÄi//iiiiiiiiiii////Z',,
Grundriß der Akropolis von Athen, E die eherne Athene, Promnrih n3. *) Diese Bemalung der Architektur, sowie die der Bildhauerarbeiten nennt rnttft : - n Polychromie. 208 Die Baukunst. II § 62 Mirnietl ^^udes aus vollen, runden Statuen bestehend. - Ein Dachaesims. as. ©tebelfclb roxcber ein. Auf dem Gipfel und über den Ecken des Giebels befanben st* Steinplatten, n, welche eine Giebelblume, oft auch einen Dreifuß oder eine Statue trugen. ' 1 ; Die hinter der Säulenhalle befinbliche Wand zierte oben ein Fries beffen Figuren aber nur Flachrelief waren. Die Decke bes Tempels war eine' aerobe ^te [*£ beL.^°ä ^thtg machte. Auch später kannten bte Griechen die Wolbekunst mcht. Die Decke der ^anlenhalle war durch die hinter den Triglyphen liegenden Balken m viereckige Felber getheilt. _ dem Dache wurde bei größeren Tempeln eine Öffnung gelassen, durch welche das -jnnere Licht erhielt. Solche Gebäude nennt man Hypathraltempel. Man baute bte Tempel, ober wenigstens beren Vorderseite, meistens aus 4ß weißem Marmor. Manchmal würbe ber leuchteube tir9' ' ^lanZ bes pentelischen Marmors burch maßvoll angebrachten Farbenschmuck*) gemilbert. Die Triglyphen waren gewöhnlich blau, währenb bie Metopen unb bas Giebelfeld einen rothen Hinter- (m.. ^ r c grunb hatten. Die Verzierungen waren mit Blättern Maanderbanb. ober mit Mäanderschmuck bemalt. §62. Architektur (Fortsetzung). Der^ griechische Tempel war nicht zur Aufnahme großer Menschenmassen bestimmt unb war beshalb von einem fest umgrenzten heiligen Tempelbezirk um-Leben, in welchem bie großen Feierlichkeiten stattfanben, unb in welchem sich häufia ein heiliger Ham befanb. Gleich vor dem Tempel stanb ber Altar für bas große Branbopfer, fo gestellt, baß bas Bilb ber Gottheit burch bie geöffnete Tempelpforte baranf Hinblicken konnte. Man liebte'es oft, mehrere Heiligthümer nahe zusammen zu erbauen. Der Eingang zu bereit Bezirk würbe bann burch ein prächtiges Thor, ja burch einen förmlichen Portalb au (Propyläen b. h. Vorhallen) aebilbet. 1* Dte Zeit von Solon bis auf Kimon 390—470 v. Chr. In biefer Zeit würbe in Griechenland) unb in bett westlichen Colonieen (namentlich in Unterttalien unb Sicilien) in borischem Style, in Kleinasien in ionischem Fig' 47. x S'%%iM!SSlÄi//iiiiiiiiiii////Z',,
Zeichengenauigkeit
hier ca. 94,958% (2261 Zeichen, 114 fehlerhafte Stellen)
Grundriß der Akropolis von Athen, E die eherne Athene, Promnrih n3. *) Diese Bemalung der Architektur, sowie die der Bildhauerarbeiten nennt rnttft : - n Polychromie. 208 Die Baukunst. II § 62 Mirnietl ^^udes aus vollen, runden Statuen bestehend. - Ein Dachaesims. as. ©tebelfclb roxcber ein. Auf dem Gipfel und über den Ecken des Giebels befanben st* Steinplatten, n, welche eine Giebelblume, oft auch einen Dreifuß oder eine Statue trugen. ' 1 ; Die hinter der Säulenhalle befinbliche Wand zierte oben ein Fries beffen Figuren aber nur Flachrelief waren. Die Decke bes Tempels war eine' aerobe ^te [*£ beL.^°ä ^thtg machte. Auch später kannten bte Griechen die Wolbekunst mcht. Die Decke der ^anlenhalle war durch die hinter den Triglyphen liegenden Balken m viereckige Felber getheilt. _ dem Dache wurde bei größeren Tempeln eine Öffnung gelassen, durch welche das -jnnere Licht erhielt. Solche Gebäude nennt man Hypathraltempel. Man baute bte Tempel, ober wenigstens beren Vorderseite, meistens aus 4ß weißem Marmor. Manchmal würbe ber leuchteube tir9' ' ^lanZ bes pentelischen Marmors burch maßvoll angebrachten Farbenschmuck*) gemilbert. Die Triglyphen waren gewöhnlich blau, währenb bie Metopen unb bas Giebelfeld einen rothen Hinter- (m.. ^ r c grunb hatten. Die Verzierungen waren mit Blättern Maanderbanb. ober mit Mäanderschmuck bemalt. §62. Architektur (Fortsetzung). Der^ griechische Tempel war nicht zur Aufnahme großer Menschenmassen bestimmt unb war beshalb von einem fest umgrenzten heiligen Tempelbezirk um-Leben, in welchem bie großen Feierlichkeiten stattfanben, unb in welchem sich häufia ein heiliger Ham befanb. Gleich vor dem Tempel stanb ber Altar für bas große Branbopfer, fo gestellt, baß bas Bilb ber Gottheit burch bie geöffnete Tempelpforte baranf Hinblicken konnte. Man liebte'es oft, mehrere Heiligthümer nahe zusammen zu erbauen. Der Eingang zu bereit Bezirk würbe bann burch ein prächtiges Thor, ja burch einen förmlichen Portalb au (Propyläen b. h. Vorhallen) aebilbet. 1* Dte Zeit von Solon bis auf Kimon 390—470 v. Chr. In biefer Zeit würbe in Griechenland) unb in bett westlichen Colonieen (namentlich in Unterttalien unb Sicilien) in borischem Style, in Kleinasien in ionischem Fig' 47. x S'%%iM!SSlÄi//iiiiiiiiiii////Z',,
Zeichengenauigkeit
hier ca. 94,958% (2261 Zeichen, 114 fehlerhafte Stellen)
Gliederung
Interoperable Standards als Voraussetzung für die Nutzung von Volltexten als Forschungsdaten
1. Einleitung: Historische Textkorpora für die Forschung
2. Welche Qualität?
3. Standardisierung und Interoperabilität im Kontext von CLARIN (http://de.clarin.eu/de/)
30
C. Thomas: Optimierung und Nutzung des "Grenzboten" mit Werkzeugen des DTA www.bbaw.de, thomas @bbaw.de
Das Deutsche Textarchiv: Projektziele
• Servicezentren (Repositorien; verteilte Architektur; PIDs, OAI-PMH)
• Bündelung der Metadaten
• Data Mining mit IT-Werkzeugen: WebLicht (Verarbeitungskette)
• 9 Facharbeitsgruppen (Historiker, Politikwiss., Germanistik…)
• Übergreifende Suche
• Standards (TEI) und „Best Practices“
Interoperabilität im DTA/CLARIN-D
XML/TEI-P5 als Startpunkt
2007: DTA startet mit der Idee eines „Basisformats“: DTABf
Definition einer geeigneten Untermenge von TEI-P5 für die Strukturierung von historischen gedruckten Texten
Ziel: Interoperabilität (Unsworth 2011) gewährleisten
• establish high quality transcription of the text
• provide high quality metadata
• focus on non-controversial aspects of the text, thus providing unambiguous solutions for text annotation
2012: DTABf wird „Best Practice-Format“ für historische Texte in CLARIN-D (Benutzerhandbuch, http://de.clarin.eu/de/)
32
C. Thomas: Optimierung und Nutzung des "Grenzboten" mit Werkzeugen des DTA www.bbaw.de, thomas @bbaw.de
TEI: Das DTA-Basisformat
ODD
Dokumentation
RelaxNG-Schema
Nutzung als Forschungsdaten
Software zur Integration von textuellen Forschungsdaten in die CLARIN-D Infrastruktur:
(1) Teilautomatisierte Integration der Metadaten in DTABf
(2) Konvertierung der Texte in das DTABf a. OxGarage (für alle Formate außer TEI-P5)
b. DTA-oXygen Framework (für TEI-P5)
(3) Qualitätskontrolle über DTAQ
(4) Generisches web-basiertes Framework zur Integration in die CLARIN-D Infrastruktur
(5) Analysen via verteilter Verarbeitungskette WebLicht (WebLicht enthält >60 Web-Services; Zusammensetzung nach dem Lego-Prinzip)
34
Basis: oXygen-
XML-Editor
WYSIWYG-Ansicht
für XML/TEI-P5
Toolbar für DTABf-
Elemente
Farbschema für
verschiedene
Annotationslevels:
grün: obligatorisch
blau: empfohlen
violett: fakultativ
Zu (2b) DTA-oXygen-Framework
• Normalisierung der Struktur in DTABf
• Normalisierung Orthographie: – Bsp.: seyn/sein; Theyl/Teil…
• Damit automatische Reanalyse in CLARIN-D möglich (Wortverlaufskurven, Active Learning, Syntax/NER)
36
Mehrwert CLARIN-D am Beispiel „Dingler“
http://clarin01.ims.uni-stuttgart.de/dingler/index.jsp (Demo-Seite, aufgerufen Jan. 2014)
Wortverlauf ohne Konvertierungs-mehraufwand möglich
Text-Mining, Active Learning
• Thematische Gruppierungen von Dokumenten
• Relationsextraktionen
– „active learning“-Ansatz
– Erstellung eines Syntaxbaums
– Relationen werden festgelegt
– Kontexte werden vom Benutzer trainiert (d.h. er markiert positive und negative Instanzen in einem interaktiven Prozess)
– Daraus werden Merkmale „gelernt“
– Z.B. „X hat_Beruf Y“ oder „X ist_geboren_in Y“
Relationsextraktion: „active learning“
39
Blessing, Andre; Stegmann, Jens; Kuhn, Jonas SOA meets Relation Extraction: Less may
be more in Interaction in Proceedings of the Workshop on Service-oriented Architectures
(SOAs) for the Humanities: Solutions and Impacts, Digital Humanities pp. 6-11.
Parsebaum mit Normalisierung
Eine Lösung dieser scheinbaren Anomalie dürfte einigen
Lesern nicht unwillkommen sein.
Parsebaum ohne Normalisierung
41
Eine Lösung dieser scheinbaren Anomalie dürfte einigen
Lesern nicht unwillkommen seyn.
POS-Verteilung normalisiert vs. original
• Normalisierung durch CAB-Werkzeug des DTA
• Normalisierte Fassung: Abnahme: NE (-20% ), XY
(-41% ), ADJA (-5% )
Zunahme: VAINF (+14%), ITJ (+57%) sowie mehr analysierte Funktionswörter
(Analyse: Normalisierung, B. Jurish
(DTA-CAB), Syntaxanalyse A. Blessing, (IMS-Stuttgart), Feb. 2013
42