Institut für Informatik
eAQUA
Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft
Charlotte Schubert, Gerhard HeyerUniversität Leipzig
2 C. Schubert, G. Heyer eAQUA
eAQUA
Textorientierte Altertumswissenschaften und sprachverarbeitende Informatik: Eine interdisziplinäre Kooperation
„Die ... Wissenschaft um das Altertum hat natürlich keine ewige
Dauer, ihr Stoff ist zu erschöpfen. Nicht zu erschöpfen ist die
immer neue Akkomodation jeder Zeit an das Altertum, das Sich-
daran-Messen.“
(F. Nietzsche, Unzeitgemäße Betrachtungen, Gedanken und Entwürfe zu
der unzeitgemäßen Betrachtung: Wir Philologen, Nr.7, München 1964, 391)
3 C. Schubert, G. Heyer eAQUA
eAQUA
Der Projektverbund: Geistes- und NaturwissenschaftlerInnen
H.-Schmidt-Universität Hamburg
Prof. Dr. Burkhard Meißner
Projekt CAMENA,
Universität Heidelberg
Prof. Dr. Wilhelm Kühlmann
Universität Leipzig
Prof. Dr. Charlotte Schubert / Prof. Dr. Reinhold Scholl
Prof. Dr. Marcus Deufert / Prof. Dr. Kurt Sier
Prof. Dr. Gerhard Heyer
Wissenschaftlicher Beirat
Prof. G. Crane (Tufts University, USA), Dr. J. Garcés (British Library, UK),
Prof. E.Gaussier (Grenoble, FRA)
4 C. Schubert, G. Heyer eAQUA
eAQUA
• Bereits erfolgreich laufende Kooperationen:
– Leipzig/Altertumswissenschaften: Etablierung eines gemeinsamen
Masterstudiengangs Classical Studies (akkreditiert)
– Leipzig/Alte Geschichte und Informatik (ASV): Aufbau einer TLG-
basierten Kookkurrenz- und Satz-Datenbank (http://wortschatz.
uni-leipzig.de/eaqua/)
– Leipzig/ Alte Geschichte und Universitätsbibliothek:
Digitalisierungsprojekte (Deutsches Papyrus-Portal, Codex Sinaiticus
mit British Library)
5 C. Schubert, G. Heyer eAQUA
eAQUA
Die Wissensbasis
• Die digitalen Bibliotheken antiker Texte: (fast) vollständige Korpora:
– Perseus, Thesaurus Linguae Graecae (TLG), Bibliotheca Teubneriana Latina (BTL), Library of Latin Text, PHI (Inschriften, Papyri)
• Anwendung und Weiternutzung:
– Kooperation mit folgenden Partnern und freie Nutzung des zu entwickelnden Tools:
• Perseus, USA (2,1 Mio Zugriffe/Monat)
• British Library, UK (2 Mio Zugriffe/Monat)
• Camena/ Termini, Heidelberg (200.000 Zugriffe/Monat)
• Wortschatz-Portal der ASV, Leipzig ( Webseite: ca. 1 Mio Zugriffe/Monat, Webservice: 5 Mio/Monat)
– Publikation der Einzelprojekte
6 C. Schubert, G. Heyer eAQUA
eAQUA
Das Ziel: Vom Wissensrohstoff zu strukturiertem Wissen
Von der Überlieferungsgeschichte zur Wissenschaftsgeschichte: Transferstufen, Weiterverwendungen, Umwertungen, Neubildungen
I. Neue inhaltliche Zusammenhänge:– Gewinnung von neuen und inhaltlich relevanten Zusammenhängen
• Teilprojekte Atthidographen, Platon
– Ergänzung von fragmentarischen Texten • Teilprojekte Inschriften/ Papyri
– Neue metrische Zusammenhänge
• Teilprojekt Plautinische Metrik
II. Wissensnetze– Bestimmung bzw. Überprüfung von Autorenschaften, Referenzen,
Abhängigkeiten und Zitaten• Teilprojekt Camena
7 C. Schubert, G. Heyer eAQUA
eAQUA
Beispiel: Gewinnung von neuen und inhaltlich relevanten
Zusammenhängen
8 C. Schubert, G. Heyer eAQUA
eAQUA
Architektur der Plattform
9 C. Schubert, G. Heyer eAQUA
eAQUA
Warum ist die ASV für diese Aufgaben qualifiziert?
• Erfahrungen mit großen und kleinen Textkorpora– Leipzig Corpus Collection (LCC): 18 fertige
Normgrößenkorpora (http://corpora.uni-leipzig.de/)– Mitglied in D-SPIN/CLARIN
• Erfahrungen mit Text Mining
– Kookurrenzanalyse– Überwachtes und unüberwachtes POS-Tagging– Differenzanalyse– Semantische Wortähnlichkeiten– Morphologische Analyse– Rechtschreibkorrektur (Aufbereitung von verrauschten
Korpora)
10 C. Schubert, G. Heyer eAQUA
eAQUA
Wechselwirkung zwischen Geistes- und Naturwissenschaften
Altertumswissenschaften Informatik
•Ergänzung fachspezifischer Arbeits-methoden durch Texttechnologien
•Erweiterung der Fragestellungen (Von der Überlieferungs- zur Wissenschaftsgeschichte)
•Codierungsprobleme (Griechisch, Latein, Textkommentare)
•Die Texte umfassen einen großen Zeit-raum, daher Probleme mit konsistenten Bezeichnern und semantischem Wandel
•Möglichkeit der Einflussnahme auf die
Entwicklung fachspezifischer
Textanalyse-Werkzeuge
•Vorreiter einer neuen Generation
traditioneller Geisteswissenschaft
•Verallgemeinerung der entwickelten Verfahren zu einer allgemeinen Stilometrie
•Übertragung dieser Verfahren auf andere Anwendungen (Identifikation und Verifikation von Autorenschaften)
Her
ausf
ord
eru
ng
e
n
Ch
ance
n
11 C. Schubert, G. Heyer eAQUA
eAQUA
Zeitplan eAQUA
Entwicklungsphase
AP 1 AP 2-3
Probephase
AP 4.7
Anwendungsphase
Auswertung
AP 4.1.- 6.
Bereitstellungs-phase/Publikation
AP 5
6 Monate 4/2008-9/2008
6 Monate 10/2008-3/2009
3 Monate 4/2009-6/2009
3 Monate 7/2009-9/2009
12 Monate 7/2009-6/2010
9 Monate 7/2010-3/2011
4/2008- 3/2009
4/2009- 3/2010
4/2010 – 3/2011
12 C. Schubert, G. Heyer eAQUA
eAQUA
eAQUA
Extraktion von strukturiertem Wissen aus Antiken Quellen für die Altertumswissenschaft
Charlotte Schubert, Gerhard HeyerUniversität Leipzig