mehrwert digitalisierung - möglichkeiten einer digitalen diplomatik
DESCRIPTION
Vortrag von Daniel Jeller auf der Konferenz "Auf dem Weg zu einer gemeinsamen Identität - Quellen zur Geschichte Mitteleuropas im Digitalen Zeitalter" an der Universität Wien am 17.09.2014 Abstract: Seit der Entstehung der Diplomatik im Siebzehnten Jahrhundert war die Lehre von den Urkunden einerseits eine der beständigsten der historischen Hilfswissenschaften und gleichzeitig bis heute stetigen Veränderungen und Weiterentwicklungen unterworfen. Anfangs lediglich Instrument für den „reinen Fälschungsnachweis“ entwickelten sich vielfältige Methoden zur Untersuchung von innerem und äußerem Aufbau sowie zeitlichem, räumlichem und rechtlichen Kontext einer Ur-kunde. Dies erst ermöglichte die „Bewertung [einer Urkunde] als Geschichtsquelle“ . Bis heute ist die Evolution der Diplomatik nicht abgeschlossen. Besonders die Digitaltechnik hat, wie auch in einer Vielzahl von anderen Bereichen des modernen Lebens, einen großen Beitrag zur Weiterentwicklung dieser traditionsreichen Wissenschaft geleistet. Belege dafür sind unter ande-rem Tagungen wie die im Herbst 2013 in Paris/FR abgehaltene Digital Diplomatics oder das DEEDS-Projekt der Universität Toronto/CAN das unter anderem statistische Möglichkeiten zur Datierung mittelalterlicher englischer Urkunden untersucht . Der vorliegende Vortrag möchte einen Beitrag zu dieser Entwicklung leisten, indem er einen ersten Blick auf die Möglichkeiten, die die Urkundendatenbank des Monasterium-Projektes für eine digi-tale Diplomatik bietet, wirft. Dazu wird erstens der konkrete Aufbau der Datenbank mit ihren mo-mentan um die 411.000 Dokumenten und rund 69.000 Transkriptionen sowie ihre Möglichkeiten und Limits vorgestellt. In einem zweiten Schritt werden die technischen Hilfsmittel, XML, xQuery, et cetera, für eine Untersuchung der Bestände beleuchtet. Drittens werden mit praktischen Bei-spielen zwei mögliche Stoßrichtungen für einen gewinnbringenden Einsatz der in den vorigen Schritten vorgestellten Werkzeuge betrachtet. Diese sind einerseits die Untersuchung der Metadaten im Hinblick auf verschiedene diplomatische Fragestellungen und andererseits der Einsatz der Werkzeuge, um die bereits vorhandenen Meta-daten programmatisch zu verbessern beziehungsweise zu erweitern. Dabei stehen besonders die konkreten technischen Voraussetzungen sowie die Limitierungen, die sich aus den eingesetzten Technologien ergeben, im Vordergrund des Vortrags. Dies soll vor allem dazu dienen, zukünftige Einsatzmöglichkeiten von Monasterium.net für die Diplomatik abseits einer bloßen Erhöhung der Zugänglichkeit der Dokumente abzuschätzen.TRANSCRIPT
Daniel Jeller || [email protected] || http://www.icar-us.eu
MEHRWERT DIGITALISIERUNG?Möglichkeiten einer Digitalen Diplomatik
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Diplomatik = Lehre von den Urkunden Urkunden: schriftlicher Niederschlag von
Rechtshandlungen v. a. im Mittelalter aber auch der frühen Neuzeit
Ursprünglicher Zweck war die Feststellung der Echtheit einer Urkunde
Untersuchung der äußeren und inneren Merkmale einer Urkunde
Im 17. Jhdt. begründet und vor allem ab dem 19. Jhdt. stark weiterentwickelt
Methoden sind u.a. Paläographie, Chronologie, Rechts- und Verfassungsgeschichte
Veröffentlichung von Bearbeitungen (=Editionen) traditionell in gedruckten Quellensammlungen
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Digitalisierung von Urkunden Digitalisierung: Überführung einer
analogen Größe in ein maschinenlesbares, digitales Format
Erste Ansätze bei Urkunden in den 1970er Jahren
Digitalisierung von optischen sowie inhaltlichen Informationen (äußere und innere Merkmale)
Konkret: Aufnahme eines optischen Abbilds und der zum Objekt gehörigen Metadaten (Datum, Aussteller, Ausstellungsort, Regest, Transkription, Material, Zustand, etc.)
Kombination der Daten in einer virtuellen digitalen Repräsentation, also Bild und Metadaten gemeinsam
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Traditioneller Mehrwert
Maschinenlesbarkeit
Durchsuchen
Vernetzen
Erreichbarkeit
Einbinden in Datenbanken
Gemeinsames Arbeiten
Reproduzierbarkeit
Im Unterricht verwenden
Übertragen in andere
Kontexte
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Beispiel: DEEDS ‒ „Documents of Early England Data Set“ Entstanden 1975; Universität Toronto, CA
Ca. 31 000 lateinische Urkunden vom 9. bis Ende des 13. Jahrhunderts
Bereitstellung eines umfangreichen Textkorpus und detaillierten Suchmöglichkeiten darin
Entwicklung von Methoden zur Datierung, Verortung und Identifikation von Personen, Sprachmerkmalen und Zusammenhängen
Eingesetzt werden computerunterstützte Technologien aus den Bereichen der Statistik und Linguistik
17.09.2014
Quelle: deeds.library.utoronto.ca
Daniel Jeller || [email protected] || http://www.icar-us.eu
DEEDS datiert lateinische UrkundenBeispiel aus dem Stiftsarchiv Schlägl in Oberösterreich:
Urkunde vom 9. Juli 1218; http://www.mom-ca.uni-koeln.de/mom/AT-StiASchl/Urkunden/1218_VII_09/charter
(=Pichler, Isfried H., Urkundenbuch des Stiftes Schlägl, Aigen i. M., 2003, Nr. 2, S. 23)
17.09.2014
Datierung anhand von Wortmustern auf das Jahr 1234 bzw. mit 90% Wahrscheinlichkeit zwischen den Jahren 1218 und 1247.
N: 87Median: 1233
Min - Max: 1172 - 1284Q1-Q3: 1226 - 1238
95%: 1202 - 125290%: 1218 - 1247Avg Error: 3 years
Daniel Jeller || [email protected] || http://www.icar-us.eu
Voraussetzungen
Zugang zu den Originaldaten
Einheitliche Erschließungsstandards
Gut dokumentiertes Datenformat
Umfangreiches Datenmaterial
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Praxis: Das Monasterium-Portal und seine Datenbank MOM-CAwww.monasterium.net
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Überblick Durchgehende Entwicklung seit 2002
Online Datenbank mit Bestandsübersicht, Volltextsuche, und kollaborative Bearbeitung der Urkunden
Über 400 000 Urkunden aus dem Mittelalter und der Frühen Neuzeit
17.09.2014
U r kunde n
R e g e st e n
T r a nskr .
B i l de r
P e r sone n
Or t e
0 200,000 400,000 600,000
Daniel Jeller || [email protected] || http://www.icar-us.eu
Grundlegende technische Struktur
Backend
•XML-Datenbank•Webserver•Metadaten•Indizes•Keine öffentl. Schnittstelle
Frontend
•Browserbasiert•HTML5/JavaScript/XML•Passives Browsen•Aktives Bearbeiten•Kommun. über REST
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Datenbank: Aufbau und Programmierung Basierend auf der open source XML-
Datenbank eXist
Abfragen über xQuery und XPath
Informationen (unter anderem) über Archive (EAG-XML), Bestände (EAD-XML) und Urkunden (CEI-XML)
eXist verfügt über mehrere, auf Apache - Lucene aufbauende Indextypen, die beliebig konfiguriert werden können
Werkzeuge zum Bearbeiten und Überwachen der Abfragen
Möglichkeiten zum Aufbau von komplexen Anwendungen innerhalb der Datenbank
Flexible Bearbeitung innerhalb und außerhalb der Datenbank möglich
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu17.09.2014
Nachteil: keine öffentliche Schnittstelle zur Datenbank aus Performancegründen
Aber: die Datenbank ist vollständig exportierbar
und lässt sich lokal installieren und beliebig
nutzen
Daniel Jeller || [email protected] || http://www.icar-us.eu
Datenübersicht
Gesamtanzahl der Begriffe
Mehrfach vorkommende Begriffe
Häufigster Ausdruck ("et")
Transkriptionen
Personennamen
Ortsnamen
0 100,000 200,000 300,000 400,000 500,000 600,000 700,000
1,458,948
564,221
700,282
69,118
94,686
75,566
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Voraussetzungen Vertrautheit mit dem Datenmaterial
(verwendete XML-Schemata, Datenstruktur etc.)
Bei komplexen Abfragen genügend Ausstattung des Computers mit Arbeitsspeicher (8GB können durchaus zu wenig sein)
Klare Zielsetzung um die Abfragen an die Anforderungen und den zur Verfügung stehenden Ressourcen entsprechend effizient zu schreiben
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Programm erfolgt ähnlich natürlicher Sprache
Nimm alle Urkunden in der Datenbank …
Nimm davon jene, die Transkriptionen mit als Ort ausgezeichneten Begriffen enthalten und die mit dem Buchstaben „z“ beginnen …
Erzeuge eine Liste von allen in den Urkunden enthaltenen Orten …
Zähle, wie oft diese Orte jeweils in allen Urkunden vorkommen …
Liefere eine Liste dieser Orte gemeinsam mit der Anzahl der Vorkommnisse im Text.
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Alle Orte mit Anfangsbuchstabe „z“ in einer sortierten HTML-Liste
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Ergebnis Laufzeit der Abfrage etwa 80 Minuten auf
Laptop mit Dual-Core CPU und 16GB RAM
Liste mit 1864 Begriffen.
17.09.2014
Probleme Abfragen können in diesem System
schnell zu komplex werden.
Die Liste bedarf händischer Nacharbeit um aussagekräftig zu sein (vgl. Mehrfachnennungen von Orten; Beispiele: „zwettl“ und „zwetel“ oder „znojmo“ und „znaim“
Daniel Jeller || [email protected] || http://www.icar-us.eu
„Klassische“ Problemlösungs-strategien Handarbeit
• Listen werden manuell kombiniert
• Ähnlichkeiten werden eliminiert
• Ungenauigkeiten werden händisch ausgebessert
Programmierung• Ergebnisse fließen in
neue Abfragen ein• Abfragen finden in
mehreren Stufen statt, Kombination findet nachträglich aber automatisch statt.
Der großen Varianz an sprachlichen, qualitativen und methodologischen Eigenheiten der Metadaten wird mit etablierten Methoden begegnet.
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Möglichkeit: semi-automatische Verbesserung der Metadaten
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Beispiel: Ansatz für einen semiautomatischen Thesaurus
Prob
lem • Häufig existiert nur
der reine Text einer Transkription
• Bei der Suche müssen alle Varianten berücksichtigt werden Id
ealfa
ll • Personen und Orte sind im XML-Text ausgezeichnet
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Beispiel: Varianten von Zwettl im Jahr 1352http://www.mom-ca.uni-koeln.de/mom/AT-StaAZ/Urkunden/3/charter
Ist-Stand in MOM-CA• „[…] di gelegen ist datz Zwetl under dem Galgenpuchel […]“• „[…] in der stat datz Zwetl. […]“• „[…] der stat anhangundem insigel datz Zwetel […]“
Idealfall• „[…] di gelegen ist datz <placeName reg=″Zwettl″ certainty=″100%″ type=
″Stadt″>Zwetl</placeName> under dem Galgenpuchel […]“• „[…] in der stat datz <placeName reg=″Zwettl″ certainty=″100%″ type=
″Stadt″>Zwetl</placeName>. […]“• „[…] der stat anhangundem insigel datz <placeName reg=″Zwettl″
certainty=″100%″ type=″Stadt″>Zwetel</placeName> […]“
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Programmkonzept
Auf Wunsch Ergänzung der Elemente im Volltext und dadurch Aufnahme in die Datenbank
Präsentation der Ergebnisse zusammengefasst in einem Interface, das einem Bearbeiter ermöglicht, zu entscheiden, ob korrekte Identifikationen vorliegen
Überprüfung der Ergebnisse auf gemeinsame Kontexte (Zeit, Archiv, etc.), die nahelegen, dass die Begriffe zusammen gehören
Für alle Ergebnis-Begriffe Suche in der Datenbank nach bereits vorhandenen „placeName“-Elementen, die eine Identifizierung zulassen
Die Datenbank wird auf mehrfache Weise nach dem Begriff („Zwetl“) durchsucht
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
36 Unscharfe Suchergebnisse für „Zwetl“
1. Zwetel; 2072. Zwetl; 533. Zwettl; 364. wette; 275. Wette; 186. zwetel; 147. Zwethl; 138. weltl; 129. Zwetil; 1210. Zwettel; 1011. Wetzl; 712. Zwéttl; 6
13. Zwettll; 514. O; 315. zwetil; 216. Wetfl; 217. Swett; 218. güettl; 219. Wetel; 220. Zwettln; 121. Zwetll; 122. Çwetel; 123. Wetti; 124. bettl; 1
25. wetzl; 126. Wittl; 127. Zwcttl; 128. Wentl; 129. wett; 130. Pettl; 131. zettl; 132. Czwettl; 133. pettl; 134. Zwettla; 135. zwetl; 136. guettl; 1
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Ergebnisse mit „reg“ XML-Attribut
• Zwettl, Zisterzienserstift • Zwettl (GB ZT)• Zisterzienserstift Zwettl (GB ZT)• Zisterzienserstift Zwettl
Zwetel
• Zwettl, Zisterzienserstift
Zwetl
• Zwettl (GB ZT)• Zwettl, Zisterzienserstift• Zwettl, Zisterzienserstift, Aussteller, Siegler• Zwettl, Cistercienserabtei• Zwettl, Zisterzienser-Stift• Zwettl, Zisterzienserabtei (GB ZT)• Zisterzienserstift Zwettl Zwettl (GB Zwettl, NÖ)
Zwettl
• Zwettl (GB ZT)• Zwettl, Zisterzienserstift
Zwetil
• Zwettl, Zisterzienserstift
Zwettel
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Schlussfolgerungen
Man könnte annehmen, dass die Begriffe „Zwetel“, „Zwetl, „Zwettel“, „Zwetil“ und „Zwettel“ den gleichen Ort bezeichnen.
Nach weiterer Überprüfung könnten (theoretisch) alle anderen Vorkommnisse dieser Begriffe mit den Metadaten ergänzt werden, und wären von dem Zeitpunkt an für weitere Untersuchungen zugänglich.
Es wäre angebracht, das Attribut „certainty“ zu verwenden, um die Unsicherheit durch die halbautomatische Erschließung zu dokumentieren
<placeName reg=″Zwettl“ certainty =″50%“ >Zwetil</placeName>
17.09.2014
Daniel Jeller || [email protected] || http://www.icar-us.eu
Fazit Der MOM-CA Volltext umfasst momentan
in etwa 1.5 Millionen Begriffe
Davon sind lediglich insgesamt ca. 170.000 als Orts- und Personennamen ausgezeichnet.
Selbst wenn ein Bruchteil davon halbautomatisch zugeordnet werden kann, erhöhen sich die Möglichkeiten für die Wissenschaft sprunghaft (in DEEDS sind 31 000 Urkunden enthalten)
Durch die fortschreitende Entwicklung sind weitere Verbesserungen wahrscheinlich.
17.09.2014
Gesamtanza
hl der B
egriffe
Mehrfa
ch vo
rkommende Begriff
e
Häufigster A
usdru
ck ("
et")
Transkr
iptionen
Häufigster o
rtsbezo
gener Begriff
("patauensis
")0
100,000
200,000
300,000
400,000
500,000
600,000
700,000
1,45
8,94
8
564,
221
700,
282
69,1
18
2,12
0