saltnpepper und das formatpluriversum
DESCRIPTION
These slides are about the conversion framework Pepper for linguistic data and the common meta model Salt it is based on. Further they address the problem of the multiverse of formats for linguistic data. The slides are in German. Diese Folien beschreiben das Problem des Formatpluriversums für linguistische Daten sowie das Konverterframeork Pepper und das Metamodell Salt, die entwickelt wurden, um mit den unterscheidlichen Formaten umgehen zu können.TRANSCRIPT
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
1
Florian ZipserHumboldt-Universität zu Berlin
SaltNPepper und das Formatpluriversum
LAUDATIO Workshop
2014-10-07
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
2
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern viele Annotationsarten
Morphologie
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
3
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern viele Annotationsarten
Morphologie
Syntax
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
4
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern viele Annotationsarten
Morphologie
Syntax
Koreferenz
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
5
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern viele Annotationsarten
Morphologie
Syntax
Koreferenz
Rhetorische Strukturen
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
6
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern viele Annotationsarten
Morphologie
Syntax
Koreferenz
Rhetorische StrukturenGesprochene Daten
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
7
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern viele Annotationsarten
Morphologie
Syntax
Koreferenz
Rhetorische StrukturenGesprochene Daten
Dialoge
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
8
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern viele Annotationsarten
Morphologie
Syntax
Koreferenz
Rhetorische StrukturenGesprochene Daten
Dialoge
Unterschiedliche Sprachen
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
9
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern viele Annotationsarten
Morphologie
Syntax
Koreferenz
Rhetorische StrukturenGesprochene Daten
Dialoge
Verschiedene Sprachstufen
Unterschiedliche Sprachen
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
10
Heterogene Domäne
● Viele Tools, um Daten zu bearbeiten:– Manuelle Annotationstools
– semi-automatische Annotationstools
– Automatische Annotationstools
– Suchtools
– Visualisierungstools
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
11
Heterogene Domäne
● Viele Tools, um Daten zu bearbeiten:● EXMARaLDA
● Praat
● ELAN
● Tiger search
● ANNIS
● Gate
● @nnotate
● TrED
● Parser (Berkley, MALT, …)
● Arborator
● Toolbox
● Synpathie
● TreeTagger
● Weblicht
● MMAX2
● RST
● UIMA
● WebANNO
● ATOMIC
● UAM
● UIMA (dkpro, ...)
● ...
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
12
Heterogene Domäne
● Viele verschiedene Formate
TigerXML
PAULA
UAM formatTCF
rs3
PML
CoNLL
PTB format
Negra MAF
TreeTagger formatTEI
GrAF ANNIS format
MMAX2 formatGATE XML
EXMARaLDA format
ELAN format
TextGrid
Toolbox format
XLSX
Generic XML
UIMA CAS
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
13
Interoperabilität
● Problem 1: Interoperabilität– Viele Tools → gut, Nutzer können wählen
– Aber● Tools können nur selten interagieren● Primärdaten müssen mehrmals aufbereitet werden
(Tokenisierung)
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
14
Mehrebenenkorpora
● Problem 2: Mehrebenenkorpora– Annotation unterschiedlicher Annotationsarten
(Morphologie, Syntax, Koreferenzen) erfordert defacto unterschiedliche Korpora
– Aber: wir brauchen ein Korpus, das alles enthält
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
15
Nachhaltigkeit
● Problem 3: Nachhaltigkeit– Einige Tools werden nicht mehr weiterentwickelt
● Formate werden nicht weiter unterstützt● Was ist mit den Daten???
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
16
Nachhaltigkeit
● Nachhaltigkeit der Daten erfordert Nachhaltigkeit der Speicherung– Im Web: HTML (W3C)
– Allgemeine Datenbeschreibung: XML (W3C), JSON
– Modellierung: UML/ XMI (OASIS)
– Freitext: PDF bzw. pdf-a
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
17
Nachhaltigkeit
● Es gibt ideen zur Standardisierung:– TEI (TEI consortium)
– GrAF (ISO)
– MAF (ISO)
– SynAF/isoTiger (ISO)
Aber nur wenige Tools arbeiten damit, z.T.– Sehr komplex
– Unausgereift
– Standards oft jünger als Tool
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
18
Anforderungen
● Was wir brauchen:– Übertragung alter Daten in neue Formate/
Standards (Nachhaltigkeit)
– Austausch der Daten zwischen unterschiedlichen Tools (Interoperabilität)
– Verschmelzen verschiedener Annotationsarten und -ebenen (Mehrebenenkorpora)
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
19
SaltNPepper
● Nachhaltigkeit:
Format XXX TEI
GrAF
MAF
SynAF
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
20
SaltNPepper
● Austausch:
ELAN format EXMARaLDA format
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
21
SaltNPepper
● Austausch:
ELAN format EXMARaLDA format
EXMARaLDA format ELAN format
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
22
SaltNPepper
● Austausch:
ELAN format EXMARaLDA format
EXMARaLDA format ELAN format
Praat format Praat format
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
23
SaltNPepper
● Austausch: ELAN format EXMARaLDA format
EXMARaLDA format ELAN format
Praat format Praat format
PAULA
TigerXML
ANNIS format
TigerXML
...
PAULA
TigerXML
ANNIS format
TigerXML
...
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
24
SaltNPepper
● Austausch: ELAN format EXMARaLDA format
EXMARaLDA format ELAN format
Praat format Praat format
PAULA
TigerXML
ANNIS format
TigerXML
...
PAULA
TigerXML
ANNIS format
TigerXML
...
n²-n Mappings● Jedes einzelne muss
implementiert werden
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
25
SaltNPepper
● Austausch: ELAN format EXMARaLDA format
EXMARaLDA format ELAN format
Praat format Praat format
PAULA
TigerXML
ANNIS format
TigerXML
...
PAULA
TigerXML
ANNIS format
TigerXML
...
GemeinsammesModell
GemeinsammesModell
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
26
SaltNPepper
● Austausch: ELAN format EXMARaLDA format
EXMARaLDA format ELAN format
Praat format Praat format
PAULA
TigerXML
ANNIS format
TigerXML
...
PAULA
TigerXML
ANNIS format
TigerXML
...
GemeinsamesModell
GemeinsamesModell
Reduzierung auf 2n Mappings
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
27
Salt
● Anforderungen an Metamodell:– Tagsetunabhängig
– Beliebige Annotationsebenen
– Unterschiedliche Annotationsarten
– Theorieneutral
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
28
Salt
● Salt ist ein Graph?– Ein Graph G= (V, E) mit:
● Einer Menge an Knoten V● Einer Menge an Kanten E mit e= (v
1 V, v∊
2 V) E.∊ ∊
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
29
Salt
● Ein Graph in der Linguistik?
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
30
Salt
● Ein Graph in der Linguistik?
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
31
Salt
● Ein Graph in der Linguistik?
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
32
Salt
● Ist das noch ein Graph?
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
33
Salt
● Und das?
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
34
Salt
● Oder das?
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
35
Salt
● Für Salt ja!
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
36
Salt
Die Jugendlichen in Zossen wollen ein Musikcafé.Primärtext:
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
37
Salt
Die Jugendlichen in Zossen wollen ein Musikcafé.Die Jugendlichen in Zossen wollen ein Musikcafé.Primärtext:
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
38
Salt
Die Jugendlichen in Zossen wollen ein Musikcafé.Die Jugendlichen in Zossen wollen ein Musikcafé.Primärtext:
Tokenisierung: t2
t2
5,16
t1
t1
0,40,4
t3
t3
17,19
t4
t4
20,26
t5
t5
27,33
t7
t7
38,47
t6
t6
34,37
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
39
Salt
Die Jugendlichen in Zossen wollen ein Musikcafé.Die Jugendlichen in Zossen wollen ein Musikcafé.Primärtext:
Tokenisierung: t2
t2
5,16
t1
t1
0,40,4
t3
t3
17,19
t4
t4
20,26
t5
t5
27,33
t7
t7
38,47
t6
t6
34,37
ARTART NNNN APPRAPPR NENE VMFINVMFIN ARTART NNNNAnnotation:
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
40
Salt
Die Jugendlichen in Zossen wollen ein Musikcafé.Die Jugendlichen in Zossen wollen ein Musikcafé.Primärtext:
Tokenisierung: t2
t2
5,16
t1
t1
0,40,4
t3
t3
17,19
t4
t4
20,26
t5
t5
27,33
t7
t7
38,47
t6
t6
34,37
Mengen: s1
s1 s
2s
2s
3s
3
Annotation: Inf-Stat= newInf-Stat= new Inf-Stat= newInf-Stat= new Inf-Stat= newInf-Stat= new
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
41
Salt
Primärtext:
Tokenisierung:
Kanten:
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
42
Salt
Die Jugendlichen in Zossen wollen ein Musikcafé.Die Jugendlichen in Zossen wollen ein Musikcafé.Primärtext:
Tokenisierung: t2
t2
5,16
t1
t1
0,40,4
t3
t3
17,19
t4
t4
20,26
t5
t5
27,33
t7
t7
38,47
t6
t6
34,37
Hierarchien:
s2
s2
s1
s1NKNK NKNK
NKNKACAC
MNRMNRNPNP
s3
s3
s4
s4
s1
s1
PPPP
NKNKNKNK
NPNP
SS
OAOAHDHDSBSB
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
43
Salt
● Anforderungen an Metamodell:
Tagsetunabhängigfrei wählbare Attribut-Wert-Paare für Labels
Beliebige Annotationsebenen
unbegrenzte Anzahl an Labels
Unterschiedliche Annotationsarten
alles, was als Graph darstellbar ist
Theorieneutral
Semantikarmut, Salt kennt nur Zeichenketten
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
44
Pepper
● Pepper– Converterframework
– Basiert auf Salt
– Nur eine Infrastruktur, die Arbeit machen die Plugins
Pepper
Salt SGraphSGraph
SRelationSRelationSNodeSNode
TigerXMLTigerXML
Pepper module
PAULAPAULA
Pepper module
ANNISANNIS
Pepper module
......
Pepper module
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
45
Pepper
● Drei Arten von Modulen:– Importer: Format A → Salt
– Manipulator: Salt → Salt
– Exporter: Salt → Format B
PAULAPAULA ANNISformatANNISformat
PAULAImporter
Salt
ANNISExporter
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
46
Pepper
● Drei Arten von Modulen:– Importer: Format A → Salt
– Manipulator: Salt → Salt
– Exporter: Salt → Format B
– Kombinierbarkeit
PAULAPAULA ANNISformatANNISformat
PAULAImporter
Salt
ANNISExporter
TigerXMLTigerXML ANNISformatANNISformat
TigerImporter
Salt
ANNISExporter
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
47
Pepper
● Manipulation
PAULAPAULA ANNISformatANNISformat
PAULAImporter ANNISExporter
Salt Salt
Manipulator (Sentencer)
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
48
Pepper
● Manipulation
● Kombinierbarkeit
PAULAPAULA ANNISformatANNISformat
PAULAImporter ANNISExporter
Salt Salt
Manipulator (Sentencer)
TigerXMLTigerXML ANNISformatANNISformat
TigerImporter ANNISExporter
Salt Salt
Manipulator (Sentencer)
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
49
Anforderungen
● Was wir brauchen:
Übertragung alter Daten in neue Formate/ Standards (Nachhaltigkeit)
Austausch der Daten zwischen unterschiedlichen Tools (Interoperabilität)
Verschmelzen verschiedener Annotationsarten und -ebenen (Mehrebenenkorpora)
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
50
Mehrebenenkorpora
● Mehrebenenkorpora: verschiedene Annotationsarten gemeinsam durchsuchen und anzeigen
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
51
Mehrebenenkorpora
● Problem: es gibt nur wenige Mehrebenenannotationstools (bspw. WebAnno, ATOMIC)
● Idee: Verschmelzen der unterschiedlichen Formate (und somit der Ebenen)
TigerXMLRS3
CoNLLPTB
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
52
Mehrebenenkorpora
● Salt reduziert Merging zu Graphmerging
t2
t2t
1t1 t
3t3 t
4t4 t
5t5 t
7t7t
6t6
s1
s1 s
2s
2 s3
s3
newnew newnew newnew
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
53
Mehrebenenkorpora
● Salt reduziert Merging zu Graphmerging
t2
t2t
1t1 t
3t3 t
4t4 t
5t5 t
7t7t
6t6
s1
s1 s
2s
2 s3
s3
newnew newnew newnew
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
54
Mehrebenenkorpora
● Merger ist Plugin für Pepper (Manipulator)
TigerXMLTigerXML
TigerImporter
ANNISformatANNISformat
ANNISExporter
Salt
Merger
rs3rs3
RSTImporter
Salt
Salt
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
55
Anforderungen
● Was wir brauchen:
Übertragung alter Daten in neue Formate/ Standards (Nachhaltigkeit)
Austausch der Daten zwischen unterschiedlichen Tools (Interoperabilität)
Verschmelzen verschiedener Annotationsarten und -ebenen (Mehrebenenkorpora)
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
56
Fazit
● SaltNPepper– Konvertierung von Korpora zwischen Formaten
– Erweiterbarkeit um neue Formate (Plugins)
– Open Source (Apache License 2.0)
– Öffentliche Plattform: GitHub● https://github.com/korpling/pepper● https://github.com/korpling/salt
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
57
Fazit
● Nachhaltigkeit von Korpora, Formaten und Software hängt zusammen
● Problem: Projekte sind befristet!– Oft stirbt Software nach Ende eines Projektes →
Verlust von Geld und Zeit
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
58
Fazit
● Nachhaltigkeit von Korpora, Formaten und Software hängt zusammen
● Problem: Projekte sind befristet!– Oft stirbt Software nach Ende eines Projektes →
Verlust von Geld und Zeit
● Software braucht zum Überleben:– Aktive Entwicklercommunity
– Open Source
– Öffentliche Plattform
– Gute Dokumentation
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
59
Danke für Ihre Aufmerksamkeit
PAULA
Tiger
Peppe
r
you
your weapon
the format monster
TE
I
PT
B
AN
NIS
EXMARaLDA
GrAF
MMAX2
RS
T
LAUDATIO workshopFlorian Zipser
SaltNPepper und das Formatpluriversum
60
● Diese Folien wurden erstellt unter Verwendung von:– Yuml http://yuml.me
– Openclipart http://openclipart.org