saltnpepper und das formatpluriversum

60
LAUDATIO workshop Florian Zipser SaltNPepper und das Formatpluriversum 1 Florian Zipser Humboldt-Universität zu Berlin SaltNPepper und das Formatpluriversum LAUDATIO Workshop 2014-10-07

Upload: florianzipser

Post on 18-Jun-2015

71 views

Category:

Technology


1 download

DESCRIPTION

These slides are about the conversion framework Pepper for linguistic data and the common meta model Salt it is based on. Further they address the problem of the multiverse of formats for linguistic data. The slides are in German. Diese Folien beschreiben das Problem des Formatpluriversums für linguistische Daten sowie das Konverterframeork Pepper und das Metamodell Salt, die entwickelt wurden, um mit den unterscheidlichen Formaten umgehen zu können.

TRANSCRIPT

Page 1: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

1

Florian ZipserHumboldt-Universität zu Berlin

SaltNPepper und das Formatpluriversum

LAUDATIO Workshop

2014-10-07

Page 2: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

2

Heterogene Domäne

● Linguistische Daten und Phänomene erfordern viele Annotationsarten

Morphologie

Page 3: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

3

Heterogene Domäne

● Linguistische Daten und Phänomene erfordern viele Annotationsarten

Morphologie

Syntax

Page 4: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

4

Heterogene Domäne

● Linguistische Daten und Phänomene erfordern viele Annotationsarten

Morphologie

Syntax

Koreferenz

Page 5: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

5

Heterogene Domäne

● Linguistische Daten und Phänomene erfordern viele Annotationsarten

Morphologie

Syntax

Koreferenz

Rhetorische Strukturen

Page 6: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

6

Heterogene Domäne

● Linguistische Daten und Phänomene erfordern viele Annotationsarten

Morphologie

Syntax

Koreferenz

Rhetorische StrukturenGesprochene Daten

Page 7: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

7

Heterogene Domäne

● Linguistische Daten und Phänomene erfordern viele Annotationsarten

Morphologie

Syntax

Koreferenz

Rhetorische StrukturenGesprochene Daten

Dialoge

Page 8: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

8

Heterogene Domäne

● Linguistische Daten und Phänomene erfordern viele Annotationsarten

Morphologie

Syntax

Koreferenz

Rhetorische StrukturenGesprochene Daten

Dialoge

Unterschiedliche Sprachen

Page 9: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

9

Heterogene Domäne

● Linguistische Daten und Phänomene erfordern viele Annotationsarten

Morphologie

Syntax

Koreferenz

Rhetorische StrukturenGesprochene Daten

Dialoge

Verschiedene Sprachstufen

Unterschiedliche Sprachen

Page 10: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

10

Heterogene Domäne

● Viele Tools, um Daten zu bearbeiten:– Manuelle Annotationstools

– semi-automatische Annotationstools

– Automatische Annotationstools

– Suchtools

– Visualisierungstools

Page 11: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

11

Heterogene Domäne

● Viele Tools, um Daten zu bearbeiten:● EXMARaLDA

● Praat

● ELAN

● Tiger search

● ANNIS

● Gate

● @nnotate

● TrED

● Parser (Berkley, MALT, …)

● Arborator

● Toolbox

● Synpathie

● TreeTagger

● Weblicht

● MMAX2

● RST

● UIMA

● WebANNO

● ATOMIC

● UAM

● UIMA (dkpro, ...)

● ...

Page 12: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

12

Heterogene Domäne

● Viele verschiedene Formate

TigerXML

PAULA

UAM formatTCF

rs3

PML

CoNLL

PTB format

Negra MAF

TreeTagger formatTEI

GrAF ANNIS format

MMAX2 formatGATE XML

EXMARaLDA format

ELAN format

TextGrid

Toolbox format

XLSX

Generic XML

UIMA CAS

Page 13: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

13

Interoperabilität

● Problem 1: Interoperabilität– Viele Tools → gut, Nutzer können wählen

– Aber● Tools können nur selten interagieren● Primärdaten müssen mehrmals aufbereitet werden

(Tokenisierung)

Page 14: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

14

Mehrebenenkorpora

● Problem 2: Mehrebenenkorpora– Annotation unterschiedlicher Annotationsarten

(Morphologie, Syntax, Koreferenzen) erfordert defacto unterschiedliche Korpora

– Aber: wir brauchen ein Korpus, das alles enthält

Page 15: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

15

Nachhaltigkeit

● Problem 3: Nachhaltigkeit– Einige Tools werden nicht mehr weiterentwickelt

● Formate werden nicht weiter unterstützt● Was ist mit den Daten???

Page 16: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

16

Nachhaltigkeit

● Nachhaltigkeit der Daten erfordert Nachhaltigkeit der Speicherung– Im Web: HTML (W3C)

– Allgemeine Datenbeschreibung: XML (W3C), JSON

– Modellierung: UML/ XMI (OASIS)

– Freitext: PDF bzw. pdf-a

Page 17: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

17

Nachhaltigkeit

● Es gibt ideen zur Standardisierung:– TEI (TEI consortium)

– GrAF (ISO)

– MAF (ISO)

– SynAF/isoTiger (ISO)

Aber nur wenige Tools arbeiten damit, z.T.– Sehr komplex

– Unausgereift

– Standards oft jünger als Tool

Page 18: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

18

Anforderungen

● Was wir brauchen:– Übertragung alter Daten in neue Formate/

Standards (Nachhaltigkeit)

– Austausch der Daten zwischen unterschiedlichen Tools (Interoperabilität)

– Verschmelzen verschiedener Annotationsarten und -ebenen (Mehrebenenkorpora)

Page 19: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

19

SaltNPepper

● Nachhaltigkeit:

Format XXX TEI

GrAF

MAF

SynAF

Page 20: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

20

SaltNPepper

● Austausch:

ELAN format EXMARaLDA format

Page 21: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

21

SaltNPepper

● Austausch:

ELAN format EXMARaLDA format

EXMARaLDA format ELAN format

Page 22: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

22

SaltNPepper

● Austausch:

ELAN format EXMARaLDA format

EXMARaLDA format ELAN format

Praat format Praat format

Page 23: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

23

SaltNPepper

● Austausch: ELAN format EXMARaLDA format

EXMARaLDA format ELAN format

Praat format Praat format

PAULA

TigerXML

ANNIS format

TigerXML

...

PAULA

TigerXML

ANNIS format

TigerXML

...

Page 24: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

24

SaltNPepper

● Austausch: ELAN format EXMARaLDA format

EXMARaLDA format ELAN format

Praat format Praat format

PAULA

TigerXML

ANNIS format

TigerXML

...

PAULA

TigerXML

ANNIS format

TigerXML

...

n²-n Mappings● Jedes einzelne muss

implementiert werden

Page 25: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

25

SaltNPepper

● Austausch: ELAN format EXMARaLDA format

EXMARaLDA format ELAN format

Praat format Praat format

PAULA

TigerXML

ANNIS format

TigerXML

...

PAULA

TigerXML

ANNIS format

TigerXML

...

GemeinsammesModell

GemeinsammesModell

Page 26: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

26

SaltNPepper

● Austausch: ELAN format EXMARaLDA format

EXMARaLDA format ELAN format

Praat format Praat format

PAULA

TigerXML

ANNIS format

TigerXML

...

PAULA

TigerXML

ANNIS format

TigerXML

...

GemeinsamesModell

GemeinsamesModell

Reduzierung auf 2n Mappings

Page 27: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

27

Salt

● Anforderungen an Metamodell:– Tagsetunabhängig

– Beliebige Annotationsebenen

– Unterschiedliche Annotationsarten

– Theorieneutral

Page 28: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

28

Salt

● Salt ist ein Graph?– Ein Graph G= (V, E) mit:

● Einer Menge an Knoten V● Einer Menge an Kanten E mit e= (v

1 V, v∊

2 V) E.∊ ∊

Page 29: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

29

Salt

● Ein Graph in der Linguistik?

Page 30: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

30

Salt

● Ein Graph in der Linguistik?

Page 31: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

31

Salt

● Ein Graph in der Linguistik?

Page 32: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

32

Salt

● Ist das noch ein Graph?

Page 33: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

33

Salt

● Und das?

Page 34: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

34

Salt

● Oder das?

Page 35: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

35

Salt

● Für Salt ja!

Page 36: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

36

Salt

Die Jugendlichen in Zossen wollen ein Musikcafé.Primärtext:

Page 37: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

37

Salt

Die Jugendlichen in Zossen wollen ein Musikcafé.Die Jugendlichen in Zossen wollen ein Musikcafé.Primärtext:

Page 38: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

38

Salt

Die Jugendlichen in Zossen wollen ein Musikcafé.Die Jugendlichen in Zossen wollen ein Musikcafé.Primärtext:

Tokenisierung: t2

t2

5,16

t1

t1

0,40,4

t3

t3

17,19

t4

t4

20,26

t5

t5

27,33

t7

t7

38,47

t6

t6

34,37

Page 39: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

39

Salt

Die Jugendlichen in Zossen wollen ein Musikcafé.Die Jugendlichen in Zossen wollen ein Musikcafé.Primärtext:

Tokenisierung: t2

t2

5,16

t1

t1

0,40,4

t3

t3

17,19

t4

t4

20,26

t5

t5

27,33

t7

t7

38,47

t6

t6

34,37

ARTART NNNN APPRAPPR NENE VMFINVMFIN ARTART NNNNAnnotation:

Page 40: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

40

Salt

Die Jugendlichen in Zossen wollen ein Musikcafé.Die Jugendlichen in Zossen wollen ein Musikcafé.Primärtext:

Tokenisierung: t2

t2

5,16

t1

t1

0,40,4

t3

t3

17,19

t4

t4

20,26

t5

t5

27,33

t7

t7

38,47

t6

t6

34,37

Mengen: s1

s1 s

2s

2s

3s

3

Annotation: Inf-Stat= newInf-Stat= new Inf-Stat= newInf-Stat= new Inf-Stat= newInf-Stat= new

Page 41: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

41

Salt

Primärtext:

Tokenisierung:

Kanten:

Page 42: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

42

Salt

Die Jugendlichen in Zossen wollen ein Musikcafé.Die Jugendlichen in Zossen wollen ein Musikcafé.Primärtext:

Tokenisierung: t2

t2

5,16

t1

t1

0,40,4

t3

t3

17,19

t4

t4

20,26

t5

t5

27,33

t7

t7

38,47

t6

t6

34,37

Hierarchien:

s2

s2

s1

s1NKNK NKNK

NKNKACAC

MNRMNRNPNP

s3

s3

s4

s4

s1

s1

PPPP

NKNKNKNK

NPNP

SS

OAOAHDHDSBSB

Page 43: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

43

Salt

● Anforderungen an Metamodell:

Tagsetunabhängigfrei wählbare Attribut-Wert-Paare für Labels

Beliebige Annotationsebenen

unbegrenzte Anzahl an Labels

Unterschiedliche Annotationsarten

alles, was als Graph darstellbar ist

Theorieneutral

Semantikarmut, Salt kennt nur Zeichenketten

Page 44: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

44

Pepper

● Pepper– Converterframework

– Basiert auf Salt

– Nur eine Infrastruktur, die Arbeit machen die Plugins

Pepper

Salt SGraphSGraph

SRelationSRelationSNodeSNode

TigerXMLTigerXML

Pepper module

PAULAPAULA

Pepper module

ANNISANNIS

Pepper module

......

Pepper module

Page 45: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

45

Pepper

● Drei Arten von Modulen:– Importer: Format A → Salt

– Manipulator: Salt → Salt

– Exporter: Salt → Format B

PAULAPAULA ANNISformatANNISformat

PAULAImporter

Salt

ANNISExporter

Page 46: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

46

Pepper

● Drei Arten von Modulen:– Importer: Format A → Salt

– Manipulator: Salt → Salt

– Exporter: Salt → Format B

– Kombinierbarkeit

PAULAPAULA ANNISformatANNISformat

PAULAImporter

Salt

ANNISExporter

TigerXMLTigerXML ANNISformatANNISformat

TigerImporter

Salt

ANNISExporter

Page 47: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

47

Pepper

● Manipulation

PAULAPAULA ANNISformatANNISformat

PAULAImporter ANNISExporter

Salt Salt

Manipulator (Sentencer)

Page 48: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

48

Pepper

● Manipulation

● Kombinierbarkeit

PAULAPAULA ANNISformatANNISformat

PAULAImporter ANNISExporter

Salt Salt

Manipulator (Sentencer)

TigerXMLTigerXML ANNISformatANNISformat

TigerImporter ANNISExporter

Salt Salt

Manipulator (Sentencer)

Page 49: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

49

Anforderungen

● Was wir brauchen:

Übertragung alter Daten in neue Formate/ Standards (Nachhaltigkeit)

Austausch der Daten zwischen unterschiedlichen Tools (Interoperabilität)

Verschmelzen verschiedener Annotationsarten und -ebenen (Mehrebenenkorpora)

Page 50: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

50

Mehrebenenkorpora

● Mehrebenenkorpora: verschiedene Annotationsarten gemeinsam durchsuchen und anzeigen

Page 51: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

51

Mehrebenenkorpora

● Problem: es gibt nur wenige Mehrebenenannotationstools (bspw. WebAnno, ATOMIC)

● Idee: Verschmelzen der unterschiedlichen Formate (und somit der Ebenen)

TigerXMLRS3

CoNLLPTB

Page 52: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

52

Mehrebenenkorpora

● Salt reduziert Merging zu Graphmerging

t2

t2t

1t1 t

3t3 t

4t4 t

5t5 t

7t7t

6t6

s1

s1 s

2s

2 s3

s3

newnew newnew newnew

Page 53: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

53

Mehrebenenkorpora

● Salt reduziert Merging zu Graphmerging

t2

t2t

1t1 t

3t3 t

4t4 t

5t5 t

7t7t

6t6

s1

s1 s

2s

2 s3

s3

newnew newnew newnew

Page 54: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

54

Mehrebenenkorpora

● Merger ist Plugin für Pepper (Manipulator)

TigerXMLTigerXML

TigerImporter

ANNISformatANNISformat

ANNISExporter

Salt

Merger

rs3rs3

RSTImporter

Salt

Salt

Page 55: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

55

Anforderungen

● Was wir brauchen:

Übertragung alter Daten in neue Formate/ Standards (Nachhaltigkeit)

Austausch der Daten zwischen unterschiedlichen Tools (Interoperabilität)

Verschmelzen verschiedener Annotationsarten und -ebenen (Mehrebenenkorpora)

Page 56: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

56

Fazit

● SaltNPepper– Konvertierung von Korpora zwischen Formaten

– Erweiterbarkeit um neue Formate (Plugins)

– Open Source (Apache License 2.0)

– Öffentliche Plattform: GitHub● https://github.com/korpling/pepper● https://github.com/korpling/salt

Page 57: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

57

Fazit

● Nachhaltigkeit von Korpora, Formaten und Software hängt zusammen

● Problem: Projekte sind befristet!– Oft stirbt Software nach Ende eines Projektes →

Verlust von Geld und Zeit

Page 58: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

58

Fazit

● Nachhaltigkeit von Korpora, Formaten und Software hängt zusammen

● Problem: Projekte sind befristet!– Oft stirbt Software nach Ende eines Projektes →

Verlust von Geld und Zeit

● Software braucht zum Überleben:– Aktive Entwicklercommunity

– Open Source

– Öffentliche Plattform

– Gute Dokumentation

Page 59: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

59

Danke für Ihre Aufmerksamkeit

PAULA

Tiger

Peppe

r

you

your weapon

the format monster

TE

I

PT

B

AN

NIS

EXMARaLDA

GrAF

MMAX2

RS

T

Page 60: SaltNPepper und das Formatpluriversum

LAUDATIO workshopFlorian Zipser

SaltNPepper und das Formatpluriversum

60

● Diese Folien wurden erstellt unter Verwendung von:– Yuml http://yuml.me

– Openclipart http://openclipart.org