16.05.2007 carsten weber implementierung eines automatischen wortformerkennungssystems fÜr das...

43
16.05.2007 Carsten Weber IMPLEMENTIERUNG EINES AUTOMATISCHEN IMPLEMENTIERUNG EINES AUTOMATISCHEN WORTFORMERKENNUNGSSYSTEMS FÜR DAS WORTFORMERKENNUNGSSYSTEMS FÜR DAS ITALIENISCHE MIT DEM PROGRAMM JSLIM ITALIENISCHE MIT DEM PROGRAMM JSLIM Magisterarbeit Magisterarbeit im Fach im Fach Linguistische Informatik Linguistische Informatik

Upload: adrian-meinhardt

Post on 06-Apr-2016

217 views

Category:

Documents


3 download

TRANSCRIPT

16.05.2007 Carsten Weber

IMPLEMENTIERUNG EINES IMPLEMENTIERUNG EINES AUTOMATISCHEN AUTOMATISCHEN

WORTFORMERKENNUNGSSYSTEMS WORTFORMERKENNUNGSSYSTEMS FÜR DAS ITALIENISCHE MIT DEM FÜR DAS ITALIENISCHE MIT DEM

PROGRAMM JSLIMPROGRAMM JSLIM

MagisterarbeitMagisterarbeitim Fach im Fach

Linguistische InformatikLinguistische Informatik

16.05.2007 Carsten Weber

Inhaltsverzeichnis der MagisterarbeitInhaltsverzeichnis der Magisterarbeit

1.1. Geschichte der italienischen SpracheGeschichte der italienischen Sprache2.2. Das JSLIM-SystemDas JSLIM-System3.3. Italienische GrammatikItalienische Grammatik4.4. AllomorphieAllomorphie5.5. FlexionFlexion6.6. Derivation und KompositionDerivation und Komposition7.7. KorpusanalysenKorpusanalysen

16.05.2007 Carsten Weber

Anmerkungen zum VortragAnmerkungen zum Vortrag

Die Geschichte der italienischen Sprache wird nicht Die Geschichte der italienischen Sprache wird nicht behandelt, da das Hauptaugenmerk auf der praktischen behandelt, da das Hauptaugenmerk auf der praktischen Implementierung liegen soll.Implementierung liegen soll.

Auf eine Erklärung des JSLIM-Systems wird verzichtetAuf eine Erklärung des JSLIM-Systems wird verzichtet

16.05.2007 Carsten Weber

Italienische GrammatikItalienische Grammatik

Für das Projekt verwendete WortklassenFür das Projekt verwendete Wortklassen

Offene Wortklassen der Substantive, Verben und Offene Wortklassen der Substantive, Verben und AdjektiveAdjektive

Geschlossene Wortklassen der Adverbien, Geschlossene Wortklassen der Adverbien, Konjunktionen, Interjektionen, Eigennamen und Konjunktionen, Interjektionen, Eigennamen und Zahlwörter Zahlwörter

„„Mittelklassen“ wie Pronomina und Präpositionen, die Mittelklassen“ wie Pronomina und Präpositionen, die teilweise der Flexion unterliegenteilweise der Flexion unterliegen

Weiterhin: Satzzeichen und SymboleWeiterhin: Satzzeichen und Symbole

16.05.2007 Carsten Weber

SubstantiveSubstantive

Unterschied zum Deutschen: Nur zwei Genera Unterschied zum Deutschen: Nur zwei Genera (Maskulina und Feminina) und keine Kasus(Maskulina und Feminina) und keine Kasus

Insgesamt 7 Flexionsklassen:Insgesamt 7 Flexionsklassen:SingularendungSingularendung PluralendungPluralendung BeispielBeispiel

-o (maskulin)-o (maskulin) -i-i il libro – i libriil libro – i libri

-a (feminin)-a (feminin) -e-e la casa – le casela casa – le case

-a (maskulin)-a (maskulin) -i -i il poeta – i poetiil poeta – i poeti

-e (feminin)-e (feminin) -i-i la base – le basila base – le basi

-e (maskulin)-e (maskulin) -i-i il mare – i mariil mare – i mari

-o (maskulin)-o (maskulin) -a-a il muro – le murail muro – le mura

- Kons./Akzent- Kons./Akzent Keine ÄnderungKeine Änderung il film – i filmil film – i film

16.05.2007 Carsten Weber

VerbenVerben

Drei Klassen: Endung auf -are, -ere und -ireDrei Klassen: Endung auf -are, -ere und -ire Alle drei Klassen haben sowohl verschiedene als auch Alle drei Klassen haben sowohl verschiedene als auch

gemeinsame Flexionsendungen gemeinsame Flexionsendungen Elf verschiedene Zeitformen zur Implementierung (ohne Elf verschiedene Zeitformen zur Implementierung (ohne

zusammengesetzte Zeitformen)zusammengesetzte Zeitformen) Teilweise äquivalente FormenTeilweise äquivalente Formen

Beispiel: „diedi“ und „dette“ sind jeweils die 3. Person Beispiel: „diedi“ und „dette“ sind jeweils die 3. Person Singular von „dare“ im Passato Remoto (spezielle Singular von „dare“ im Passato Remoto (spezielle Vergangenheitsform)Vergangenheitsform)

16.05.2007 Carsten Weber

AdjektiveAdjektive

Zwei große Hauptgruppen:Zwei große Hauptgruppen:

Suppletionen in der Komparation einiger Adjektive:Suppletionen in der Komparation einiger Adjektive: Beispiel: buono – meglio - ottimoBeispiel: buono – meglio - ottimo

SingularendungSingularendung PluralendungPluralendung BeispielBeispiel

-o/-a-o/-a -i/-e-i/-e bello - bella bello - bella belli - bellebelli - belle

-e-e -i-i grande - grandigrande - grandi

VerschiedeneVerschiedene Keine ÄnderungKeine Änderung blu - blublu - blu

16.05.2007 Carsten Weber

Allomorphie: Das verwendete LexikonAllomorphie: Das verwendete Lexikon

Frequenzliste des CoLFIS (Frequenzliste des CoLFIS (CoCorpus e rpus e LLessico di essico di FFrequenza dell‘requenza dell‘IItaliano taliano SScritto)critto)

Basierend auf einem repräsentativen Korpus aus Basierend auf einem repräsentativen Korpus aus 3 150 075 laufenden Wortformen3 150 075 laufenden Wortformen

Vorteile: Vorteile: Frei verfügbar und kostenloser DownloadFrei verfügbar und kostenloser Download Bereits in Wortklassen subkategorisiertBereits in Wortklassen subkategorisiert

16.05.2007 Carsten Weber

Allomorphie: Das verwendete LexikonAllomorphie: Das verwendete Lexikon Gesamtanzahl der Lexikoneinträge: 84 624; davon:Gesamtanzahl der Lexikoneinträge: 84 624; davon:

Verben: 4 771Verben: 4 771 Substantive: 21 483Substantive: 21 483 Adjektive: 10 189Adjektive: 10 189 Pronomina: 85Pronomina: 85 Zahlwörter: 68Zahlwörter: 68 Adverbien: 1 647Adverbien: 1 647 Konjunktionen: 182Konjunktionen: 182 Präpositionen: 564Präpositionen: 564 Eigennamen: 13 388 Eigennamen: 13 388 Satzzeichen und Symbole: 23Satzzeichen und Symbole: 23 Artikel: 13Artikel: 13 Nicht zugeordnete Einträge, die im CoLFIS stehen: 32 051 (z.B. Nicht zugeordnete Einträge, die im CoLFIS stehen: 32 051 (z.B.

Wörter aus anderen Sprachen, Akronyme, …)Wörter aus anderen Sprachen, Akronyme, …)

16.05.2007 Carsten Weber

Allomorphie: Das verwendete LexikonAllomorphie: Das verwendete Lexikon Für die Hapax Legomena wurde ein Vergleichsskript in Für die Hapax Legomena wurde ein Vergleichsskript in

Perl geschrieben, welches sie mit einem herkömmlichen Perl geschrieben, welches sie mit einem herkömmlichen Lexikon verglich. Es wurde überprüft, ob die Hapax Lexikon verglich. Es wurde überprüft, ob die Hapax Legomena darin vorkamen. Legomena darin vorkamen.

Einige unregelmäßige Lexikoneinträge wurden per Hand Einige unregelmäßige Lexikoneinträge wurden per Hand ins Lexikon eingetragen, da für sie keine eigene ins Lexikon eingetragen, da für sie keine eigene Alloregel erstellt wurde.Alloregel erstellt wurde.

16.05.2007 Carsten Weber

Allomorphie: Attribute der PropletsAllomorphie: Attribute der Proplets sur: Oberfläche sur: Oberfläche core: Grundformcore: Grundform cat: Kategorie (Genus, Numerus, Person)cat: Kategorie (Genus, Numerus, Person) sem: Semantik (Tempus, Modus, Unterspezifikationen, Wortklasse) sem: Semantik (Tempus, Modus, Unterspezifikationen, Wortklasse) pfs: Marker für Präfixe pfs: Marker für Präfixe sfs: Marker für Suffixe sfs: Marker für Suffixe val: Valenzstellenval: Valenzstellen combi: Flexionsklassencombi: Flexionsklassen

Für die geschlossenen Wortklassen wurden die Attribute Für die geschlossenen Wortklassen wurden die Attribute pfs,sfs, val und combi nicht gebraucht.pfs,sfs, val und combi nicht gebraucht.

16.05.2007 Carsten Weber

Allomorphie: VerbenAllomorphie: Verben

Insgesamt: 31 Alloregeln (5 für Verben auf -are, 22 für Insgesamt: 31 Alloregeln (5 für Verben auf -are, 22 für Verben auf -ere, 3 für Verben auf -ire und 1 für klitische Verben auf -ere, 3 für Verben auf -ire und 1 für klitische Verben)Verben)

Die Klasse der Verben auf -ere ist sehr unregelmäßig (bis Die Klasse der Verben auf -ere ist sehr unregelmäßig (bis zu 6 Proplets bei einer Regel!) zu 6 Proplets bei einer Regel!)

Häufig phonologische Aspekte bei Häufig phonologische Aspekte bei Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e)Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e)

16.05.2007 Carsten Weber

Allomorphie: Alloregel für „cercare“Allomorphie: Alloregel für „cercare“RULE_CERCARERULE_CERCARE

[ [ sur:sur: /(.*)<(c)>(.*)//(.*)<(c)>(.*)/

allo: allo: cercarecercare]]pcopy(P)pcopy(P)nattr(core cat sem pfs sfs val P)nattr(core cat sem pfs sfs val P)regset($1 $2 $3 P.sur)regset($1 $2 $3 P.sur)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)acopy(inf' v P.cat)acopy(inf' v P.cat)set(inf P.sem)set(inf P.sem)cancel(P.allo)cancel(P.allo)result(P)result(P)

pcopy(P)pcopy(P)nattr(core cat sem pfs sfs val P)nattr(core cat sem pfs sfs val P)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)regset($1 $2 P.sur)regset($1 $2 P.sur)acopy(n' v P.cat)acopy(n' v P.cat)acopy(reg P.sem) acopy(reg P.sem) cancel(P.allo)cancel(P.allo)result(P)result(P)

pcopy(P)pcopy(P)nattr(core cat sem pfs sfs val P)nattr(core cat sem pfs sfs val P)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)regset($1 ch P.sur)regset($1 ch P.sur)acopy(n' v P.cat)acopy(n' v P.cat)acopy(irreg P.sem)acopy(irreg P.sem)cancel(P.allo)cancel(P.allo)result(P)result(P)

16.05.2007 Carsten Weber

Allomorphie: Lexikoneintrag für Allomorphie: Lexikoneintrag für „cercare“„cercare“

!template!template[[ allo: cercareallo: cercare

combi: (CERCARE)combi: (CERCARE)]]!+sur: cer<c>are !+sur: cer<c>are ... ...

Um Alloregeln auf Lexikoneinträge anzuwenden, müssen Um Alloregeln auf Lexikoneinträge anzuwenden, müssen beide denselben Wert im Attribut allo stehen haben (hier: beide denselben Wert im Attribut allo stehen haben (hier: cercare) cercare)

16.05.2007 Carsten Weber

Allomorphie: Generierte Proplets für Allomorphie: Generierte Proplets für „cercare“„cercare“

[[sur: "cercare"sur: "cercare"core: "cercare"core: "cercare"cat: (inf' v) cat: (inf' v) sem: (inf) sem: (inf) pfs: () pfs: () sfs: () sfs: () val: () val: () combi: (CERCARE)combi: (CERCARE)]]

[[sur: "cerc" sur: "cerc" core: "cercare"core: "cercare"cat: (n' v) cat: (n' v) sem: (reg) sem: (reg) pfs: () pfs: () sfs: () sfs: () val: () val: () combi: (CERCARE)combi: (CERCARE)]

[[sur: "cerch" sur: "cerch" core: "cercare"core: "cercare"cat: (n' v) cat: (n' v) sem: (irreg) sem: (irreg) pfs: () pfs: () sfs: () sfs: () val: () val: () combi: (CERCARE)combi: (CERCARE)]]

16.05.2007 Carsten Weber

Allomorphie: SubstantiveAllomorphie: Substantive

Insgesamt: 16 Alloregeln (7 für maskuline, 7 für feminine Insgesamt: 16 Alloregeln (7 für maskuline, 7 für feminine und 2 für Substantive mit identischen Singular- und und 2 für Substantive mit identischen Singular- und Pluralformen)Pluralformen)

Regelmäßiger als die Verballomorphie; die Regeln dienen Regelmäßiger als die Verballomorphie; die Regeln dienen meistens der Genuseinteilungmeistens der Genuseinteilung

Wie bei den Verben phonologische Aspekte bei Wie bei den Verben phonologische Aspekte bei Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e oder auch Tilgung des -i im Plural bei Endung –io oder -ia)oder auch Tilgung des -i im Plural bei Endung –io oder -ia)

16.05.2007 Carsten Weber

Allomorphie: Alloregel für „viaggio“Allomorphie: Alloregel für „viaggio“RULE_VIAGGIORULE_VIAGGIO

[ [ sur:sur: /(.*)<(i)>(.*)//(.*)<(i)>(.*)/

allo: allo: viaggioviaggio]]

pcopy(P)pcopy(P)nattr(core cat sem pfs sfs combi val P)nattr(core cat sem pfs sfs combi val P)regset($1 $2 $3 P.sur)regset($1 $2 $3 P.sur)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)acopy(ms n P.cat)acopy(ms n P.cat)acopy(sost P.sem)acopy(sost P.sem)cancel(P.allo)cancel(P.allo)result(P)result(P)

pcopy(P)pcopy(P)nattr(core cat sem pfs sfs combi val P)nattr(core cat sem pfs sfs combi val P)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)regset($1 i P.sur)regset($1 i P.sur)acopy(mp n P.cat)acopy(mp n P.cat)acopy(sost P.sem)acopy(sost P.sem)cancel(P.allo)cancel(P.allo)result(P)result(P)

16.05.2007 Carsten Weber

Allomorphie: Generierte Proplets für Allomorphie: Generierte Proplets für „viaggio“„viaggio“

[[sur: "viaggio"sur: "viaggio"core: "viaggio"core: "viaggio"cat: (ms n) cat: (ms n) sem: (sost) sem: (sost) pfs: () pfs: () sfs: () sfs: () combi: () combi: () val: ()val: ()]]

[[sur: "viaggi"sur: "viaggi"core: "viaggio"core: "viaggio"cat: (mp n) cat: (mp n) sem: (sost) sem: (sost) pfs: () pfs: () sfs: () sfs: () combi: () combi: () val: ()val: ()]]

16.05.2007 Carsten Weber

Allomorphie: AdjektiveAllomorphie: Adjektive

Insgesamt: 10 Alloregeln Insgesamt: 10 Alloregeln

Teilweise identischer Aufbau zu den Alloregeln für Teilweise identischer Aufbau zu den Alloregeln für Substantive, da gleiche WortstammveränderungenSubstantive, da gleiche Wortstammveränderungen

Häufig phonologische Aspekte bei Häufig phonologische Aspekte bei Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e)Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e)

16.05.2007 Carsten Weber

Allomorphie: Alloregel für „antico“Allomorphie: Alloregel für „antico“RULE_ANTICORULE_ANTICO

[ [ sur:sur: /(.*)<(c)>(.*)//(.*)<(c)>(.*)/

allo: allo: anticoantico]]

pcopy(P)pcopy(P)nattr(core cat sem pfs sfs combi val P)nattr(core cat sem pfs sfs combi val P)regset($1 $2 $3 P.sur)regset($1 $2 $3 P.sur)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)acopy(ms a P.cat)acopy(ms a P.cat)acopy(agg P.sem)acopy(agg P.sem)cancel(P.allo)cancel(P.allo)result(P)result(P)

pcopy(P)pcopy(P)nattr(core cat sem pfs sfs combi val P)nattr(core cat sem pfs sfs combi val P)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)regset($1 $2 P.sur)regset($1 $2 P.sur)acopy(fls' P.cat)acopy(fls' P.cat)acopy(stem P.sem)acopy(stem P.sem)cancel(P.allo)cancel(P.allo)result(P)result(P)

pcopy(P)pcopy(P)nattr(core cat sem pfs sfs combi val P)nattr(core cat sem pfs sfs combi val P)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)regset($1 ch P.sur)regset($1 ch P.sur)acopy(mp' fp' P.cat)acopy(mp' fp' P.cat)acopy(stem P.sem)acopy(stem P.sem)cancel(P.allo)cancel(P.allo)result(P)result(P)

16.05.2007 Carsten Weber

Allomorphie: Generierte Proplets für Allomorphie: Generierte Proplets für „antico“„antico“

[[sur: "antico"sur: "antico"core: "antico"core: "antico"cat: (ms a) cat: (ms a) sem: (agg) sem: (agg) pfs: () pfs: () sfs: () sfs: () val: () val: () combi: (ANTICO)combi: (ANTICO)]]

[[sur: "antic" sur: "antic" core: "antico" core: "antico" cat: (fls') cat: (fls') sem: (stem) sem: (stem) pfs: () pfs: () sfs: ()sfs: ()val: () val: () combi: (ANTICO) combi: (ANTICO) ]]

[[sur: "antich" sur: "antich" core: "antico" core: "antico" cat: (mp' fp')cat: (mp' fp')sem: (stem) sem: (stem) pfs: () pfs: () sfs: () sfs: () val: () val: () combi: (ANTICO) combi: (ANTICO) ]]

16.05.2007 Carsten Weber

Allomorphie: Geschlossene WortklassenAllomorphie: Geschlossene Wortklassen

Jeweils nur eine Regel mit einem PropletJeweils nur eine Regel mit einem Proplet

Die Wortklassen wurden ins cat- und sem-Attribut Die Wortklassen wurden ins cat- und sem-Attribut geschrieben.geschrieben.

Bei Unterspezifikationen wurde der Wert ins sem-Attribut Bei Unterspezifikationen wurde der Wert ins sem-Attribut geschrieben.geschrieben. Beispiel Eigennamen: Markierung für Eigenname steht Beispiel Eigennamen: Markierung für Eigenname steht

im sem-Attribut („nomprop“)im sem-Attribut („nomprop“)

16.05.2007 Carsten Weber

FlexionFlexion

Vorgehensweise: Verwendung von Kombinationstabellen Vorgehensweise: Verwendung von Kombinationstabellen oder Proplet Tablesoder Proplet Tables

Zugriff über das combi-Attribut der generierten PropletsZugriff über das combi-Attribut der generierten Proplets

Anhängen mehrerer Flexionsendungen möglich Anhängen mehrerer Flexionsendungen möglich (Beispiel Imperfekt Indikativ: sper-av-o)(Beispiel Imperfekt Indikativ: sper-av-o)

16.05.2007 Carsten Weber

Flexion: Die RegelFlexion: Die Regel

STEM+FLS {STEM+FLS}STEM+FLS {STEM+FLS}

[ cat: Stem1[ cat: Stem1 sem: Sem1sem: Sem1]][ cat: Stem2[ cat: Stem2 sem: Sem2sem: Sem2]]

ptbl(SS.combi.1 SS.1 NW)ptbl(SS.combi.1 SS.1 NW)concat(" | " NW.sur SS.1.sur)concat(" | " NW.sur SS.1.sur)

16.05.2007 Carsten Weber

Flexion: Funktionsweise der RegelFlexion: Funktionsweise der Regel

16.05.2007 Carsten Weber

Flexion: Proplet TablesFlexion: Proplet Tables Beispiel: Präsens Indikativ Verben auf –are (Bsp. „cercare“)Beispiel: Präsens Indikativ Verben auf –are (Bsp. „cercare“)

[[cat: (n' .. v) (fls o) => (s1'.. v)cat: (n' .. v) (fls o) => (s1'.. v)sem: (reg) (indpres indimp) => (indpres)sem: (reg) (indpres indimp) => (indpres)]]

[[cat: (n' .. v) (fls i) => (s2'.. v)cat: (n' .. v) (fls i) => (s2'.. v)sem: (irreg) (indpres indimp) => (indpres)sem: (irreg) (indpres indimp) => (indpres)]]

[[cat: (n' .. v) (fls a) => (s3'.. v)cat: (n' .. v) (fls a) => (s3'.. v)sem: (reg) (indpres indimp) => (indpres)sem: (reg) (indpres indimp) => (indpres)]]

[[cat: (n' .. v) (fls iamo) => (p1'.. v)cat: (n' .. v) (fls iamo) => (p1'.. v)sem: (irreg) (indpres) => (indpres)sem: (irreg) (indpres) => (indpres)]]

[[cat: (n' .. v) (fls ate) => (p2'.. v)cat: (n' .. v) (fls ate) => (p2'.. v)sem: (reg) (indpres indimp) => (indpres)sem: (reg) (indpres indimp) => (indpres)]]

[[cat: (n' .. v) (fls ano) => (p3'.. v)cat: (n' .. v) (fls ano) => (p3'.. v)sem: (reg) (indpres indimp) => (indpres)sem: (reg) (indpres indimp) => (indpres)]]

16.05.2007 Carsten Weber

FlexionFlexion

Verteilung der Proplet Tables:Verteilung der Proplet Tables: Verben: 28 Verben: 28 Substantive: 6Substantive: 6 Adjektive: 8Adjektive: 8 Pronomina: 8Pronomina: 8 Präpositionen: 1Präpositionen: 1 Zahlwörter: 1Zahlwörter: 1

Insgesamt 131 FlexionsendungenInsgesamt 131 Flexionsendungen

16.05.2007 Carsten Weber

Derivation: SuffigierungDerivation: Suffigierung

Verwendung des Tools Verwendung des Tools LexiconAdderLexiconAdder Funktionsweise am Substantiv „speranza“ (mit Suffix „anz“, Funktionsweise am Substantiv „speranza“ (mit Suffix „anz“,

welches Verben in Substantive ableitet):welches Verben in Substantive ableitet): Es wurde eine Liste mit den Wortstämmen der Verben genommenEs wurde eine Liste mit den Wortstämmen der Verben genommen Aus den Lexikoneinträgen der Substantive wurden alle Einträge mit Aus den Lexikoneinträgen der Substantive wurden alle Einträge mit

„anza“ am Ende herausgenommen und um „anza“ gekürzt„anza“ am Ende herausgenommen und um „anza“ gekürzt Mit dem Perl-Vergleichsskript wurde herausgefunden, ob die übrig Mit dem Perl-Vergleichsskript wurde herausgefunden, ob die übrig

gebliebene Zeichenkette ein Verbstamm ist oder nichtgebliebene Zeichenkette ein Verbstamm ist oder nicht Mit dem Tool Mit dem Tool LexiconAdderLexiconAdder wurden die Werte in das sfs-Attribut der wurden die Werte in das sfs-Attribut der

Proplets geschrieben Proplets geschrieben

16.05.2007 Carsten Weber

Derivation: SuffigierungDerivation: Suffigierung

1. Substantiveauf -anza

speranzausanzavacanzastanzaarroganzacreanzaordinanzaromanzacostanzaeleganza

2. Kürzen der Endungen

sperusvacstarrogcreordinromcosteleg

3. Wortstämmeder Verben

sperusaspettsttrovcreordinpiangcostfin

4. Ergebnis

Vergleichsskript

sperus

st

creordin

cost

16.05.2007 Carsten Weber

Derivation: SuffigierungDerivation: Suffigierung

16.05.2007 Carsten Weber

Derivation: SuffigierungDerivation: Suffigierung

Nachbearbeitung bei Wortstämmen mit drei oder Nachbearbeitung bei Wortstämmen mit drei oder weniger Buchstaben nötig (Beispiel: „stanza“ und „stare“)weniger Buchstaben nötig (Beispiel: „stanza“ und „stare“)

In die Proplets werden Marker geschrieben, die mit In die Proplets werden Marker geschrieben, die mit denen der Suffixe identisch sind (Achtung: Marker wird denen der Suffixe identisch sind (Achtung: Marker wird nur in Wortstämme eingefügt, nicht in der Grundform).nur in Wortstämme eingefügt, nicht in der Grundform). Beispiel Suffix „anz“:Beispiel Suffix „anz“:[[sur:sur: anz anzcat:cat: (fls') (fls')sem: (stem)sem: (stem)sfs: (anz)sfs: (anz)combi: (AE)combi: (AE)]]

16.05.2007 Carsten Weber

Derivation: Die SuffixregelDerivation: Die Suffixregel

STEM+SFS {STEM+FLS STEM+SFS}STEM+SFS {STEM+FLS STEM+SFS}

[ sfs:[ sfs: (R Suffix S) (R Suffix S) combi: StemCombi1combi: StemCombi1]][ sfs:[ sfs: (Suffix O) (Suffix O) combi: SufCombicombi: SufCombi]]

cancel(Suffix)cancel(Suffix)ecopy(NW.combi SS.combi)ecopy(NW.combi SS.combi)ecopy(NW.sem SS.sem)ecopy(NW.sem SS.sem)ecopy(NW.cat SS.cat)ecopy(NW.cat SS.cat)ecopy(NW.sfs SS.sfs)ecopy(NW.sfs SS.sfs)concat(" | " NW.sur SS.1.sur)concat(" | " NW.sur SS.1.sur)

16.05.2007 Carsten Weber

Derivation: Funktionsweise der Derivation: Funktionsweise der SuffixregelSuffixregel

16.05.2007 Carsten Weber

Derivation: SuffigierungDerivation: Suffigierung

Für die Suffigierung mussten neue Proplet Tables erstellt Für die Suffigierung mussten neue Proplet Tables erstellt werden, die die Grundform generieren können.werden, die die Grundform generieren können.

Insgesamt 140 Suffixe und Suffixvarianten Insgesamt 140 Suffixe und Suffixvarianten

Die Suffixe beinhalten semantische Informationen und Die Suffixe beinhalten semantische Informationen und können Proplets in andere Klassen ableitenkönnen Proplets in andere Klassen ableiten

16.05.2007 Carsten Weber

Derivation: PräfigierungDerivation: Präfigierung

Wieder Verwendung des Tools Wieder Verwendung des Tools LexiconAdderLexiconAdder Unterschied: Im Gegensatz zu den Suffixen wurden Unterschied: Im Gegensatz zu den Suffixen wurden

Präfixe abgeschnitten und mit den Grundformen der Präfixe abgeschnitten und mit den Grundformen der Lexikoneinträge verglichenLexikoneinträge verglichen

Bsp.: ri-tornare Bsp.: ri-tornare →→ tornare tornare

16.05.2007 Carsten Weber

Derivation: Die PräfixregelDerivation: Die Präfixregel

PFS+STEM {STEM+FLS STEM+SFS}PFS+STEM {STEM+FLS STEM+SFS}[ [ pfs:pfs: (Prefix)(Prefix)combi: PreCombicombi: PreCombi]][ [ pfs:pfs: (N Prefix P)(N Prefix P)combi: StemCombi2combi: StemCombi2]]ecopy(NW.cat SS.cat)ecopy(NW.cat SS.cat)ecopy(NW.sem SS.sem)ecopy(NW.sem SS.sem)ecopy(NW.sfs SS.sfs)ecopy(NW.sfs SS.sfs)ecopy(NW.val SS.val)ecopy(NW.val SS.val)ecopy(NW.combi SS.combi)ecopy(NW.combi SS.combi)ecopy(NW.core SS.core)ecopy(NW.core SS.core)concat(" | " NW.sur SS.1.sur)concat(" | " NW.sur SS.1.sur)cancel(N)cancel(N)cancel(P)cancel(P)cancel(Prefix)cancel(Prefix)

16.05.2007 Carsten Weber

Derivation: Funktionsweise der Derivation: Funktionsweise der PräfixregelPräfixregel

16.05.2007 Carsten Weber

Derivation: PräfigierungDerivation: Präfigierung

Insgesamt 103 Präfixe und PräfixvariantenInsgesamt 103 Präfixe und Präfixvarianten

Die Präfixe beinhalten keine semantischen Informationen Die Präfixe beinhalten keine semantischen Informationen und dienen nur der Verknüpfung der Oberflächenund dienen nur der Verknüpfung der Oberflächen

Marker wird sowohl in die Grundform als auch in die Marker wird sowohl in die Grundform als auch in die Wortstämme eingefügt Wortstämme eingefügt

Es mussten keine neuen Proplet Tables erstellt werdenEs mussten keine neuen Proplet Tables erstellt werden

16.05.2007 Carsten Weber

KompositionKomposition

Sehr unregelmäßig und im Vergleich zum Deutschen von nicht so Sehr unregelmäßig und im Vergleich zum Deutschen von nicht so großer Bedeutunggroßer Bedeutung

Es müssten eine Vielzahl von Regeln erstellt werden, daher Gefahr Es müssten eine Vielzahl von Regeln erstellt werden, daher Gefahr der Übergenerierungder Übergenerierung

Eher Aufgabe der Syntax, da viele Komposita aus mehreren Teilen Eher Aufgabe der Syntax, da viele Komposita aus mehreren Teilen bestehenbestehen Beispiel: Beispiel:

„„camera da letto“ (Substantiv + Präposition + Substantiv)camera da letto“ (Substantiv + Präposition + Substantiv)„„treno notte“ (Substantiv + Substantiv)treno notte“ (Substantiv + Substantiv)

→ → Komposita aus einer Wortform wurden als Simplizia im Lexikon Komposita aus einer Wortform wurden als Simplizia im Lexikon belassenbelassen

16.05.2007 Carsten Weber

Reduzierung des LexikonsReduzierung des Lexikons

JSLIM „fischt“ Analysen mit dem Befehl -cmp, die sowohl JSLIM „fischt“ Analysen mit dem Befehl -cmp, die sowohl Simplizia als auch Derivata sind Simplizia als auch Derivata sind

Analysetool Analysetool LexiconFilter LexiconFilter kann im Anschluss ein kann im Anschluss ein semantisches Lexikon von einem Allolexikon trennensemantisches Lexikon von einem Allolexikon trennen

Beispiel „speranza“: steht als Simplizia „speranza“ im Beispiel „speranza“: steht als Simplizia „speranza“ im Substantivlexikon und wird auch durch regelbasierte Substantivlexikon und wird auch durch regelbasierte Konkatenation mit „sper|anz|a“ gebildet. Die Simplizia Konkatenation mit „sper|anz|a“ gebildet. Die Simplizia können somit herausgefiltert werdenkönnen somit herausgefiltert werden

→ → Es bleiben nur noch regelbasierte Lexikoneinträge Es bleiben nur noch regelbasierte Lexikoneinträge stehen, dadurch gesteigerte Effizienzstehen, dadurch gesteigerte Effizienz

16.05.2007 Carsten Weber

KorpusanalysenKorpusanalysen

Tests an Type- und Tokenlisten des CoLFISTests an Type- und Tokenlisten des CoLFIS

Analysen der Typeliste wurden ausführlich nach Fehlern Analysen der Typeliste wurden ausführlich nach Fehlern durchsucht und sukzessive verbessert. durchsucht und sukzessive verbessert. → → Steigerung der Worterkennungsrate um über 3%Steigerung der Worterkennungsrate um über 3%

Als Abschluss wurde die Tokenliste mit 3 988 463 Als Abschluss wurde die Tokenliste mit 3 988 463 laufenden Wortformen analysiertlaufenden Wortformen analysiert

16.05.2007 Carsten Weber

Korpusanalysen: ErgebnisseKorpusanalysen: Ergebnisse

TypelisteTypeliste Mit Hapax Legomena: 96,52% Mit Hapax Legomena: 96,52% Ohne Hapax Legomena: 99,16%Ohne Hapax Legomena: 99,16%

TokenlisteTokenliste Mit Hapax Legomena: 99,85%Mit Hapax Legomena: 99,85% Ohne Hapax Legomena: 99,94%Ohne Hapax Legomena: 99,94%

16.05.2007 Carsten Weber

VIELEN DANK!VIELEN DANK!