16.05.2007 carsten weber implementierung eines automatischen wortformerkennungssystems fÜr das...
TRANSCRIPT
16.05.2007 Carsten Weber
IMPLEMENTIERUNG EINES IMPLEMENTIERUNG EINES AUTOMATISCHEN AUTOMATISCHEN
WORTFORMERKENNUNGSSYSTEMS WORTFORMERKENNUNGSSYSTEMS FÜR DAS ITALIENISCHE MIT DEM FÜR DAS ITALIENISCHE MIT DEM
PROGRAMM JSLIMPROGRAMM JSLIM
MagisterarbeitMagisterarbeitim Fach im Fach
Linguistische InformatikLinguistische Informatik
16.05.2007 Carsten Weber
Inhaltsverzeichnis der MagisterarbeitInhaltsverzeichnis der Magisterarbeit
1.1. Geschichte der italienischen SpracheGeschichte der italienischen Sprache2.2. Das JSLIM-SystemDas JSLIM-System3.3. Italienische GrammatikItalienische Grammatik4.4. AllomorphieAllomorphie5.5. FlexionFlexion6.6. Derivation und KompositionDerivation und Komposition7.7. KorpusanalysenKorpusanalysen
16.05.2007 Carsten Weber
Anmerkungen zum VortragAnmerkungen zum Vortrag
Die Geschichte der italienischen Sprache wird nicht Die Geschichte der italienischen Sprache wird nicht behandelt, da das Hauptaugenmerk auf der praktischen behandelt, da das Hauptaugenmerk auf der praktischen Implementierung liegen soll.Implementierung liegen soll.
Auf eine Erklärung des JSLIM-Systems wird verzichtetAuf eine Erklärung des JSLIM-Systems wird verzichtet
16.05.2007 Carsten Weber
Italienische GrammatikItalienische Grammatik
Für das Projekt verwendete WortklassenFür das Projekt verwendete Wortklassen
Offene Wortklassen der Substantive, Verben und Offene Wortklassen der Substantive, Verben und AdjektiveAdjektive
Geschlossene Wortklassen der Adverbien, Geschlossene Wortklassen der Adverbien, Konjunktionen, Interjektionen, Eigennamen und Konjunktionen, Interjektionen, Eigennamen und Zahlwörter Zahlwörter
„„Mittelklassen“ wie Pronomina und Präpositionen, die Mittelklassen“ wie Pronomina und Präpositionen, die teilweise der Flexion unterliegenteilweise der Flexion unterliegen
Weiterhin: Satzzeichen und SymboleWeiterhin: Satzzeichen und Symbole
16.05.2007 Carsten Weber
SubstantiveSubstantive
Unterschied zum Deutschen: Nur zwei Genera Unterschied zum Deutschen: Nur zwei Genera (Maskulina und Feminina) und keine Kasus(Maskulina und Feminina) und keine Kasus
Insgesamt 7 Flexionsklassen:Insgesamt 7 Flexionsklassen:SingularendungSingularendung PluralendungPluralendung BeispielBeispiel
-o (maskulin)-o (maskulin) -i-i il libro – i libriil libro – i libri
-a (feminin)-a (feminin) -e-e la casa – le casela casa – le case
-a (maskulin)-a (maskulin) -i -i il poeta – i poetiil poeta – i poeti
-e (feminin)-e (feminin) -i-i la base – le basila base – le basi
-e (maskulin)-e (maskulin) -i-i il mare – i mariil mare – i mari
-o (maskulin)-o (maskulin) -a-a il muro – le murail muro – le mura
- Kons./Akzent- Kons./Akzent Keine ÄnderungKeine Änderung il film – i filmil film – i film
16.05.2007 Carsten Weber
VerbenVerben
Drei Klassen: Endung auf -are, -ere und -ireDrei Klassen: Endung auf -are, -ere und -ire Alle drei Klassen haben sowohl verschiedene als auch Alle drei Klassen haben sowohl verschiedene als auch
gemeinsame Flexionsendungen gemeinsame Flexionsendungen Elf verschiedene Zeitformen zur Implementierung (ohne Elf verschiedene Zeitformen zur Implementierung (ohne
zusammengesetzte Zeitformen)zusammengesetzte Zeitformen) Teilweise äquivalente FormenTeilweise äquivalente Formen
Beispiel: „diedi“ und „dette“ sind jeweils die 3. Person Beispiel: „diedi“ und „dette“ sind jeweils die 3. Person Singular von „dare“ im Passato Remoto (spezielle Singular von „dare“ im Passato Remoto (spezielle Vergangenheitsform)Vergangenheitsform)
16.05.2007 Carsten Weber
AdjektiveAdjektive
Zwei große Hauptgruppen:Zwei große Hauptgruppen:
Suppletionen in der Komparation einiger Adjektive:Suppletionen in der Komparation einiger Adjektive: Beispiel: buono – meglio - ottimoBeispiel: buono – meglio - ottimo
SingularendungSingularendung PluralendungPluralendung BeispielBeispiel
-o/-a-o/-a -i/-e-i/-e bello - bella bello - bella belli - bellebelli - belle
-e-e -i-i grande - grandigrande - grandi
VerschiedeneVerschiedene Keine ÄnderungKeine Änderung blu - blublu - blu
16.05.2007 Carsten Weber
Allomorphie: Das verwendete LexikonAllomorphie: Das verwendete Lexikon
Frequenzliste des CoLFIS (Frequenzliste des CoLFIS (CoCorpus e rpus e LLessico di essico di FFrequenza dell‘requenza dell‘IItaliano taliano SScritto)critto)
Basierend auf einem repräsentativen Korpus aus Basierend auf einem repräsentativen Korpus aus 3 150 075 laufenden Wortformen3 150 075 laufenden Wortformen
Vorteile: Vorteile: Frei verfügbar und kostenloser DownloadFrei verfügbar und kostenloser Download Bereits in Wortklassen subkategorisiertBereits in Wortklassen subkategorisiert
16.05.2007 Carsten Weber
Allomorphie: Das verwendete LexikonAllomorphie: Das verwendete Lexikon Gesamtanzahl der Lexikoneinträge: 84 624; davon:Gesamtanzahl der Lexikoneinträge: 84 624; davon:
Verben: 4 771Verben: 4 771 Substantive: 21 483Substantive: 21 483 Adjektive: 10 189Adjektive: 10 189 Pronomina: 85Pronomina: 85 Zahlwörter: 68Zahlwörter: 68 Adverbien: 1 647Adverbien: 1 647 Konjunktionen: 182Konjunktionen: 182 Präpositionen: 564Präpositionen: 564 Eigennamen: 13 388 Eigennamen: 13 388 Satzzeichen und Symbole: 23Satzzeichen und Symbole: 23 Artikel: 13Artikel: 13 Nicht zugeordnete Einträge, die im CoLFIS stehen: 32 051 (z.B. Nicht zugeordnete Einträge, die im CoLFIS stehen: 32 051 (z.B.
Wörter aus anderen Sprachen, Akronyme, …)Wörter aus anderen Sprachen, Akronyme, …)
16.05.2007 Carsten Weber
Allomorphie: Das verwendete LexikonAllomorphie: Das verwendete Lexikon Für die Hapax Legomena wurde ein Vergleichsskript in Für die Hapax Legomena wurde ein Vergleichsskript in
Perl geschrieben, welches sie mit einem herkömmlichen Perl geschrieben, welches sie mit einem herkömmlichen Lexikon verglich. Es wurde überprüft, ob die Hapax Lexikon verglich. Es wurde überprüft, ob die Hapax Legomena darin vorkamen. Legomena darin vorkamen.
Einige unregelmäßige Lexikoneinträge wurden per Hand Einige unregelmäßige Lexikoneinträge wurden per Hand ins Lexikon eingetragen, da für sie keine eigene ins Lexikon eingetragen, da für sie keine eigene Alloregel erstellt wurde.Alloregel erstellt wurde.
16.05.2007 Carsten Weber
Allomorphie: Attribute der PropletsAllomorphie: Attribute der Proplets sur: Oberfläche sur: Oberfläche core: Grundformcore: Grundform cat: Kategorie (Genus, Numerus, Person)cat: Kategorie (Genus, Numerus, Person) sem: Semantik (Tempus, Modus, Unterspezifikationen, Wortklasse) sem: Semantik (Tempus, Modus, Unterspezifikationen, Wortklasse) pfs: Marker für Präfixe pfs: Marker für Präfixe sfs: Marker für Suffixe sfs: Marker für Suffixe val: Valenzstellenval: Valenzstellen combi: Flexionsklassencombi: Flexionsklassen
Für die geschlossenen Wortklassen wurden die Attribute Für die geschlossenen Wortklassen wurden die Attribute pfs,sfs, val und combi nicht gebraucht.pfs,sfs, val und combi nicht gebraucht.
16.05.2007 Carsten Weber
Allomorphie: VerbenAllomorphie: Verben
Insgesamt: 31 Alloregeln (5 für Verben auf -are, 22 für Insgesamt: 31 Alloregeln (5 für Verben auf -are, 22 für Verben auf -ere, 3 für Verben auf -ire und 1 für klitische Verben auf -ere, 3 für Verben auf -ire und 1 für klitische Verben)Verben)
Die Klasse der Verben auf -ere ist sehr unregelmäßig (bis Die Klasse der Verben auf -ere ist sehr unregelmäßig (bis zu 6 Proplets bei einer Regel!) zu 6 Proplets bei einer Regel!)
Häufig phonologische Aspekte bei Häufig phonologische Aspekte bei Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e)Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e)
16.05.2007 Carsten Weber
Allomorphie: Alloregel für „cercare“Allomorphie: Alloregel für „cercare“RULE_CERCARERULE_CERCARE
[ [ sur:sur: /(.*)<(c)>(.*)//(.*)<(c)>(.*)/
allo: allo: cercarecercare]]pcopy(P)pcopy(P)nattr(core cat sem pfs sfs val P)nattr(core cat sem pfs sfs val P)regset($1 $2 $3 P.sur)regset($1 $2 $3 P.sur)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)acopy(inf' v P.cat)acopy(inf' v P.cat)set(inf P.sem)set(inf P.sem)cancel(P.allo)cancel(P.allo)result(P)result(P)
pcopy(P)pcopy(P)nattr(core cat sem pfs sfs val P)nattr(core cat sem pfs sfs val P)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)regset($1 $2 P.sur)regset($1 $2 P.sur)acopy(n' v P.cat)acopy(n' v P.cat)acopy(reg P.sem) acopy(reg P.sem) cancel(P.allo)cancel(P.allo)result(P)result(P)
pcopy(P)pcopy(P)nattr(core cat sem pfs sfs val P)nattr(core cat sem pfs sfs val P)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)regset($1 ch P.sur)regset($1 ch P.sur)acopy(n' v P.cat)acopy(n' v P.cat)acopy(irreg P.sem)acopy(irreg P.sem)cancel(P.allo)cancel(P.allo)result(P)result(P)
16.05.2007 Carsten Weber
Allomorphie: Lexikoneintrag für Allomorphie: Lexikoneintrag für „cercare“„cercare“
!template!template[[ allo: cercareallo: cercare
combi: (CERCARE)combi: (CERCARE)]]!+sur: cer<c>are !+sur: cer<c>are ... ...
Um Alloregeln auf Lexikoneinträge anzuwenden, müssen Um Alloregeln auf Lexikoneinträge anzuwenden, müssen beide denselben Wert im Attribut allo stehen haben (hier: beide denselben Wert im Attribut allo stehen haben (hier: cercare) cercare)
16.05.2007 Carsten Weber
Allomorphie: Generierte Proplets für Allomorphie: Generierte Proplets für „cercare“„cercare“
[[sur: "cercare"sur: "cercare"core: "cercare"core: "cercare"cat: (inf' v) cat: (inf' v) sem: (inf) sem: (inf) pfs: () pfs: () sfs: () sfs: () val: () val: () combi: (CERCARE)combi: (CERCARE)]]
[[sur: "cerc" sur: "cerc" core: "cercare"core: "cercare"cat: (n' v) cat: (n' v) sem: (reg) sem: (reg) pfs: () pfs: () sfs: () sfs: () val: () val: () combi: (CERCARE)combi: (CERCARE)]
[[sur: "cerch" sur: "cerch" core: "cercare"core: "cercare"cat: (n' v) cat: (n' v) sem: (irreg) sem: (irreg) pfs: () pfs: () sfs: () sfs: () val: () val: () combi: (CERCARE)combi: (CERCARE)]]
16.05.2007 Carsten Weber
Allomorphie: SubstantiveAllomorphie: Substantive
Insgesamt: 16 Alloregeln (7 für maskuline, 7 für feminine Insgesamt: 16 Alloregeln (7 für maskuline, 7 für feminine und 2 für Substantive mit identischen Singular- und und 2 für Substantive mit identischen Singular- und Pluralformen)Pluralformen)
Regelmäßiger als die Verballomorphie; die Regeln dienen Regelmäßiger als die Verballomorphie; die Regeln dienen meistens der Genuseinteilungmeistens der Genuseinteilung
Wie bei den Verben phonologische Aspekte bei Wie bei den Verben phonologische Aspekte bei Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e oder auch Tilgung des -i im Plural bei Endung –io oder -ia)oder auch Tilgung des -i im Plural bei Endung –io oder -ia)
16.05.2007 Carsten Weber
Allomorphie: Alloregel für „viaggio“Allomorphie: Alloregel für „viaggio“RULE_VIAGGIORULE_VIAGGIO
[ [ sur:sur: /(.*)<(i)>(.*)//(.*)<(i)>(.*)/
allo: allo: viaggioviaggio]]
pcopy(P)pcopy(P)nattr(core cat sem pfs sfs combi val P)nattr(core cat sem pfs sfs combi val P)regset($1 $2 $3 P.sur)regset($1 $2 $3 P.sur)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)acopy(ms n P.cat)acopy(ms n P.cat)acopy(sost P.sem)acopy(sost P.sem)cancel(P.allo)cancel(P.allo)result(P)result(P)
pcopy(P)pcopy(P)nattr(core cat sem pfs sfs combi val P)nattr(core cat sem pfs sfs combi val P)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)regset($1 i P.sur)regset($1 i P.sur)acopy(mp n P.cat)acopy(mp n P.cat)acopy(sost P.sem)acopy(sost P.sem)cancel(P.allo)cancel(P.allo)result(P)result(P)
16.05.2007 Carsten Weber
Allomorphie: Generierte Proplets für Allomorphie: Generierte Proplets für „viaggio“„viaggio“
[[sur: "viaggio"sur: "viaggio"core: "viaggio"core: "viaggio"cat: (ms n) cat: (ms n) sem: (sost) sem: (sost) pfs: () pfs: () sfs: () sfs: () combi: () combi: () val: ()val: ()]]
[[sur: "viaggi"sur: "viaggi"core: "viaggio"core: "viaggio"cat: (mp n) cat: (mp n) sem: (sost) sem: (sost) pfs: () pfs: () sfs: () sfs: () combi: () combi: () val: ()val: ()]]
16.05.2007 Carsten Weber
Allomorphie: AdjektiveAllomorphie: Adjektive
Insgesamt: 10 Alloregeln Insgesamt: 10 Alloregeln
Teilweise identischer Aufbau zu den Alloregeln für Teilweise identischer Aufbau zu den Alloregeln für Substantive, da gleiche WortstammveränderungenSubstantive, da gleiche Wortstammveränderungen
Häufig phonologische Aspekte bei Häufig phonologische Aspekte bei Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e)Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e)
16.05.2007 Carsten Weber
Allomorphie: Alloregel für „antico“Allomorphie: Alloregel für „antico“RULE_ANTICORULE_ANTICO
[ [ sur:sur: /(.*)<(c)>(.*)//(.*)<(c)>(.*)/
allo: allo: anticoantico]]
pcopy(P)pcopy(P)nattr(core cat sem pfs sfs combi val P)nattr(core cat sem pfs sfs combi val P)regset($1 $2 $3 P.sur)regset($1 $2 $3 P.sur)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)acopy(ms a P.cat)acopy(ms a P.cat)acopy(agg P.sem)acopy(agg P.sem)cancel(P.allo)cancel(P.allo)result(P)result(P)
pcopy(P)pcopy(P)nattr(core cat sem pfs sfs combi val P)nattr(core cat sem pfs sfs combi val P)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)regset($1 $2 P.sur)regset($1 $2 P.sur)acopy(fls' P.cat)acopy(fls' P.cat)acopy(stem P.sem)acopy(stem P.sem)cancel(P.allo)cancel(P.allo)result(P)result(P)
pcopy(P)pcopy(P)nattr(core cat sem pfs sfs combi val P)nattr(core cat sem pfs sfs combi val P)regset($1 $2 $3 P.core)regset($1 $2 $3 P.core)regset($1 ch P.sur)regset($1 ch P.sur)acopy(mp' fp' P.cat)acopy(mp' fp' P.cat)acopy(stem P.sem)acopy(stem P.sem)cancel(P.allo)cancel(P.allo)result(P)result(P)
16.05.2007 Carsten Weber
Allomorphie: Generierte Proplets für Allomorphie: Generierte Proplets für „antico“„antico“
[[sur: "antico"sur: "antico"core: "antico"core: "antico"cat: (ms a) cat: (ms a) sem: (agg) sem: (agg) pfs: () pfs: () sfs: () sfs: () val: () val: () combi: (ANTICO)combi: (ANTICO)]]
[[sur: "antic" sur: "antic" core: "antico" core: "antico" cat: (fls') cat: (fls') sem: (stem) sem: (stem) pfs: () pfs: () sfs: ()sfs: ()val: () val: () combi: (ANTICO) combi: (ANTICO) ]]
[[sur: "antich" sur: "antich" core: "antico" core: "antico" cat: (mp' fp')cat: (mp' fp')sem: (stem) sem: (stem) pfs: () pfs: () sfs: () sfs: () val: () val: () combi: (ANTICO) combi: (ANTICO) ]]
16.05.2007 Carsten Weber
Allomorphie: Geschlossene WortklassenAllomorphie: Geschlossene Wortklassen
Jeweils nur eine Regel mit einem PropletJeweils nur eine Regel mit einem Proplet
Die Wortklassen wurden ins cat- und sem-Attribut Die Wortklassen wurden ins cat- und sem-Attribut geschrieben.geschrieben.
Bei Unterspezifikationen wurde der Wert ins sem-Attribut Bei Unterspezifikationen wurde der Wert ins sem-Attribut geschrieben.geschrieben. Beispiel Eigennamen: Markierung für Eigenname steht Beispiel Eigennamen: Markierung für Eigenname steht
im sem-Attribut („nomprop“)im sem-Attribut („nomprop“)
16.05.2007 Carsten Weber
FlexionFlexion
Vorgehensweise: Verwendung von Kombinationstabellen Vorgehensweise: Verwendung von Kombinationstabellen oder Proplet Tablesoder Proplet Tables
Zugriff über das combi-Attribut der generierten PropletsZugriff über das combi-Attribut der generierten Proplets
Anhängen mehrerer Flexionsendungen möglich Anhängen mehrerer Flexionsendungen möglich (Beispiel Imperfekt Indikativ: sper-av-o)(Beispiel Imperfekt Indikativ: sper-av-o)
16.05.2007 Carsten Weber
Flexion: Die RegelFlexion: Die Regel
STEM+FLS {STEM+FLS}STEM+FLS {STEM+FLS}
[ cat: Stem1[ cat: Stem1 sem: Sem1sem: Sem1]][ cat: Stem2[ cat: Stem2 sem: Sem2sem: Sem2]]
ptbl(SS.combi.1 SS.1 NW)ptbl(SS.combi.1 SS.1 NW)concat(" | " NW.sur SS.1.sur)concat(" | " NW.sur SS.1.sur)
16.05.2007 Carsten Weber
Flexion: Proplet TablesFlexion: Proplet Tables Beispiel: Präsens Indikativ Verben auf –are (Bsp. „cercare“)Beispiel: Präsens Indikativ Verben auf –are (Bsp. „cercare“)
[[cat: (n' .. v) (fls o) => (s1'.. v)cat: (n' .. v) (fls o) => (s1'.. v)sem: (reg) (indpres indimp) => (indpres)sem: (reg) (indpres indimp) => (indpres)]]
[[cat: (n' .. v) (fls i) => (s2'.. v)cat: (n' .. v) (fls i) => (s2'.. v)sem: (irreg) (indpres indimp) => (indpres)sem: (irreg) (indpres indimp) => (indpres)]]
[[cat: (n' .. v) (fls a) => (s3'.. v)cat: (n' .. v) (fls a) => (s3'.. v)sem: (reg) (indpres indimp) => (indpres)sem: (reg) (indpres indimp) => (indpres)]]
[[cat: (n' .. v) (fls iamo) => (p1'.. v)cat: (n' .. v) (fls iamo) => (p1'.. v)sem: (irreg) (indpres) => (indpres)sem: (irreg) (indpres) => (indpres)]]
[[cat: (n' .. v) (fls ate) => (p2'.. v)cat: (n' .. v) (fls ate) => (p2'.. v)sem: (reg) (indpres indimp) => (indpres)sem: (reg) (indpres indimp) => (indpres)]]
[[cat: (n' .. v) (fls ano) => (p3'.. v)cat: (n' .. v) (fls ano) => (p3'.. v)sem: (reg) (indpres indimp) => (indpres)sem: (reg) (indpres indimp) => (indpres)]]
16.05.2007 Carsten Weber
FlexionFlexion
Verteilung der Proplet Tables:Verteilung der Proplet Tables: Verben: 28 Verben: 28 Substantive: 6Substantive: 6 Adjektive: 8Adjektive: 8 Pronomina: 8Pronomina: 8 Präpositionen: 1Präpositionen: 1 Zahlwörter: 1Zahlwörter: 1
Insgesamt 131 FlexionsendungenInsgesamt 131 Flexionsendungen
16.05.2007 Carsten Weber
Derivation: SuffigierungDerivation: Suffigierung
Verwendung des Tools Verwendung des Tools LexiconAdderLexiconAdder Funktionsweise am Substantiv „speranza“ (mit Suffix „anz“, Funktionsweise am Substantiv „speranza“ (mit Suffix „anz“,
welches Verben in Substantive ableitet):welches Verben in Substantive ableitet): Es wurde eine Liste mit den Wortstämmen der Verben genommenEs wurde eine Liste mit den Wortstämmen der Verben genommen Aus den Lexikoneinträgen der Substantive wurden alle Einträge mit Aus den Lexikoneinträgen der Substantive wurden alle Einträge mit
„anza“ am Ende herausgenommen und um „anza“ gekürzt„anza“ am Ende herausgenommen und um „anza“ gekürzt Mit dem Perl-Vergleichsskript wurde herausgefunden, ob die übrig Mit dem Perl-Vergleichsskript wurde herausgefunden, ob die übrig
gebliebene Zeichenkette ein Verbstamm ist oder nichtgebliebene Zeichenkette ein Verbstamm ist oder nicht Mit dem Tool Mit dem Tool LexiconAdderLexiconAdder wurden die Werte in das sfs-Attribut der wurden die Werte in das sfs-Attribut der
Proplets geschrieben Proplets geschrieben
16.05.2007 Carsten Weber
Derivation: SuffigierungDerivation: Suffigierung
1. Substantiveauf -anza
speranzausanzavacanzastanzaarroganzacreanzaordinanzaromanzacostanzaeleganza
2. Kürzen der Endungen
sperusvacstarrogcreordinromcosteleg
3. Wortstämmeder Verben
sperusaspettsttrovcreordinpiangcostfin
4. Ergebnis
Vergleichsskript
sperus
st
creordin
cost
16.05.2007 Carsten Weber
Derivation: SuffigierungDerivation: Suffigierung
Nachbearbeitung bei Wortstämmen mit drei oder Nachbearbeitung bei Wortstämmen mit drei oder weniger Buchstaben nötig (Beispiel: „stanza“ und „stare“)weniger Buchstaben nötig (Beispiel: „stanza“ und „stare“)
In die Proplets werden Marker geschrieben, die mit In die Proplets werden Marker geschrieben, die mit denen der Suffixe identisch sind (Achtung: Marker wird denen der Suffixe identisch sind (Achtung: Marker wird nur in Wortstämme eingefügt, nicht in der Grundform).nur in Wortstämme eingefügt, nicht in der Grundform). Beispiel Suffix „anz“:Beispiel Suffix „anz“:[[sur:sur: anz anzcat:cat: (fls') (fls')sem: (stem)sem: (stem)sfs: (anz)sfs: (anz)combi: (AE)combi: (AE)]]
16.05.2007 Carsten Weber
Derivation: Die SuffixregelDerivation: Die Suffixregel
STEM+SFS {STEM+FLS STEM+SFS}STEM+SFS {STEM+FLS STEM+SFS}
[ sfs:[ sfs: (R Suffix S) (R Suffix S) combi: StemCombi1combi: StemCombi1]][ sfs:[ sfs: (Suffix O) (Suffix O) combi: SufCombicombi: SufCombi]]
cancel(Suffix)cancel(Suffix)ecopy(NW.combi SS.combi)ecopy(NW.combi SS.combi)ecopy(NW.sem SS.sem)ecopy(NW.sem SS.sem)ecopy(NW.cat SS.cat)ecopy(NW.cat SS.cat)ecopy(NW.sfs SS.sfs)ecopy(NW.sfs SS.sfs)concat(" | " NW.sur SS.1.sur)concat(" | " NW.sur SS.1.sur)
16.05.2007 Carsten Weber
Derivation: Funktionsweise der Derivation: Funktionsweise der SuffixregelSuffixregel
16.05.2007 Carsten Weber
Derivation: SuffigierungDerivation: Suffigierung
Für die Suffigierung mussten neue Proplet Tables erstellt Für die Suffigierung mussten neue Proplet Tables erstellt werden, die die Grundform generieren können.werden, die die Grundform generieren können.
Insgesamt 140 Suffixe und Suffixvarianten Insgesamt 140 Suffixe und Suffixvarianten
Die Suffixe beinhalten semantische Informationen und Die Suffixe beinhalten semantische Informationen und können Proplets in andere Klassen ableitenkönnen Proplets in andere Klassen ableiten
16.05.2007 Carsten Weber
Derivation: PräfigierungDerivation: Präfigierung
Wieder Verwendung des Tools Wieder Verwendung des Tools LexiconAdderLexiconAdder Unterschied: Im Gegensatz zu den Suffixen wurden Unterschied: Im Gegensatz zu den Suffixen wurden
Präfixe abgeschnitten und mit den Grundformen der Präfixe abgeschnitten und mit den Grundformen der Lexikoneinträge verglichenLexikoneinträge verglichen
Bsp.: ri-tornare Bsp.: ri-tornare →→ tornare tornare
16.05.2007 Carsten Weber
Derivation: Die PräfixregelDerivation: Die Präfixregel
PFS+STEM {STEM+FLS STEM+SFS}PFS+STEM {STEM+FLS STEM+SFS}[ [ pfs:pfs: (Prefix)(Prefix)combi: PreCombicombi: PreCombi]][ [ pfs:pfs: (N Prefix P)(N Prefix P)combi: StemCombi2combi: StemCombi2]]ecopy(NW.cat SS.cat)ecopy(NW.cat SS.cat)ecopy(NW.sem SS.sem)ecopy(NW.sem SS.sem)ecopy(NW.sfs SS.sfs)ecopy(NW.sfs SS.sfs)ecopy(NW.val SS.val)ecopy(NW.val SS.val)ecopy(NW.combi SS.combi)ecopy(NW.combi SS.combi)ecopy(NW.core SS.core)ecopy(NW.core SS.core)concat(" | " NW.sur SS.1.sur)concat(" | " NW.sur SS.1.sur)cancel(N)cancel(N)cancel(P)cancel(P)cancel(Prefix)cancel(Prefix)
16.05.2007 Carsten Weber
Derivation: Funktionsweise der Derivation: Funktionsweise der PräfixregelPräfixregel
16.05.2007 Carsten Weber
Derivation: PräfigierungDerivation: Präfigierung
Insgesamt 103 Präfixe und PräfixvariantenInsgesamt 103 Präfixe und Präfixvarianten
Die Präfixe beinhalten keine semantischen Informationen Die Präfixe beinhalten keine semantischen Informationen und dienen nur der Verknüpfung der Oberflächenund dienen nur der Verknüpfung der Oberflächen
Marker wird sowohl in die Grundform als auch in die Marker wird sowohl in die Grundform als auch in die Wortstämme eingefügt Wortstämme eingefügt
Es mussten keine neuen Proplet Tables erstellt werdenEs mussten keine neuen Proplet Tables erstellt werden
16.05.2007 Carsten Weber
KompositionKomposition
Sehr unregelmäßig und im Vergleich zum Deutschen von nicht so Sehr unregelmäßig und im Vergleich zum Deutschen von nicht so großer Bedeutunggroßer Bedeutung
Es müssten eine Vielzahl von Regeln erstellt werden, daher Gefahr Es müssten eine Vielzahl von Regeln erstellt werden, daher Gefahr der Übergenerierungder Übergenerierung
Eher Aufgabe der Syntax, da viele Komposita aus mehreren Teilen Eher Aufgabe der Syntax, da viele Komposita aus mehreren Teilen bestehenbestehen Beispiel: Beispiel:
„„camera da letto“ (Substantiv + Präposition + Substantiv)camera da letto“ (Substantiv + Präposition + Substantiv)„„treno notte“ (Substantiv + Substantiv)treno notte“ (Substantiv + Substantiv)
→ → Komposita aus einer Wortform wurden als Simplizia im Lexikon Komposita aus einer Wortform wurden als Simplizia im Lexikon belassenbelassen
16.05.2007 Carsten Weber
Reduzierung des LexikonsReduzierung des Lexikons
JSLIM „fischt“ Analysen mit dem Befehl -cmp, die sowohl JSLIM „fischt“ Analysen mit dem Befehl -cmp, die sowohl Simplizia als auch Derivata sind Simplizia als auch Derivata sind
Analysetool Analysetool LexiconFilter LexiconFilter kann im Anschluss ein kann im Anschluss ein semantisches Lexikon von einem Allolexikon trennensemantisches Lexikon von einem Allolexikon trennen
Beispiel „speranza“: steht als Simplizia „speranza“ im Beispiel „speranza“: steht als Simplizia „speranza“ im Substantivlexikon und wird auch durch regelbasierte Substantivlexikon und wird auch durch regelbasierte Konkatenation mit „sper|anz|a“ gebildet. Die Simplizia Konkatenation mit „sper|anz|a“ gebildet. Die Simplizia können somit herausgefiltert werdenkönnen somit herausgefiltert werden
→ → Es bleiben nur noch regelbasierte Lexikoneinträge Es bleiben nur noch regelbasierte Lexikoneinträge stehen, dadurch gesteigerte Effizienzstehen, dadurch gesteigerte Effizienz
16.05.2007 Carsten Weber
KorpusanalysenKorpusanalysen
Tests an Type- und Tokenlisten des CoLFISTests an Type- und Tokenlisten des CoLFIS
Analysen der Typeliste wurden ausführlich nach Fehlern Analysen der Typeliste wurden ausführlich nach Fehlern durchsucht und sukzessive verbessert. durchsucht und sukzessive verbessert. → → Steigerung der Worterkennungsrate um über 3%Steigerung der Worterkennungsrate um über 3%
Als Abschluss wurde die Tokenliste mit 3 988 463 Als Abschluss wurde die Tokenliste mit 3 988 463 laufenden Wortformen analysiertlaufenden Wortformen analysiert
16.05.2007 Carsten Weber
Korpusanalysen: ErgebnisseKorpusanalysen: Ergebnisse
TypelisteTypeliste Mit Hapax Legomena: 96,52% Mit Hapax Legomena: 96,52% Ohne Hapax Legomena: 99,16%Ohne Hapax Legomena: 99,16%
TokenlisteTokenliste Mit Hapax Legomena: 99,85%Mit Hapax Legomena: 99,85% Ohne Hapax Legomena: 99,94%Ohne Hapax Legomena: 99,94%