kapitel 14 worte - hhu · 2010. 7. 8. · hhu düsseldorf, ws 2008/09 information retrieval 217 14....
TRANSCRIPT
HHU Düsseldorf, WS 2008/09 Information Retrieval 216
Kapitel 14
Worte
HHU Düsseldorf, WS 2008/09 Information Retrieval 217
14. Worte
Schriftsystemerkennung– Zeichensätze erkennen: falls Unicode eingesetzt wird,
kein Problem– wenn nicht: automatische Schriftsystemerkennung– Vergleich der Zeichenverteilung eines Textes mit
(bekannten) Zeichenverteilungen von Schriftsystemen– Feststellung der Leserichtung (von links nach rechts
und umgekehrt; Umkehr der Leserichtung im Text)
2 1
HHU Düsseldorf, WS 2008/09 Information Retrieval 218
14. Worte
Spracherkennung– Ansatz 1: Mustertypen
typische Buchstabenkombinationen, typische Sonderzeichen
• ery_ : englisch• eux_ : französisch• _der_ : deutsch• lj : serbo-kroatisch• cchi : italienisch• ¿ : spanisch• Å : schwedisch
– wenig sicher
HHU Düsseldorf, WS 2008/09 Information Retrieval 219
14. Worte
– Ansatz 2: WortverteilungenSpracherkennung auf Satzebene
• Erstellung von Wortlisten nebst Auftretenswahrscheinlichkeiten für Sprachen
• Satz: Zählen der Auftretenshäufigkeit der Worte im Satz; Multiplikation mit Auftretenswahrscheinlichkeiten aller Sprachen, Werte summieren
• „gewonnen“ hat die Sprache mit dem höchsten WertMcNamee, P. (2005): Language identification: A solved problem suitable for undergraduate instruction. –
In: Journal of Computing Sciences in Colleges 20(3), S. 94-101.
HHU Düsseldorf, WS 2008/09 Information Retrieval 220
14. Worte
– Ansatz 3: n-GrammeAcquaintance
• erstellen: Zentroiden für Sprachen• Dokument in n-Gramme parsen (diesmal Zentroiden nicht
abziehen), Cosinus zwischen Dokumentvektor und Sprach-zentroiden errechnen
• auf Rang 1 liegt die wahrscheinlichste Sprache
Damashek, M. (1995): Gauging similarity with N-grams: Language-independent categorization of text. –In: Science 267, S. 843-848.
HHU Düsseldorf, WS 2008/09 Information Retrieval 221
14. Worte
Exkurs: Automatisches Gruppieren von Sprachen nach dem Cosinus der Sprachzentroiden (von Marc Damashek)
HHU Düsseldorf, WS 2008/09 Information Retrieval 222
14. Worte
Stoppworte:– Wort, das die gleiche Wahrscheinlichkeit hat, in einem
relevanten sowie in einem nicht-relevanten Dokument vorzukommen, „non-content word“
– Elimination von Stoppworten ist wenig sinnvoll:• bei gewissen Phrasen werden sie benötigt: „to be or not to
be“• u.U. wird gezielt nach Stoppworten gesucht: „Studien zum
englischen Hilfsverb ‚to be‘“• Pronomina sind eigentlich Stoppworte. Sie werden aber
(theoretisch) bei der Informationsstatistik benötigt.
– deshalb: Stoppworte markieren und von „normaler“Suche ausschließen. Wenn Nutzer will, jedoch berücksichtigen (Google: +-Funktor)
HHU Düsseldorf, WS 2008/09 Information Retrieval 223
14. Worte
Stoppwortliste als Negativliste: 1. Allgemeine Stoppworte– häufig in einer Sprache vorkommende Worte (Fox: mehr als
300mal im Brown-Corpus enthalten)– Worte intellektuell aus Liste entfernen (z.B. business, family)– weitere Worte intellektuell in Liste einfügen: „extra fluff words“
(z.B. above [296mal im Brown-Corpus])– Zusatzliste „nearly free words“: Flexionsformen bereits in der
Liste enthaltener Worte– überlegenswert (nicht von Fox): gewisse Wortarten
(Substantive, Adjektive, substantivierte Verben) bevorzugen; alle anderen in allgemeine Stoppwortliste
Fox, C. (1989): A stop list for general text. – In: ACM SIGIR Forum 24(1-2), S. 19-35.
HHU Düsseldorf, WS 2008/09 Information Retrieval 224
14. Worte
2. Domänspezifische Stoppworte– spezielle Stoppworte in bestimmten fachlichen
Zusammenhängennur solche Worte zulassen, die facheinschlägig sind; alle anderen in Stoppwortliste
3. Dokumentspezifische Stoppworte– beim Suchen nach bestpassenden Stellen innerhalb
eines Dokuments– manche Terme sind durchaus geeignet, einen Artikel als
Ganzes zu finden, aber nicht, die beste Stelle zu markieren
– Methode: Terme, die im Dokument häufig auftreten unddie im Text gleichmäßig verteilt sind, sind (für genau dieses Dokument) Stoppworte
HHU Düsseldorf, WS 2008/09 Information Retrieval 225
14. Worte
Conflation (Verschmelzung von Wortformen)Reduktionsformen
1. Wortstamm 2. Grundform Stemming Lemmatisierung
Ausgangswort: RETRIEVED
RETRIEV RETRIEVAL
Wortstammbildung durch Grundformbildung durchAbtrennen (oder Zufügen) Vergleich mit Wörterbuchvon Buchstaben (ggf. alternativ: nach nach gewissen Regeln gewissen Regeln)
HHU Düsseldorf, WS 2008/09 Information Retrieval 226
14. Worte
Grundformbildung / LemmatisierungVariante 1: regelgeleitet. Der S-Lemmatisierer für das Englische
• Wortform hat 3 Buchstaben oder weniger: Verfahren beenden• Wortform endet auf IES (aber nicht EIES oder AIES): ersetze
IES durch Y• Wortform endet auf ES (aber nicht AES, EES oder OES): ersetze
ES durch E• Wortform endet auf S (aber nicht US oder SS): lösche S
Harman, D. (1991): How effective is suffixing? –In: Journal of the American Society for Information Science 42, S. 7-15.
HHU Düsseldorf, WS 2008/09 Information Retrieval 227
14. Worte
Grundformbildung / LemmatisierungVariante 2: wörterbuchbasiert
• Voraussetzung: Lexikon der jeweiligen Sprache ist vorhanden• Oberfläche: Wortform (Bsp.: BÜCHERN)• Kategorisierung: Wortart und morphosyntaktische Eigenschaft
(Bsp.: Substantiv – Dativ Plural)• Grundform nachschlagen (Bsp.: BUCH)
Hausser, R. (1998): Drei prinzipielle Methoden der automatischen Wortformerkennung. –In: Sprache und Datenverarbeitung 22(2), S. 38-57.
HHU Düsseldorf, WS 2008/09 Information Retrieval 228
14. Worte
Beispiel: Morphologische Analyse bei IDX• IDX (Fa. Softex)
• baut auf PRIMUS auf (Rechtschreibwörterbuch)
• eingesetzt bei– MILOS / KASCADE
(ULB Düsseldorf)
– dpa
• ursprünglich entwickelt von Harald H. Zimmermann (Universität des Saarlandes)
H.H.ZimmermannLepsky, K. (1994): Maschinelle Indexierung von Titelaufnahmen zur Verbesserung der sachlichen Erschließung in
Online-Publikumskatalogen. – Köln: Greven. – (Kölner Arbeiten zum Bibliotheks- und Dokumentations-wesen; 18)
HHU Düsseldorf, WS 2008/09 Information Retrieval 229
14. Worte
Funktionalität von IDX– Grundformbildung– Elimination von (gewissen) Funktionsworten als Stoppworte– Kompositazerlegung– Derivation– Zusammenfügen diskontinuierlicher Verbalgruppenteile
(„ging ... weg“ – „weggehen“)– Erkennung fester Wendungen „steht ... zur Verfügung“ –
„zur Verfügung stehen“)– Auflösen von Auslassungstilden („Haus- und Hofwirtschaft“
– „Hauswirtschaft“)– Synonyme („Samstag“ – „Sonnabend“)
HHU Düsseldorf, WS 2008/09 Information Retrieval 230
14. Worte
<10> Grundform Adjektiv< 6> Grundform Substantiv – falsch:23: Dekomposition:23t: hinterer Wortteil:4: Derivation von <6> auf <5> (Verb)<0> Stoppwort :4: Derivation von <7> auf <10>:103: unzulässige Dekomposition
(bleibt unberücksichtigt)
Quelle: Lepsky 1994, 69
HHU Düsseldorf, WS 2008/09 Information Retrieval 231
14. Worte
Wortstammbildung / StemmingBefreien der Wortformen von ihren Suffixen (nicht von den Präfixen). Variante 1: Longest-Match-Stemmer(Lovins-Stemmer)
• Abtrennen der jeweils längsten zutreffenden Endung (Voraussetzung: Liste aller Endungen)
• Folgen spezifischer Regeln zur Abtrennung• Folgen von Regeln zur Re-Kodierung
Lovins, J.B. (1968): Development of a stemming algorithm. –In: Mechanical Translation and Computational Linguistics 11(1-2), S. 22-31.
HHU Düsseldorf, WS 2008/09 Information Retrieval 232
14. Worte
Longest-Match-Stemmer (Lovins-Stemmer)Regeln (Bsp.): B : Stamm muss mind. 3 Zeichen haben
C : Stamm muss mind. 4 Zeichen habenE : nach E nicht abschneiden
HHU Düsseldorf, WS 2008/09 Information Retrieval 233
14. Worte
Longest-Match-Stemmer (Lovins-Stemmer)Re-KodierungRegeln (Bsp.): doppelte Konsonanten auf einen reduzieren
RPT durch RB ersetzen
Input Longest-Match-Stamm re-kodierter Stamm
metal metal metalmetallic metall metal
absorbing absorb absorbabsorption absorpt absorb
HHU Düsseldorf, WS 2008/09 Information Retrieval 234
14. Worte
Wortstammbildung (stemming)Variante 2: iterativer Stemmer (Porter-Algorithmus)Abk.: C Konsonant: alles außer A, E, I, O, U; Y nur dann, wenn nicht
nach Konsonant (wie in Toy)V VokalCCC, ... sei CVVV, ... sei V[C]VCVC...[V] (allgemeine Form)(VC){m}(V) Anzahl der VC = m in einem Wort Bsp.: m=0 : tree, by
m=1 : trouble, treesm=2 : troubles, private
Porter, M.E. (1980): An algorithm for suffix stripping.- In: Program 14(39, 130-137.
HHU Düsseldorf, WS 2008/09 Information Retrieval 235
14. Worte
Porter-AlgorithmusRegel: (Bedingung) S1 S2: falls ein Wort mit dem Suffix S1 endet und der
Stamm vor S1 die Bedingung erfüllt, dann wird S1 durch S2 ersetztdie Bedingung wird durch m definiert; etwa: (m > 1)
Bsp.: (m>1) EMENT _S1 = EMENT; S2 = NullREPLACEMENT REPLAC
*S der Stamm endet mit „S“*V* der Stamm enthält einen Vokal*d der Stamm endet mit einem Doppelkonsonant (etwa: -TT, -SS)and, or, not : Kombinationen von Bedingungen
bei mehreren Regeln in einem Schritt: nur eine anwenden, und zwar die mit dem „longest match“
HHU Düsseldorf, WS 2008/09 Information Retrieval 236
14. Worte
Porter-Algorithmus
Beispiel:Schritt 1
(insgesamt 5 Iterationsrunden)
HHU Düsseldorf, WS 2008/09 Information Retrieval 237
14. Worte
Wortbearbeitung bei Handy-EingabenNutzerseitiger Einsatz bei QWERTZ (QWERTY)-Tastaturen: mehr als 27 Zeichenbei Nutzung eines Mobiltelefons: 9 ZeichenIR mittels Handy:
1. Übersetzung der Ziffern 2 bis 9 in Worte (O: Leertaste)1. mit Mehrfachanschlägen2. mit Worterkennungssoftware (z.B. T9 von Tegic; Wörterbuch mit
Wortstämmen und Nutzungshäufigkeiten der Wortfragmente)
2. Arbeiten mit den Ziffern selbst (dabei: invertierte Datei ebenfalls in Ziffern ausdrücken; Google-Methode)
King, M.T.; Grover, D.L.; Kushler, C.A.; Grunbock, C.A. (1997): System zur Reduzierung der Vieldeutigkeit einer eingeschränkten Tastatur. Patent-Nr. DE 69808498 T2. – Patentinhaber: Tegic Communications. – Priorität: 24.1.1997.
Smith, B.T.; Brin, S.; Ghemawat, S.; Manning, C.D. (2000): Method and apparatus for using a modified index to provide search results in response to an ambiguous search query. Patent-Nr. US 6.529.903. –
Patentinhaber: Google, Inc. – Erteilt am: 4.3.2003. – (Eingereicht am 26.12.2000).