3. wissensrepräsentation für texte - uni-due.de · 2011. 11. 3. · 3....
TRANSCRIPT
3. Wissensrepräsentation für Texte 1
3. Wissensrepräsentation für Texte
Norbert Fuhr
Problemstellung
3. Wissensrepräsentation für Texte 3Problemstellung
ProblemstellungRepräsentation von Textinhalten:
Problem: Konzepte aus der Anfrage können im Text aufunterschiedlichste Weise formuliert werden
Lösungsansätze
Freitextsuche
informatischer Ansatz: Textretrieval alsZeichenkettensuche
computerlinguistischer Ansatz: i.w. Normalisierungvon Wortformen
semantischer Ansatz Zuordnung von Deskriptionen zu Texten →Dokumentationssprachen
3. Wissensrepräsentation für Texte 3Problemstellung
ProblemstellungRepräsentation von Textinhalten:
Problem: Konzepte aus der Anfrage können im Text aufunterschiedlichste Weise formuliert werden
LösungsansätzeFreitextsuche
informatischer Ansatz: Textretrieval alsZeichenkettensuche
computerlinguistischer Ansatz: i.w. Normalisierungvon Wortformen
semantischer Ansatz Zuordnung von Deskriptionen zu Texten →Dokumentationssprachen
3. Wissensrepräsentation für Texte 3Problemstellung
ProblemstellungRepräsentation von Textinhalten:
Problem: Konzepte aus der Anfrage können im Text aufunterschiedlichste Weise formuliert werden
LösungsansätzeFreitextsuche
informatischer Ansatz: Textretrieval alsZeichenkettensuche
computerlinguistischer Ansatz: i.w. Normalisierungvon Wortformen
semantischer Ansatz Zuordnung von Deskriptionen zu Texten →Dokumentationssprachen
3. Wissensrepräsentation für Texte 3Problemstellung
ProblemstellungRepräsentation von Textinhalten:
Problem: Konzepte aus der Anfrage können im Text aufunterschiedlichste Weise formuliert werden
LösungsansätzeFreitextsuche
informatischer Ansatz: Textretrieval alsZeichenkettensuche
computerlinguistischer Ansatz: i.w. Normalisierungvon Wortformen
semantischer Ansatz Zuordnung von Deskriptionen zu Texten →Dokumentationssprachen
3. Wissensrepräsentation für Texte 3Problemstellung
ProblemstellungRepräsentation von Textinhalten:
Problem: Konzepte aus der Anfrage können im Text aufunterschiedlichste Weise formuliert werden
LösungsansätzeFreitextsuche
informatischer Ansatz: Textretrieval alsZeichenkettensuche
computerlinguistischer Ansatz: i.w. Normalisierungvon Wortformen
semantischer Ansatz Zuordnung von Deskriptionen zu Texten →Dokumentationssprachen
Freitextsuche
TerminologieInformatischer AnsatzComputerlinguistischer Ansatz
Graphematische VerfahrenLexikalische VerfahrenSyntaktische Verfahren
3. Wissensrepräsentation für Texte 5FreitextsucheTerminologie
Freitextsuche ITerminologie
Token: einzelnes Wort im laufenden Text
Type: einzelnes Wort des Vokabulars
Morphem: kleinste bedeutungstragende Einheit in einem Wort,z.B. Blend-e, lauf-en,
Flexion: Deklination, Konjugation und Komparation vonWörtern
Grundform: unflektierte Wortform; für Nomen ist es derNominativ Singular, für Verben der Infinitv, für Adjektive dieungesteigerte Form (Positiv).
Derivation: Wortbildung aus dem Wortstamm mit Hilfe vonPräfixen und Suffixen, z.B. haus: Haus – häuslich – aushäusig,
3. Wissensrepräsentation für Texte 6FreitextsucheTerminologie
Freitextsuche IITerminologie
Stammform: (genauer: Derivationsstammform), das derDerivation zugrunde liegende lexikalische Morphem
Kompositum: Bildung eines komplexen Wortes, das ausmindestens zwei Morphemen besteht, die sonst alsselbstständige Wörter vorkommen, z.B. Dampfschiff,schreibfaul, strapazierfähig
Nominalphrase: Wortgruppe im Satz, die ein Nomen alsBezugswort hat, z.B. “Wahl des Bundeskanzlers“
3. Wissensrepräsentation für Texte 7FreitextsucheTerminologie
Vorprozessierung
TextbereinigungEntfernen von Markup und Trennungszeichen
Zerlegung von Texten in Wörter (Tokenization)einfach bei westlichen Sprachen: Leer- undInterpunktionszeichen als Separatorenschwierig bei manchen asiatischen Sprachen: keine explizitenWortseparatoren
Stoppworteliminierung:Stoppworte = Wörter, die nicht bedeutungstragend sind(Artikel, Konjunktionen, Präpositionen, Hilfsverben)machen bis zu 50% der Token aus → Effizienzgewinn durchNichtberücksichtigungkönnen aber in Verbindung mit anderen Wörtern wichtig sein,z.B. ’vitamin A’ im Englischen
Satzendeerkennungfür linguistische Analyse und “Suche im selben Satz“ (s.u.)Problem: Unterscheidung zwischen Abkürzungs-undSatzendepunkten
3. Wissensrepräsentation für Texte 8FreitextsucheTerminologie
Probleme bei der Freitextsuche
Homographen und PolysemeTenor: Sänger / AusdrucksweiseBank: Sitzgelegenheit / Geldinstitut
SynonymeBanken / Sparkassen / GeldinstituteFlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschriebenDerivationsformenFormatierung – Format – formatierenKomposita (zusammengesetzte Wörter)Donaudampfschiffahrtsgesellschaftskapitän BundeskanzlerwahlNominalphrasen Wahl des Bundeskanzlersinformation retrieval – retrieval of information – informationwas retrieved
3. Wissensrepräsentation für Texte 8FreitextsucheTerminologie
Probleme bei der Freitextsuche
Homographen und PolysemeTenor: Sänger / AusdrucksweiseBank: Sitzgelegenheit / GeldinstitutSynonymeBanken / Sparkassen / Geldinstitute
FlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschriebenDerivationsformenFormatierung – Format – formatierenKomposita (zusammengesetzte Wörter)Donaudampfschiffahrtsgesellschaftskapitän BundeskanzlerwahlNominalphrasen Wahl des Bundeskanzlersinformation retrieval – retrieval of information – informationwas retrieved
3. Wissensrepräsentation für Texte 8FreitextsucheTerminologie
Probleme bei der Freitextsuche
Homographen und PolysemeTenor: Sänger / AusdrucksweiseBank: Sitzgelegenheit / GeldinstitutSynonymeBanken / Sparkassen / GeldinstituteFlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschrieben
DerivationsformenFormatierung – Format – formatierenKomposita (zusammengesetzte Wörter)Donaudampfschiffahrtsgesellschaftskapitän BundeskanzlerwahlNominalphrasen Wahl des Bundeskanzlersinformation retrieval – retrieval of information – informationwas retrieved
3. Wissensrepräsentation für Texte 8FreitextsucheTerminologie
Probleme bei der Freitextsuche
Homographen und PolysemeTenor: Sänger / AusdrucksweiseBank: Sitzgelegenheit / GeldinstitutSynonymeBanken / Sparkassen / GeldinstituteFlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschriebenDerivationsformenFormatierung – Format – formatieren
Komposita (zusammengesetzte Wörter)Donaudampfschiffahrtsgesellschaftskapitän BundeskanzlerwahlNominalphrasen Wahl des Bundeskanzlersinformation retrieval – retrieval of information – informationwas retrieved
3. Wissensrepräsentation für Texte 8FreitextsucheTerminologie
Probleme bei der Freitextsuche
Homographen und PolysemeTenor: Sänger / AusdrucksweiseBank: Sitzgelegenheit / GeldinstitutSynonymeBanken / Sparkassen / GeldinstituteFlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschriebenDerivationsformenFormatierung – Format – formatierenKomposita (zusammengesetzte Wörter)Donaudampfschiffahrtsgesellschaftskapitän Bundeskanzlerwahl
Nominalphrasen Wahl des Bundeskanzlersinformation retrieval – retrieval of information – informationwas retrieved
3. Wissensrepräsentation für Texte 8FreitextsucheTerminologie
Probleme bei der Freitextsuche
Homographen und PolysemeTenor: Sänger / AusdrucksweiseBank: Sitzgelegenheit / GeldinstitutSynonymeBanken / Sparkassen / GeldinstituteFlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschriebenDerivationsformenFormatierung – Format – formatierenKomposita (zusammengesetzte Wörter)Donaudampfschiffahrtsgesellschaftskapitän BundeskanzlerwahlNominalphrasen Wahl des Bundeskanzlersinformation retrieval – retrieval of information – informationwas retrieved
3. Wissensrepräsentation für Texte 9FreitextsucheTerminologie
Probleme bei der Freitextsuche (2)
Das generelle Formulierungs-Problem bleibt ungelöst!
selbsttätig aktivierendes Personen-Rückhaltesystem für Fahrzeuge
Die Fürsorge umfasst den lebenden Menschen einschließlich derAbwicklung des gelebt habenden Menschen.
Ein Bürger soll „das Restmüllbehältervolumen entsprechend derMenge des tatsächlich regelmäßig anfallenden Abfalls von bisher 80auf 120 Liter Gesamtvolumen erhöhen“
3. Wissensrepräsentation für Texte 9FreitextsucheTerminologie
Probleme bei der Freitextsuche (2)
Das generelle Formulierungs-Problem bleibt ungelöst!
selbsttätig aktivierendes Personen-Rückhaltesystem für Fahrzeuge
Die Fürsorge umfasst den lebenden Menschen einschließlich derAbwicklung des gelebt habenden Menschen.
Ein Bürger soll „das Restmüllbehältervolumen entsprechend derMenge des tatsächlich regelmäßig anfallenden Abfalls von bisher 80auf 120 Liter Gesamtvolumen erhöhen“
3. Wissensrepräsentation für Texte 9FreitextsucheTerminologie
Probleme bei der Freitextsuche (2)
Das generelle Formulierungs-Problem bleibt ungelöst!
selbsttätig aktivierendes Personen-Rückhaltesystem für Fahrzeuge
Die Fürsorge umfasst den lebenden Menschen einschließlich derAbwicklung des gelebt habenden Menschen.
Ein Bürger soll „das Restmüllbehältervolumen entsprechend derMenge des tatsächlich regelmäßig anfallenden Abfalls von bisher 80auf 120 Liter Gesamtvolumen erhöhen“
3. Wissensrepräsentation für Texte 9FreitextsucheTerminologie
Probleme bei der Freitextsuche (2)
Das generelle Formulierungs-Problem bleibt ungelöst!
selbsttätig aktivierendes Personen-Rückhaltesystem für Fahrzeuge
Die Fürsorge umfasst den lebenden Menschen einschließlich derAbwicklung des gelebt habenden Menschen.
Ein Bürger soll „das Restmüllbehältervolumen entsprechend derMenge des tatsächlich regelmäßig anfallenden Abfalls von bisher 80auf 120 Liter Gesamtvolumen erhöhen“
3. Wissensrepräsentation für Texte 10FreitextsucheInformatischer Ansatz
Informatischer Ansatz
Zeichenketten-Operatoren für die Freitextsuche
TruncationFront-/End-Truncation,beschränkt ($) / unbeschränkt(#)schreib#: schreiben, schreibt, schreibst, schreibeschreib$$: schreiben, schreibst#schreiben: schreiben, beschreiben, anschreiben, verschreiben$$schreiben: beschreiben, anschreiben(Mitten-)Maskierungdo$umentation: documentation, Dokumentationschr$$b#: schreiben, schrieb / schrauben
3. Wissensrepräsentation für Texte 10FreitextsucheInformatischer Ansatz
Informatischer Ansatz
Zeichenketten-Operatoren für die FreitextsucheTruncationFront-/End-Truncation,beschränkt ($) / unbeschränkt(#)schreib#: schreiben, schreibt, schreibst, schreibeschreib$$: schreiben, schreibst#schreiben: schreiben, beschreiben, anschreiben, verschreiben$$schreiben: beschreiben, anschreiben
(Mitten-)Maskierungdo$umentation: documentation, Dokumentationschr$$b#: schreiben, schrieb / schrauben
3. Wissensrepräsentation für Texte 10FreitextsucheInformatischer Ansatz
Informatischer Ansatz
Zeichenketten-Operatoren für die FreitextsucheTruncationFront-/End-Truncation,beschränkt ($) / unbeschränkt(#)schreib#: schreiben, schreibt, schreibst, schreibeschreib$$: schreiben, schreibst#schreiben: schreiben, beschreiben, anschreiben, verschreiben$$schreiben: beschreiben, anschreiben(Mitten-)Maskierungdo$umentation: documentation, Dokumentationschr$$b#: schreiben, schrieb / schrauben
3. Wissensrepräsentation für Texte 11FreitextsucheInformatischer Ansatz
Truncation und Maskierung dienen dazu, Flexions- undDerivationsformen von Wörtern zusammenzuführen(auch für Komposita geeignet)
Vorteil: weniger Schreibarbeit als beim expliziten AufzählenNachteil: möglicherweise unerwünschte Wörter dabei
3. Wissensrepräsentation für Texte 11FreitextsucheInformatischer Ansatz
Truncation und Maskierung dienen dazu, Flexions- undDerivationsformen von Wörtern zusammenzuführen(auch für Komposita geeignet)
Vorteil: weniger Schreibarbeit als beim expliziten AufzählenNachteil: möglicherweise unerwünschte Wörter dabei
3. Wissensrepräsentation für Texte 12FreitextsucheInformatischer Ansatz
Kontextoperatoren
zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen)information AND retrieval:boolesche Operatoren beziehen sich nur auf das Vorkommenirgendwo im Text!
genauer Wortabstand ($):retrieval $ information: retrieval of information, retrieval withinformation lossmaximaler Wortabstand (#):text # # retrieval: text retrieval, text and fact retrievalWortreihenfolge (,):information # , retrieval: information retrieval, retrieval ofinformationgleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .
3. Wissensrepräsentation für Texte 12FreitextsucheInformatischer Ansatz
Kontextoperatoren
zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen)information AND retrieval:boolesche Operatoren beziehen sich nur auf das Vorkommenirgendwo im Text!
genauer Wortabstand ($):retrieval $ information: retrieval of information, retrieval withinformation loss
maximaler Wortabstand (#):text # # retrieval: text retrieval, text and fact retrievalWortreihenfolge (,):information # , retrieval: information retrieval, retrieval ofinformationgleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .
3. Wissensrepräsentation für Texte 12FreitextsucheInformatischer Ansatz
Kontextoperatoren
zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen)information AND retrieval:boolesche Operatoren beziehen sich nur auf das Vorkommenirgendwo im Text!
genauer Wortabstand ($):retrieval $ information: retrieval of information, retrieval withinformation lossmaximaler Wortabstand (#):text # # retrieval: text retrieval, text and fact retrieval
Wortreihenfolge (,):information # , retrieval: information retrieval, retrieval ofinformationgleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .
3. Wissensrepräsentation für Texte 12FreitextsucheInformatischer Ansatz
Kontextoperatoren
zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen)information AND retrieval:boolesche Operatoren beziehen sich nur auf das Vorkommenirgendwo im Text!
genauer Wortabstand ($):retrieval $ information: retrieval of information, retrieval withinformation lossmaximaler Wortabstand (#):text # # retrieval: text retrieval, text and fact retrievalWortreihenfolge (,):information # , retrieval: information retrieval, retrieval ofinformation
gleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .
3. Wissensrepräsentation für Texte 12FreitextsucheInformatischer Ansatz
Kontextoperatoren
zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen)information AND retrieval:boolesche Operatoren beziehen sich nur auf das Vorkommenirgendwo im Text!
genauer Wortabstand ($):retrieval $ information: retrieval of information, retrieval withinformation lossmaximaler Wortabstand (#):text # # retrieval: text retrieval, text and fact retrievalWortreihenfolge (,):information # , retrieval: information retrieval, retrieval ofinformationgleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .
3. Wissensrepräsentation für Texte 13FreitextsucheComputerlinguistischer Ansatz
Computerlinguistischer Ansatz
Arten von Verfahren:graphematische Verfahren auf der Analyse von Buchstabenfolgen
basierende Algorithmen, hauptsächlich zurZusammenführung von Flexions- oderDerivationsformen (Morphologie)
lexikalische Verfahren Wörterbuch-basierte Verfahren zurZusammenführung von Flexions- oderDerivationsformen sowie von mehrgliedrigenAusdrücken
syntaktische Verfahren zur Identifikation von mehrgliedrigenAusdrücken
3. Wissensrepräsentation für Texte 13FreitextsucheComputerlinguistischer Ansatz
Computerlinguistischer Ansatz
Arten von Verfahren:graphematische Verfahren auf der Analyse von Buchstabenfolgen
basierende Algorithmen, hauptsächlich zurZusammenführung von Flexions- oderDerivationsformen (Morphologie)
lexikalische Verfahren Wörterbuch-basierte Verfahren zurZusammenführung von Flexions- oderDerivationsformen sowie von mehrgliedrigenAusdrücken
syntaktische Verfahren zur Identifikation von mehrgliedrigenAusdrücken
3. Wissensrepräsentation für Texte 13FreitextsucheComputerlinguistischer Ansatz
Computerlinguistischer Ansatz
Arten von Verfahren:graphematische Verfahren auf der Analyse von Buchstabenfolgen
basierende Algorithmen, hauptsächlich zurZusammenführung von Flexions- oderDerivationsformen (Morphologie)
lexikalische Verfahren Wörterbuch-basierte Verfahren zurZusammenführung von Flexions- oderDerivationsformen sowie von mehrgliedrigenAusdrücken
syntaktische Verfahren zur Identifikation von mehrgliedrigenAusdrücken
3. Wissensrepräsentation für Texte 14FreitextsucheComputerlinguistischer Ansatz
Graphematische Verfahren
(für die englische Sprache)GrundformreduktionZurückführen auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im Infinitiv
lexikographische Grundformentsteht durch Abtrennen der Flexionsendung und ggfs.Rekodierungapplies → appl → applyformale Grundformnur Abtrennen von Endungen, ohne Rekodierungactivities → activit
StammformreduktionEntfernen der Derivationsendungen, d.h. Zurückführen auf denWortstammcomputer, compute, computation, computerization → comput
3. Wissensrepräsentation für Texte 14FreitextsucheComputerlinguistischer Ansatz
Graphematische Verfahren
(für die englische Sprache)GrundformreduktionZurückführen auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im Infinitiv
lexikographische Grundformentsteht durch Abtrennen der Flexionsendung und ggfs.Rekodierungapplies → appl → apply
formale Grundformnur Abtrennen von Endungen, ohne Rekodierungactivities → activit
StammformreduktionEntfernen der Derivationsendungen, d.h. Zurückführen auf denWortstammcomputer, compute, computation, computerization → comput
3. Wissensrepräsentation für Texte 14FreitextsucheComputerlinguistischer Ansatz
Graphematische Verfahren
(für die englische Sprache)GrundformreduktionZurückführen auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im Infinitiv
lexikographische Grundformentsteht durch Abtrennen der Flexionsendung und ggfs.Rekodierungapplies → appl → applyformale Grundformnur Abtrennen von Endungen, ohne Rekodierungactivities → activit
StammformreduktionEntfernen der Derivationsendungen, d.h. Zurückführen auf denWortstammcomputer, compute, computation, computerization → comput
3. Wissensrepräsentation für Texte 14FreitextsucheComputerlinguistischer Ansatz
Graphematische Verfahren
(für die englische Sprache)GrundformreduktionZurückführen auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im Infinitiv
lexikographische Grundformentsteht durch Abtrennen der Flexionsendung und ggfs.Rekodierungapplies → appl → applyformale Grundformnur Abtrennen von Endungen, ohne Rekodierungactivities → activit
StammformreduktionEntfernen der Derivationsendungen, d.h. Zurückführen auf denWortstammcomputer, compute, computation, computerization → comput
3. Wissensrepräsentation für Texte 15FreitextsucheComputerlinguistischer Ansatz
Lexikographische Grundformreduktion
(nach Kuhlen 77)
% alle Vokale (einschließlich Y)∗ alle Konsonanten/ ,oder’6B Leerzeichen→ ,zu’← ,aus’¬ ,nicht’
3. Wissensrepräsentation für Texte 16FreitextsucheComputerlinguistischer Ansatz
1) IES → Y2) ES → 6B wenn ∗O / CH / SH / SS / ZZ / X
vorangehen3) S → 6B wenn ∗ / E / %Y / %O / OA / EA vorangehen4) S’ → 6B
IES’ → YES’ → 6B
5) ’S → 6B’ → 6B
6) ING → 6B wenn ∗∗ / % / X vorausgehenING → E wenn %∗ vorausgehen
7) IED → Y8) ED → 6B wenn ∗∗ / % / X vorausgehen
ED → E wenn %∗ vorausgehen
3. Wissensrepräsentation für Texte 17FreitextsucheComputerlinguistischer Ansatz
Regel 1 IES → Y
Beispiele zu 1:APPLIES → APPLYIDENTIFIES → IDENTIFYACTIVITIES → ACTIVITY
3. Wissensrepräsentation für Texte 18FreitextsucheComputerlinguistischer Ansatz
Regel 2 ES → 6B, wenn ∗O / CH / SH / SS / ZZ /X vorangehen
Beispiele zu 2:BREACHES → BREACHPROCESSES → PROCESSFISHES → FISHCOMPLEXES → COMPLEXTANGOES → TANGOBUZZES → BUZZ
3. Wissensrepräsentation für Texte 19FreitextsucheComputerlinguistischer Ansatz
Regel 3 S → 6B, wenn ∗ / E / %Y / %O / OA /EA vorangehen
Beispiele zu 3:METHODS → METHODHOUSES → HOUSEBOYS → BOYRADIOS → RADIOCOCOAS → COCOAFLEAS → FLEA
3. Wissensrepräsentation für Texte 20FreitextsucheComputerlinguistischer Ansatz
Regel 4 S’ → 6BIES’ → YES’ → 6B
Beispiele zu 4:MOTHERS’ → MOTHERLADIES’ → LADYFLAMINGOES’ → FLAMINGO
3. Wissensrepräsentation für Texte 21FreitextsucheComputerlinguistischer Ansatz
Regel 5 ’S → 6B’ → 6B
Beispiele zu 5:MOTHER’S → MOTHERCHILDREN’S → CHILDRENPETRUS’ → PETRUS
3. Wissensrepräsentation für Texte 22FreitextsucheComputerlinguistischer Ansatz
Regel 6 ING → 6B, wenn ∗∗ / % / X vorausgehenING → E, wenn %∗ vorausgehen
Beispiele zu 6:DISGUSTING → DISGUSTGOING → GOMIXING → MIXLOOSING → LOOSERETRIEVING → RETRIEVE
3. Wissensrepräsentation für Texte 23FreitextsucheComputerlinguistischer Ansatz
Regel 7 IED → Y
Beispiel zu 7:SATISFIED → SATISFY
Regel 8 ED → 6B, wenn ∗∗ / % / X vorausgehenED → E, wenn %∗ vorausgehen
Beispiel zu 8:DISGUSTED → DISGUSTOBEYED → OBEYMIXED → MIXBELIEVED → BELIEVE
3. Wissensrepräsentation für Texte 23FreitextsucheComputerlinguistischer Ansatz
Regel 7 IED → Y
Beispiel zu 7:SATISFIED → SATISFY
Regel 8 ED → 6B, wenn ∗∗ / % / X vorausgehenED → E, wenn %∗ vorausgehen
Beispiel zu 8:DISGUSTED → DISGUSTOBEYED → OBEYMIXED → MIXBELIEVED → BELIEVE
3. Wissensrepräsentation für Texte 24FreitextsucheComputerlinguistischer Ansatz
Lexikalische Verfahren
besonders für stark flektierte Sprachen (z.B. deutsch) geeignet
Relationen im Wörterbuch:Flexionsform (Vollformen) — zugehörige GrundformHauses - Haus, ging - gehen
Derivationsform — zugehörige GrundformenLieblosigkeit — lieblos, Berechnung — rechnenKomposita — zugehörige DekompositionHaustür — Tür, Armbanduhr — Uhr.
3. Wissensrepräsentation für Texte 24FreitextsucheComputerlinguistischer Ansatz
Lexikalische Verfahren
besonders für stark flektierte Sprachen (z.B. deutsch) geeignet
Relationen im Wörterbuch:Flexionsform (Vollformen) — zugehörige GrundformHauses - Haus, ging - gehenDerivationsform — zugehörige GrundformenLieblosigkeit — lieblos, Berechnung — rechnen
Komposita — zugehörige DekompositionHaustür — Tür, Armbanduhr — Uhr.
3. Wissensrepräsentation für Texte 24FreitextsucheComputerlinguistischer Ansatz
Lexikalische Verfahren
besonders für stark flektierte Sprachen (z.B. deutsch) geeignet
Relationen im Wörterbuch:Flexionsform (Vollformen) — zugehörige GrundformHauses - Haus, ging - gehenDerivationsform — zugehörige GrundformenLieblosigkeit — lieblos, Berechnung — rechnenKomposita — zugehörige DekompositionHaustür — Tür, Armbanduhr — Uhr.
3. Wissensrepräsentation für Texte 25FreitextsucheComputerlinguistischer Ansatz
Beispiel: Wortschatz Uni Leipzig
3. Wissensrepräsentation für Texte 25FreitextsucheComputerlinguistischer Ansatz
Beispiel: Wortschatz Uni Leipzig
3. Wissensrepräsentation für Texte 25FreitextsucheComputerlinguistischer Ansatz
Beispiel: Wortschatz Uni Leipzig
3. Wissensrepräsentation für Texte 25FreitextsucheComputerlinguistischer Ansatz
Beispiel: Wortschatz Uni Leipzig
3. Wissensrepräsentation für Texte 25FreitextsucheComputerlinguistischer Ansatz
Beispiel: Wortschatz Uni Leipzig
3. Wissensrepräsentation für Texte 26FreitextsucheComputerlinguistischer Ansatz
Komposita-Zerlegung
Anteil der Substantivkomposita (letzte Komponente ein Substantiv)im Deutschen:
< 10% der Token> 50% der Types
Kompositazerlegung wichtig, um alle Vorkommen eines Suchworteszu finden, z.B.
Schweinebraten, Rinderbraten, Hirschbraten, Hühnerbraten,. . .Kernenergie, Solarenergie, Kohleenergie, Windenergie, . . .
3. Wissensrepräsentation für Texte 27FreitextsucheComputerlinguistischer Ansatz
Komposita-ZerlegungFugenelemente
verbinden die einzelnen Komponenten-∅, -e, -en, -ens, -er, -n, -sbei entlehnten Stämmen: -i, -o, -al(Elektr-o-motor, Agr-i-kultur)Bindestrich
keine allgemeingültigen Regeln:Wind-energie vs. Sonne-n-ergieStadtmitte vs. StädtepartnerschaftSpargelder vs. HilfsgelderSchweinebraten vs. Wildschweinbraten
3. Wissensrepräsentation für Texte 28FreitextsucheComputerlinguistischer Ansatz
Komposita-ZerlegungZerlegungsalgorithmus
finde Folge(Substantivform Fugenmorphem)+ Substantivformdie der zu segmentierenden Wortform entspricht
Zerlegung nicht immer eindeutig:Bausch-windel, Hafenbar-kasse, Kopfball-ast, Ster-befall,Tau-sender, Tram-polin
3. Wissensrepräsentation für Texte 29FreitextsucheComputerlinguistischer Ansatz
Syntaktische Verfahren
(zur Behandlung von Nominalphrasen)
1 Wortklassenbestimmung2 Parsing3 Identifikation von Nominalphrasen4 Head-Modifier-Strukturen5 Matching
3. Wissensrepräsentation für Texte 30FreitextsucheComputerlinguistischer Ansatz
Wortklassenbestimmung
typische Wortklassen:
AT article PN personal pronounBEZ “is” RB adverbCONJ conjunction RBR comparative adverbIN preposition TO “to”JJ adjective VB verb, base formJJR comparative adjective VBD verb, past tenseMD modal (can, have, may,...) VBG verb, present participle, gerundNN singular or mass noun VBN verb, past participleNNP singular proper noun VBP verb, non 3rd singular presentNNS plural noun VBZ verb, 3rd singular presentPERIOD .:?! WDT wh-determiner (what, which)
3. Wissensrepräsentation für Texte 31FreitextsucheComputerlinguistischer Ansatz
Datenquellen für die Wortklassenbestimmung
(Vollformen-)Wörterbuchgraphematische Verfahren(insbesondere für nicht im Wörterbuch enthaltene Wörter)
Problem:Wortklassenbestimmung in wenig flektierten SprachenThe boys play football vs.She saw the new play
→ zusätzliche Berücksichtigung der syntaktischen Struktur(Bigramme, Trigramme) notwendig:AT NNS VBP/NN NN → VBPPN VBD AT JJ NN/VBP → NN
3. Wissensrepräsentation für Texte 31FreitextsucheComputerlinguistischer Ansatz
Datenquellen für die Wortklassenbestimmung
(Vollformen-)Wörterbuchgraphematische Verfahren(insbesondere für nicht im Wörterbuch enthaltene Wörter)
Problem:Wortklassenbestimmung in wenig flektierten SprachenThe boys play football vs.She saw the new play
→ zusätzliche Berücksichtigung der syntaktischen Struktur(Bigramme, Trigramme) notwendig:AT NNS VBP/NN NN → VBPPN VBD AT JJ NN/VBP → NN
3. Wissensrepräsentation für Texte 31FreitextsucheComputerlinguistischer Ansatz
Datenquellen für die Wortklassenbestimmung
(Vollformen-)Wörterbuchgraphematische Verfahren(insbesondere für nicht im Wörterbuch enthaltene Wörter)
Problem:Wortklassenbestimmung in wenig flektierten SprachenThe boys play football vs.She saw the new play
→ zusätzliche Berücksichtigung der syntaktischen Struktur(Bigramme, Trigramme) notwendig:AT NNS VBP/NN NN → VBPPN VBD AT JJ NN/VBP → NN
3. Wissensrepräsentation für Texte 32FreitextsucheComputerlinguistischer Ansatz
Beispiel:Wortklassenbestimmung basierend auf dem Kuhlen-AlgorithmusNr. Regel Klasse1 IES → Y NNS/VBP2 ES → 6B NNS/VBP3 S → 6B NNS/VBP4 S’ → 6B, IES’ → Y , ES’ → 6B NNS5 ’S → 6B, ’ → 6B NN6 ING → 6B, ING → E VBG7 IED → Y VBD/VBN/JJ8 ED → 6B , ED → E VBD/VBN/JJ
3. Wissensrepräsentation für Texte 33FreitextsucheComputerlinguistischer Ansatz
Wortklassenbestimmung mit deterministischem Tagger
nur 70 % korrekte Zuordungen! [Greene & Rubin 77]
aber:die meisten Wörter kommen in einer bevorzugten Wortklasse vorto flour a panto web the final report
→ seltene Verwendungen ignorieren!90 % korrekte Zuordungen! [Charniak et al. 93]
Verbesserung:statistische Ansätze zur Berücksichtigung der syntaktischenStruktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen
3. Wissensrepräsentation für Texte 33FreitextsucheComputerlinguistischer Ansatz
Wortklassenbestimmung mit deterministischem Tagger
nur 70 % korrekte Zuordungen! [Greene & Rubin 77]
aber:die meisten Wörter kommen in einer bevorzugten Wortklasse vorto flour a panto web the final report
→ seltene Verwendungen ignorieren!90 % korrekte Zuordungen! [Charniak et al. 93]
Verbesserung:statistische Ansätze zur Berücksichtigung der syntaktischenStruktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen
3. Wissensrepräsentation für Texte 33FreitextsucheComputerlinguistischer Ansatz
Wortklassenbestimmung mit deterministischem Tagger
nur 70 % korrekte Zuordungen! [Greene & Rubin 77]
aber:die meisten Wörter kommen in einer bevorzugten Wortklasse vorto flour a panto web the final report
→ seltene Verwendungen ignorieren!90 % korrekte Zuordungen! [Charniak et al. 93]
Verbesserung:statistische Ansätze zur Berücksichtigung der syntaktischenStruktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen
3. Wissensrepräsentation für Texte 33FreitextsucheComputerlinguistischer Ansatz
Wortklassenbestimmung mit deterministischem Tagger
nur 70 % korrekte Zuordungen! [Greene & Rubin 77]
aber:die meisten Wörter kommen in einer bevorzugten Wortklasse vorto flour a panto web the final report
→ seltene Verwendungen ignorieren!90 % korrekte Zuordungen! [Charniak et al. 93]
Verbesserung:statistische Ansätze zur Berücksichtigung der syntaktischenStruktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen
3. Wissensrepräsentation für Texte 34FreitextsucheComputerlinguistischer Ansatz
Parsing
eine einfache Grammatik:S → NP VPNP → AT? JJ* NNS+
→ AT? JJ* NN+→ NP PP
VP → VB PP→ VBZ→ VBZ NP
PP → IN NP
Beispiele:The analysis of 25 indexing algorithms shows consistent retrievalperformance.AT NN IN JJ NN NNS VBZ JJ NN NNA good indexing technique for Web retrieval is manualclassification.AT JJ NN NN IN NN NN VBZ JJ NN
3. Wissensrepräsentation für Texte 34FreitextsucheComputerlinguistischer Ansatz
Parsing
eine einfache Grammatik:S → NP VPNP → AT? JJ* NNS+
→ AT? JJ* NN+→ NP PP
VP → VB PP→ VBZ→ VBZ NP
PP → IN NP
Beispiele:The analysis of 25 indexing algorithms shows consistent retrievalperformance.AT NN IN JJ NN NNS VBZ JJ NN NNA good indexing technique for Web retrieval is manualclassification.AT JJ NN NN IN NN NN VBZ JJ NN
3. Wissensrepräsentation für Texte 35FreitextsucheComputerlinguistischer Ansatz
Identifikation von Nominalphrasen
nur bestimmte syntaktische Strukturen relevant→ partielles parsing
einfache Muster (ohne Unterscheidung (NN/NNP/NNS):phrase → NN NN+
→ NN+ IN JJ* NN+Beispiele:indexing algorithmsretrieval performanceretrieval of Web documentsretrieval of new documents
3. Wissensrepräsentation für Texte 35FreitextsucheComputerlinguistischer Ansatz
Identifikation von Nominalphrasen
nur bestimmte syntaktische Strukturen relevant→ partielles parsingeinfache Muster (ohne Unterscheidung (NN/NNP/NNS):phrase → NN NN+
→ NN+ IN JJ* NN+Beispiele:indexing algorithmsretrieval performanceretrieval of Web documentsretrieval of new documents
3. Wissensrepräsentation für Texte 36FreitextsucheComputerlinguistischer Ansatz
Head-Modifier-Strukturen
basierend auf der Transformation der Nominalphrasen undKomposita in head-modifier-Strukturen:
head: Nomen, das die wesentliche Bedeutung einesKompositums oder einer Nominalphrase ausdrückt:Haustür, Türschloss, Schlosstürindexing algorithm, retrieval of information
modifier: modifiziert/spezialisiert die Bedeutung des Heads
head-Modifier-Strukturen können geschachtelt auftreten→ Darstellung als geschachtelte Listen oder Bäume
(((multimedia,document),retrieval),system)(((Tür,Schloss), (Enteiser, Spray))
3. Wissensrepräsentation für Texte 36FreitextsucheComputerlinguistischer Ansatz
Head-Modifier-Strukturen
basierend auf der Transformation der Nominalphrasen undKomposita in head-modifier-Strukturen:
head: Nomen, das die wesentliche Bedeutung einesKompositums oder einer Nominalphrase ausdrückt:Haustür, Türschloss, Schlosstürindexing algorithm, retrieval of information
modifier: modifiziert/spezialisiert die Bedeutung des Heads
head-Modifier-Strukturen können geschachtelt auftreten→ Darstellung als geschachtelte Listen oder Bäume
(((multimedia,document),retrieval),system)(((Tür,Schloss), (Enteiser, Spray))
3. Wissensrepräsentation für Texte 37FreitextsucheComputerlinguistischer Ansatz
the domain of possible categories of linguistic expressions
possible
domain
linguistic
categories
expressions
3. Wissensrepräsentation für Texte 38FreitextsucheComputerlinguistischer Ansatz
long term parking courtesy shuttle bus
hm h hm m
m
m
h
h
3. Wissensrepräsentation für Texte 39FreitextsucheComputerlinguistischer Ansatz
Matching-Prozess
1 Nominalphrase/Kompositum in Head-Modifier-Strukturüberführen(Transformationsregeln basierend auf der syntaktischenStruktur, und/oder lexikalischen Angaben)
2 Vergleich: Head- bzw. Modifier-Rolle (bzgl. der gemeinsamenWurzel) müssen übereinstimmen(einzelnes Nomen = Head)
3. Wissensrepräsentation für Texte 39FreitextsucheComputerlinguistischer Ansatz
Matching-Prozess
1 Nominalphrase/Kompositum in Head-Modifier-Strukturüberführen(Transformationsregeln basierend auf der syntaktischenStruktur, und/oder lexikalischen Angaben)
2 Vergleich: Head- bzw. Modifier-Rolle (bzgl. der gemeinsamenWurzel) müssen übereinstimmen(einzelnes Nomen = Head)
Beispiel:(((semistructured,data), retrieval) system) wird gematcht von
(retrieval, system)(semistructured, data)(data, retrieval)
aber nicht von(retrieval, data)
Dokumentationssprachen
Allgemeine EigenschaftenKlassifikationenThesauriOntologienTagging
3. Wissensrepräsentation für Texte 41DokumentationssprachenAllgemeine Eigenschaften
Allgemeine Eigenschaften
formulierungsunabhängige Repräsentation von Textinhaltendurch Verwendung eines speziellen Vokabulars
KlassifikationenThesauriOntologienTagging
3. Wissensrepräsentation für Texte 42DokumentationssprachenKlassifikationen
Klassifikationen
Strukturierung eines Wissensgebietes nach einem vorgegebenenformalen Schemaz.B. Dezimalklassifikation: Baum der Ordnung 10
Ein Dokument wird in der Regel einer oder wenigen Klassenzugeordnet(ursprünglich für Bibliotheken entwickelt - ein Buch kann nur aneinem Platz stehen!)
3. Wissensrepräsentation für Texte 42DokumentationssprachenKlassifikationen
Klassifikationen
Strukturierung eines Wissensgebietes nach einem vorgegebenenformalen Schemaz.B. Dezimalklassifikation: Baum der Ordnung 10
Ein Dokument wird in der Regel einer oder wenigen Klassenzugeordnet(ursprünglich für Bibliotheken entwickelt - ein Buch kann nur aneinem Platz stehen!)
3. Wissensrepräsentation für Texte 43DokumentationssprachenKlassifikationen
Beispiele für Klassifikationen
Web-Kataloge (z.B. Yahoo!)Klassifikationen in bestimmtenFachgebieten/Anwendungsbereiche:
LCC Library of Congress ClassificationDDC Dewey Decimal ClassificationUDC Universal Decimal ClassificationMSc Mathematics Subject ClassificationCCS ACM Computing Classification system
3. Wissensrepräsentation für Texte 44DokumentationssprachenKlassifikationen
Eigenschaften von KlassifikationssystemenMonohierarchie — Polyhierarchie
Monohierarchie:
Steinobstbaum
Kirschbaum Pfirsichbaum
Kernobstbaum
BirnbaumApfelbaum
Obstbaum
Polyhierarchie:
Birnbaum
NutzholzbaumObstbaum
Kernobstbaum
3. Wissensrepräsentation für Texte 44DokumentationssprachenKlassifikationen
Eigenschaften von KlassifikationssystemenMonohierarchie — Polyhierarchie
Monohierarchie:
Steinobstbaum
Kirschbaum Pfirsichbaum
Kernobstbaum
BirnbaumApfelbaum
Obstbaum
Polyhierarchie:
Birnbaum
NutzholzbaumObstbaum
Kernobstbaum
3. Wissensrepräsentation für Texte 45DokumentationssprachenKlassifikationen
Monodimensionalität — Polydimensionalität
Problem: auf einer Stufe gibt es mehrere Kriterien, nach denen eineweitere Aufteilung in Unterklassen vorgenommen werden kann
Polydimensionalität
Steinobstbaum
Obstbaum
Kernobstbaum niederstämmiger Obstbaum
hochstämmiger Obstbaum
halbstämmiger Obstbaum
aufgelöstObstbaum
nach Stammbildungnach Fruchart
Obstbaum
halbst.
niederst.
ObstbaumObstbaum
hochst.
obstbaum
Kern−
obstbaum
Stein−
3. Wissensrepräsentation für Texte 45DokumentationssprachenKlassifikationen
Monodimensionalität — Polydimensionalität
Problem: auf einer Stufe gibt es mehrere Kriterien, nach denen eineweitere Aufteilung in Unterklassen vorgenommen werden kann
Polydimensionalität
Steinobstbaum
Obstbaum
Kernobstbaum niederstämmiger Obstbaum
hochstämmiger Obstbaum
halbstämmiger Obstbaum
aufgelöstObstbaum
nach Stammbildungnach Fruchart
Obstbaum
halbst.
niederst.
ObstbaumObstbaum
hochst.
obstbaum
Kern−
obstbaum
Stein−
3. Wissensrepräsentation für Texte 46DokumentationssprachenKlassifikationen
Analytische vs. synthetische Klassifikation
analytische Klassifikation: top-down Vorgehensweise(wie oben)
synthetische Klassifikation: bottom-up1 Erhebung der Merkmale der zu klassifizierenden Objekte und
Zusammenstellung im Klassifikationssystem2 Bildung der Klassen durch Kombination der Merkmale
3. Wissensrepräsentation für Texte 46DokumentationssprachenKlassifikationen
Analytische vs. synthetische Klassifikation
analytische Klassifikation: top-down Vorgehensweise(wie oben)
synthetische Klassifikation: bottom-up1 Erhebung der Merkmale der zu klassifizierenden Objekte und
Zusammenstellung im Klassifikationssystem2 Bildung der Klassen durch Kombination der Merkmale
3. Wissensrepräsentation für Texte 47DokumentationssprachenKlassifikationen
Facettenklassifikation
Beispiel: Facettenklassifikation Obstbäume
Facette Facette FacetteA Fruchtart B Stammart C ErntezeitA1 Apfel B1 hochstämmig C1 frühA2 Birne B2 halbstämmig C2 mittelA3 Kirsche B3 niederstämmig C3 spätA4 PfirsischA5 Pflaume
A1B3C1 = niederstämmiger Frühapfelbaum
Regeln:Facetten müssen disjunkt seinmonodimensionale Unterteilung innerhalb einer Facette
3. Wissensrepräsentation für Texte 47DokumentationssprachenKlassifikationen
Facettenklassifikation
Beispiel: Facettenklassifikation Obstbäume
Facette Facette FacetteA Fruchtart B Stammart C ErntezeitA1 Apfel B1 hochstämmig C1 frühA2 Birne B2 halbstämmig C2 mittelA3 Kirsche B3 niederstämmig C3 spätA4 PfirsischA5 Pflaume
A1B3C1 = niederstämmiger Frühapfelbaum
Regeln:Facetten müssen disjunkt seinmonodimensionale Unterteilung innerhalb einer Facette
3. Wissensrepräsentation für Texte 48DokumentationssprachenKlassifikationen
FacettenklassifikationBeispiel: heise Preisvergleich
3. Wissensrepräsentation für Texte 48DokumentationssprachenKlassifikationen
FacettenklassifikationBeispiel: heise Preisvergleich
3. Wissensrepräsentation für Texte 49DokumentationssprachenKlassifikationen
Yahoo! – main categoriesArts & HumanitiesLiterature, Photography...Business & EconomyB2B, Finance, Shopping, Jobs...Computers & InternetInternet, WWW, Software, Ga-mes...EducationCollege and University, K-12...EntertainmentCool Links, Movies, Humor, Mu-sic...GovernmentElections, Military, Law, Taxes...HealthMedicine, Diseases, Drugs, Fit-ness...
News & MediaFull Coverage, Newspapers, TV...Recreation & SportsSports, Travel, Autos, Outdoors...ReferenceLibraries, Dictionaries, Quotati-ons...RegionalCountries, Regions, US States...ScienceAnimals, Astronomy, Engineering...Social ScienceArchaeology, Economics, Langua-ges...Society & CulturePeople, Environment, Religion...
3. Wissensrepräsentation für Texte 50DokumentationssprachenKlassifikationen
Yahoo! – Computers & Internet
Art@Bibliographies (6)Communications andNetworking (1146)Computer Science@Contests (26)Conventions andConferences@Countries, Cultures, andGroups (38)Cyberculture@Data Formats (485)Desktop Customization@Desktop Publishing (53)Dictionaries (24)
Employment@Ethics (18)Games@Graphics (316)Hardware (2355)History (106)Humor@Industry Information@Internet (6066)Magazines@Mobile Computing (65)Multimedia (690)Music@News and Media (205)...
3. Wissensrepräsentation für Texte 51DokumentationssprachenKlassifikationen
Yahoo!
PolyhierarchieTiefe der Hierarchie variiertDokumente können beliebigen Klassen zugeordnet werden
3. Wissensrepräsentation für Texte 52DokumentationssprachenKlassifikationen
ACM Computing Classification System
Ursprünglich Klassifikation in der Zeitschrift ACM ComputingReviews,wird vielfach als Standard-Klassifikation in der Informatikverwendet.
Elemente:general terms: vorgegebene Menge von allgemeinen Begriffenclassification codes: dreistufige monohierarchischeKlassifikationsubject headings: vorgegebene Menge vonnatürlichsprachlichen Bezeichnungen für jede einzelne Klasse,die diese weiter differenzieren; außerdem alle Eigennamenfree terms: zusätzliche, frei wählbare Stichwörter
3. Wissensrepräsentation für Texte 52DokumentationssprachenKlassifikationen
ACM Computing Classification System
Ursprünglich Klassifikation in der Zeitschrift ACM ComputingReviews,wird vielfach als Standard-Klassifikation in der Informatikverwendet.
Elemente:general terms: vorgegebene Menge von allgemeinen Begriffenclassification codes: dreistufige monohierarchischeKlassifikationsubject headings: vorgegebene Menge vonnatürlichsprachlichen Bezeichnungen für jede einzelne Klasse,die diese weiter differenzieren; außerdem alle Eigennamenfree terms: zusätzliche, frei wählbare Stichwörter
3. Wissensrepräsentation für Texte 53DokumentationssprachenKlassifikationen
General terms:
These apply to any elements of the tree that are relevant
ALGORITHMS MANAGEMENTDESIGN MEASUREMENTDOCUMENTATION PERFORMANCEECONOMICS RELIABILITYEXPERIMENTATION SECURITYHUMAN FACTORS STANDARDIZATIONLANGUAGES THEORYLEGAL ASPECTS VERIFICATION
3. Wissensrepräsentation für Texte 54DokumentationssprachenKlassifikationen
Übersicht über die Hauptklassen
A. GENERAL LITERATUREB. HARDWAREC. COMPUTER SYSTEMS ORGANIZATIOND. SOFTWAREE. DATAF. THEORY OF COMPUTATIONG. MATHEMATICS OF COMPUTINGH. INFORMATION SYSTEMSI. COMPUTING METHODOLOGIESJ. COMPUTER APPLICATIONSK. COMPUTING MILIEUX
3. Wissensrepräsentation für Texte 55DokumentationssprachenKlassifikationen
H.3 INFORMATION STORAGE AND RETRIEVALH.3.0 GeneralH.3.1 Content Analysis and Indexing
Abstracting methodsDictionariesIndexing methodsLinguistic processingThesauruses
H.3.2 Information StorageFile organizationRecord classification
H.3.3 Information Search and RetrievalClusteringQuery formulationRetrieval modelsSearch processSelection process
H.3.4 System and Software...
3. Wissensrepräsentation für Texte 56DokumentationssprachenKlassifikationen
Eigenschaften der ACM-CCS
Monohierarchiefeste Tiefe (vier Ebenen)
Buchstaben/Ziffern-Code für Ebene 1–3“subject heading” auf Ebene 4
Dokumente können nur der 4. Ebene zugeordnet werden
3. Wissensrepräsentation für Texte 57DokumentationssprachenKlassifikationen
Dezimalklassifikation
Ursprung: Dewey Decimal Classification (DDC),1876 von Melvil Dewey (USA) entwickeltUniversalklassifikation zur Aufstellung von Buchbeständen
Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien)zur Universellen Dezimalklassifikation (DK)(im Gegensatz zur DDC kaum noch benutzt)
Grundelemente der DK:Hierarchisch gegliederten Klassen (130000)Anhängezahlen zur FacettierungSonderzeichen zur Verknüpfung mehrerer DK-Zahlen
3. Wissensrepräsentation für Texte 57DokumentationssprachenKlassifikationen
Dezimalklassifikation
Ursprung: Dewey Decimal Classification (DDC),1876 von Melvil Dewey (USA) entwickeltUniversalklassifikation zur Aufstellung von Buchbeständen
Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien)zur Universellen Dezimalklassifikation (DK)(im Gegensatz zur DDC kaum noch benutzt)
Grundelemente der DK:Hierarchisch gegliederten Klassen (130000)Anhängezahlen zur FacettierungSonderzeichen zur Verknüpfung mehrerer DK-Zahlen
3. Wissensrepräsentation für Texte 57DokumentationssprachenKlassifikationen
Dezimalklassifikation
Ursprung: Dewey Decimal Classification (DDC),1876 von Melvil Dewey (USA) entwickeltUniversalklassifikation zur Aufstellung von Buchbeständen
Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien)zur Universellen Dezimalklassifikation (DK)(im Gegensatz zur DDC kaum noch benutzt)
Grundelemente der DK:Hierarchisch gegliederten Klassen (130000)Anhängezahlen zur FacettierungSonderzeichen zur Verknüpfung mehrerer DK-Zahlen
3. Wissensrepräsentation für Texte 58DokumentationssprachenKlassifikationen
Hauptklassen
Die DK-Haupttafeln umfassen die Hauptabteilungen:0 Allgemeines1 Philosophie2 Religion, Theologie3 Sozialwissenschaften, Recht, Verwaltung4 (zur Zeit nicht belegt)5 Mathematik, Naturwissenschaften6 Angewandte Wissenschaften, Medizin, Technik7 Kunst, Kunstgewerbe, Photographie, Musik, Spiel, Sport8 Sprachwissenschaft, Philologie, Schöne Literatur,Literaturwissenschaft
9 Heimatkunde, Geographie, Biographien, Geschichte
3. Wissensrepräsentation für Texte 59DokumentationssprachenKlassifikationen
Beispiel für die Untergliederung einer Hauptklasse
Beispiel:3 Sozialwissenschaften, Recht, Verwaltung33 Volkswirtschaft336 Finanzen. Bank- und Geldwesen336.7 Geldwesen. Bankwesen. Börsenwesen336.76 Börsenwesen. Geldmarkt. Kapitalmarkt336.763 Wertpapiere. Effekten336.763.3 Obligationen. Schuldverschreibungen336.763.31 Allgemeines336.763.311 Verzinsliche Schuldbriefe336.763.311.1 Langfristig verzinsliche Schuldbriefe
3. Wissensrepräsentation für Texte 60DokumentationssprachenKlassifikationen
Facettierende Elemente
Anhängezahlen: durch spezielle Zeichen eingeleitetallgemeine Anhängezahlen: Facetten, die überall in der DKverwendet werden dürfenZeichenfolgen/Facetten:= Sprache: =30 =̂ deutsch
(0...) Form: (021) =̂ Handbuch, 53(021)=20=30=40 =̂ Handbuchder Physik in Englisch, Deutsch, Französisch
(...) Ort(=...) Rassen und Völker„...“ Zeit.00 Gesichtspunkt-05 Person
3. Wissensrepräsentation für Texte 61DokumentationssprachenKlassifikationen
Verknüpfung von DK-Zahlen
spezielle Sonderzeichen zur Verknüpfung von DK-Zahlen:+ Aufzählung mehrerer Sachverhalte, z.B. 178.1+33 =̂
Alkoholismus und Volkswirtschaft: Beziehung zwischen zwei Sachverhalten, z.B. 178.1:33 =̂Auswirkung von Alkoholismus auf die Volkswirtschaft
/ Erstreckungszeichen (zur Zusammenfassung mehrerernebeneinanderstehender DK-Zahlen), z.B. 592/599Systematische Zoologie: 592 bis einschließlich 599
’ Zusamenfassungszeichen zur Bildung neuer Sachverhalte ausder Kombination einzelner DK-Komponenten
3. Wissensrepräsentation für Texte 62DokumentationssprachenThesauri
Thesauri
DIN 1463:„Thesaurus ist geordnete Zusammenstellung von Begriffen mit ihren(natürlichsprachlichen) Bezeichnungen.
Merkmale eines Thesaurus:a) terminologische Kontrolle durch
Erfassung von SynonymenKennzeichnung von Homonymen und PolysemenFestlegung von Vorzugsbenennungen
b) Darstellung von Beziehungen zwischen Begriffen“
3. Wissensrepräsentation für Texte 62DokumentationssprachenThesauri
Thesauri
DIN 1463:„Thesaurus ist geordnete Zusammenstellung von Begriffen mit ihren(natürlichsprachlichen) Bezeichnungen.
Merkmale eines Thesaurus:a) terminologische Kontrolle durch
Erfassung von SynonymenKennzeichnung von Homonymen und PolysemenFestlegung von Vorzugsbenennungen
b) Darstellung von Beziehungen zwischen Begriffen“
3. Wissensrepräsentation für Texte 62DokumentationssprachenThesauri
Thesauri
DIN 1463:„Thesaurus ist geordnete Zusammenstellung von Begriffen mit ihren(natürlichsprachlichen) Bezeichnungen.
Merkmale eines Thesaurus:a) terminologische Kontrolle durch
Erfassung von SynonymenKennzeichnung von Homonymen und PolysemenFestlegung von Vorzugsbenennungen
b) Darstellung von Beziehungen zwischen Begriffen“
3. Wissensrepräsentation für Texte 63DokumentationssprachenThesauri
Terminologische Kontrolle
Reduktion von Mehrdeutigkeiten und Unschärfe der natürlichenSprache
SynonymkontrolleZusammenfassung von Bezeichnungen zu Äquivalenzklassen
Arten von Synonymie:
SchreibweisenvariantenFriseur — FrisörUN — UNO — Vereinte Nationenunterschiedliche Konnotationen, Sprachstile, VerbreitungTelefon — FernsprecherPferd — GaulMyopie — KurzsichtigkeitQuasi-SynonymeSchauspiel — TheaterstückRundfunk — Hörfunk
3. Wissensrepräsentation für Texte 63DokumentationssprachenThesauri
Terminologische Kontrolle
Reduktion von Mehrdeutigkeiten und Unschärfe der natürlichenSprache
SynonymkontrolleZusammenfassung von Bezeichnungen zu Äquivalenzklassen
Arten von Synonymie:
SchreibweisenvariantenFriseur — FrisörUN — UNO — Vereinte Nationenunterschiedliche Konnotationen, Sprachstile, VerbreitungTelefon — FernsprecherPferd — GaulMyopie — KurzsichtigkeitQuasi-SynonymeSchauspiel — TheaterstückRundfunk — Hörfunk
3. Wissensrepräsentation für Texte 63DokumentationssprachenThesauri
Terminologische Kontrolle
Reduktion von Mehrdeutigkeiten und Unschärfe der natürlichenSprache
SynonymkontrolleZusammenfassung von Bezeichnungen zu Äquivalenzklassen
Arten von Synonymie:SchreibweisenvariantenFriseur — FrisörUN — UNO — Vereinte Nationen
unterschiedliche Konnotationen, Sprachstile, VerbreitungTelefon — FernsprecherPferd — GaulMyopie — KurzsichtigkeitQuasi-SynonymeSchauspiel — TheaterstückRundfunk — Hörfunk
3. Wissensrepräsentation für Texte 63DokumentationssprachenThesauri
Terminologische Kontrolle
Reduktion von Mehrdeutigkeiten und Unschärfe der natürlichenSprache
SynonymkontrolleZusammenfassung von Bezeichnungen zu Äquivalenzklassen
Arten von Synonymie:SchreibweisenvariantenFriseur — FrisörUN — UNO — Vereinte Nationenunterschiedliche Konnotationen, Sprachstile, VerbreitungTelefon — FernsprecherPferd — GaulMyopie — Kurzsichtigkeit
Quasi-SynonymeSchauspiel — TheaterstückRundfunk — Hörfunk
3. Wissensrepräsentation für Texte 63DokumentationssprachenThesauri
Terminologische Kontrolle
Reduktion von Mehrdeutigkeiten und Unschärfe der natürlichenSprache
SynonymkontrolleZusammenfassung von Bezeichnungen zu Äquivalenzklassen
Arten von Synonymie:SchreibweisenvariantenFriseur — FrisörUN — UNO — Vereinte Nationenunterschiedliche Konnotationen, Sprachstile, VerbreitungTelefon — FernsprecherPferd — GaulMyopie — KurzsichtigkeitQuasi-SynonymeSchauspiel — TheaterstückRundfunk — Hörfunk
3. Wissensrepräsentation für Texte 64DokumentationssprachenThesauri
Synonymkontrolle
Im Thesaurus werden darüber hinaus Begriffe mit geringen /irrelevanten Bedeutungsdifferenzen zu Äquivalenzklassenzusammengefaßt:
unterschiedliche SpezifitätSprachwissenschaft — LinguistikAntonymeHärte — Weichheitzu spezieller UnterbegriffWeizen — WinterweizenGleichsetzung von Verb und Substantiv / Tätigkeit undErgebnisWohnen — Wohnung
3. Wissensrepräsentation für Texte 64DokumentationssprachenThesauri
Synonymkontrolle
Im Thesaurus werden darüber hinaus Begriffe mit geringen /irrelevanten Bedeutungsdifferenzen zu Äquivalenzklassenzusammengefaßt:
unterschiedliche SpezifitätSprachwissenschaft — Linguistik
AntonymeHärte — Weichheitzu spezieller UnterbegriffWeizen — WinterweizenGleichsetzung von Verb und Substantiv / Tätigkeit undErgebnisWohnen — Wohnung
3. Wissensrepräsentation für Texte 64DokumentationssprachenThesauri
Synonymkontrolle
Im Thesaurus werden darüber hinaus Begriffe mit geringen /irrelevanten Bedeutungsdifferenzen zu Äquivalenzklassenzusammengefaßt:
unterschiedliche SpezifitätSprachwissenschaft — LinguistikAntonymeHärte — Weichheit
zu spezieller UnterbegriffWeizen — WinterweizenGleichsetzung von Verb und Substantiv / Tätigkeit undErgebnisWohnen — Wohnung
3. Wissensrepräsentation für Texte 64DokumentationssprachenThesauri
Synonymkontrolle
Im Thesaurus werden darüber hinaus Begriffe mit geringen /irrelevanten Bedeutungsdifferenzen zu Äquivalenzklassenzusammengefaßt:
unterschiedliche SpezifitätSprachwissenschaft — LinguistikAntonymeHärte — Weichheitzu spezieller UnterbegriffWeizen — Winterweizen
Gleichsetzung von Verb und Substantiv / Tätigkeit undErgebnisWohnen — Wohnung
3. Wissensrepräsentation für Texte 64DokumentationssprachenThesauri
Synonymkontrolle
Im Thesaurus werden darüber hinaus Begriffe mit geringen /irrelevanten Bedeutungsdifferenzen zu Äquivalenzklassenzusammengefaßt:
unterschiedliche SpezifitätSprachwissenschaft — LinguistikAntonymeHärte — Weichheitzu spezieller UnterbegriffWeizen — WinterweizenGleichsetzung von Verb und Substantiv / Tätigkeit undErgebnisWohnen — Wohnung
3. Wissensrepräsentation für Texte 65DokumentationssprachenThesauri
Polysemkontrolle
Aufteilung von einer (mehrdeutigen) Bezeichnung auf mehrereÄquivalenzklassen
Homonyme (Bs. Tenor, Vollzug, modern, Hochzeit, Montage)
Polyseme (Bs. Bank, Deckung)
3. Wissensrepräsentation für Texte 65DokumentationssprachenThesauri
Polysemkontrolle
Aufteilung von einer (mehrdeutigen) Bezeichnung auf mehrereÄquivalenzklassen
Homonyme (Bs. Tenor, Vollzug, modern, Hochzeit, Montage)Polyseme (Bs. Bank, Deckung)
3. Wissensrepräsentation für Texte 66DokumentationssprachenThesauri
Zerlegungskontrolle
Problem: Wie spezifisch sollen einzelne Begriffe im Thesaurus sein?„Donaudampfschiffahrtskapitän“
Nachteile zu spezieller Begriffe:Thesaurus zu umfangreich / unübersichtlichnur wenige Dokumente zu einer Äquivalenzklasse
UNITERM-Verfahren:Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe eines Sachverhaltes(Postkoordination)
Nachteil: größere Unschärfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum
Thesaurusmethode: Kompromiß zwischen beiden Ansätzen
3. Wissensrepräsentation für Texte 66DokumentationssprachenThesauri
Zerlegungskontrolle
Problem: Wie spezifisch sollen einzelne Begriffe im Thesaurus sein?„Donaudampfschiffahrtskapitän“
Nachteile zu spezieller Begriffe:Thesaurus zu umfangreich / unübersichtlichnur wenige Dokumente zu einer Äquivalenzklasse
UNITERM-Verfahren:Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe eines Sachverhaltes(Postkoordination)
Nachteil: größere Unschärfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum
Thesaurusmethode: Kompromiß zwischen beiden Ansätzen
3. Wissensrepräsentation für Texte 66DokumentationssprachenThesauri
Zerlegungskontrolle
Problem: Wie spezifisch sollen einzelne Begriffe im Thesaurus sein?„Donaudampfschiffahrtskapitän“
Nachteile zu spezieller Begriffe:Thesaurus zu umfangreich / unübersichtlichnur wenige Dokumente zu einer Äquivalenzklasse
UNITERM-Verfahren:Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe eines Sachverhaltes(Postkoordination)
Nachteil: größere Unschärfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum
Thesaurusmethode: Kompromiß zwischen beiden Ansätzen
3. Wissensrepräsentation für Texte 66DokumentationssprachenThesauri
Zerlegungskontrolle
Problem: Wie spezifisch sollen einzelne Begriffe im Thesaurus sein?„Donaudampfschiffahrtskapitän“
Nachteile zu spezieller Begriffe:Thesaurus zu umfangreich / unübersichtlichnur wenige Dokumente zu einer Äquivalenzklasse
UNITERM-Verfahren:Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe eines Sachverhaltes(Postkoordination)
Nachteil: größere Unschärfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum
Thesaurusmethode: Kompromiß zwischen beiden Ansätzen
3. Wissensrepräsentation für Texte 66DokumentationssprachenThesauri
Zerlegungskontrolle
Problem: Wie spezifisch sollen einzelne Begriffe im Thesaurus sein?„Donaudampfschiffahrtskapitän“
Nachteile zu spezieller Begriffe:Thesaurus zu umfangreich / unübersichtlichnur wenige Dokumente zu einer Äquivalenzklasse
UNITERM-Verfahren:Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe eines Sachverhaltes(Postkoordination)
Nachteil: größere Unschärfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum
Thesaurusmethode: Kompromiß zwischen beiden Ansätzen
3. Wissensrepräsentation für Texte 67DokumentationssprachenThesauri
Äquivalenzklasse — Deskriptor
Terminologische Kontrolle liefert Äquivalenzklassen vonBezeichnungen
Darstellung dieser Äquivalenzklassen:
Thesaurus ohne Vorzugsbenennung:Gleichbehandlung aller Elemente der ÄquivalenzklasseThesaurus mit Vorzugsbenennung:Auswahl eines Elementes der Äquivalenzklasse zur Benennung=Deskriptor(im folgenden nur Thesauri mit Vorzugsbenennung betrachtet)
3. Wissensrepräsentation für Texte 67DokumentationssprachenThesauri
Äquivalenzklasse — Deskriptor
Terminologische Kontrolle liefert Äquivalenzklassen vonBezeichnungen
Darstellung dieser Äquivalenzklassen:Thesaurus ohne Vorzugsbenennung:Gleichbehandlung aller Elemente der Äquivalenzklasse
Thesaurus mit Vorzugsbenennung:Auswahl eines Elementes der Äquivalenzklasse zur Benennung=Deskriptor(im folgenden nur Thesauri mit Vorzugsbenennung betrachtet)
3. Wissensrepräsentation für Texte 67DokumentationssprachenThesauri
Äquivalenzklasse — Deskriptor
Terminologische Kontrolle liefert Äquivalenzklassen vonBezeichnungen
Darstellung dieser Äquivalenzklassen:Thesaurus ohne Vorzugsbenennung:Gleichbehandlung aller Elemente der ÄquivalenzklasseThesaurus mit Vorzugsbenennung:Auswahl eines Elementes der Äquivalenzklasse zur Benennung=Deskriptor(im folgenden nur Thesauri mit Vorzugsbenennung betrachtet)
3. Wissensrepräsentation für Texte 68DokumentationssprachenThesauri
Beziehungsgefüge des ThesaurusÄquivalenzrelation
zwischen Nicht-Deskriptoren und DeskriptorenBezeichnungen:BS Benutze Synonym (use)BF Benutzt für (used for, UF)Fernsprecher BS TelefonTelefon BF Fernsprecher
3. Wissensrepräsentation für Texte 69DokumentationssprachenThesauri
Hierarchische Relation
zwischen DeskriptorenBezeichnungen:UB Unterbegriff (narrower term, NT)OB Oberbegriff (broader term, BT)Obstbaum UB SteinobstbaumSteinobstbaum OB Obstbaum
3. Wissensrepräsentation für Texte 70DokumentationssprachenThesauri
Assoziationsrelation
zwischen begriffsverwandten Deskriptoren, symmetrischBezeichnung: VB verwandter Begriff (see also, SEE)Obstbaum VB ObstObst VB Obstbaum
3. Wissensrepräsentation für Texte 71DokumentationssprachenThesauri
Darstellung des ThesaurusDeskriptor-Einträge
BegriffsnummerNotation / Deskriptor-KlassifikationScope note / DefinitionSynonymeOberbegriffe / UnterbegriffeVerwandte BegriffeEinführungs-/Streichungsdatum
3. Wissensrepräsentation für Texte 72DokumentationssprachenThesauri
Gesamtstruktur des Thesaurus
(in gedruckter Form)Hauptteil mit den Deskriptor-Einträgenalphabetisch / systematisch geordnet
zusätzliche Register mit Verweisen auf die Deskriptor-Einträgesystematisch / alphabetisch (komplementär zum Hauptteil)Index für Komponenten mehrgliedriger BezeichnungenKWIC — keyword in contextKWOC — keyword out of context
3. Wissensrepräsentation für Texte 72DokumentationssprachenThesauri
Gesamtstruktur des Thesaurus
(in gedruckter Form)Hauptteil mit den Deskriptor-Einträgenalphabetisch / systematisch geordnet
zusätzliche Register mit Verweisen auf die Deskriptor-Einträgesystematisch / alphabetisch (komplementär zum Hauptteil)Index für Komponenten mehrgliedriger BezeichnungenKWIC — keyword in contextKWOC — keyword out of context
3. Wissensrepräsentation für Texte 73DokumentationssprachenThesauri
Beispiel: INSPEC-Thesaurus
Information retrievalUF CD-ROM searching
Data accessDocument retrievalOnline literature searchingRetrieval, information
BT Information scienceNT Query formulation
Query processingRelevance feedback
RT Bibliographic systemsInformation analysisInformation storageQuery languages
Query processingUF Data querying
Database queryingQuery optimisation
BT Information retrievalRT Database management systems
Database theoryDATALOGQuery languages
Query formulationUF Search strategiesBT Information retrieval
Relevance feedbackBT Information retrieval
3. Wissensrepräsentation für Texte 74DokumentationssprachenThesauri
Beispiel-Thesaurus
0.0058 Magnetismus (Forts.)Magnetband BF HalleffektVB Magnetbandlaufwerk BF Induktion
OB ElektrodynamikUB Magnetfeld
0,0045 BIK GeophysikMagnetbandgerät BFK ErdmagnetismusBS Magnetbandlaufwerk NE7 BIK Optik
BFK Faraday-Effekt0. 0046Magnetbandkassette 0.0070NO NE83 MagnetkarteBF Kassette NO NE87BF MB-Kassette BF TelefonkärtchenOB Datenträger OB DatenträgerVB Magnetbandkassettenlaufwerk VB Kartensystem
0.0051 0.0073Magnetbandkassettengerät MagnetkartensystemBS Magnetbandkassettenlaufwerk NE7 NO ECS
OB Kartensystem
0.0050Magnetbandkassettenlaufwerk 0.0074NO NE7 MagnetkartentelefonBF Magnetbandkassettengerät NO GK72BF MB-Kassettengerät BF MakatelOB Datenausgabegrät OB KartentelefonOB DateneingabegerätOB DatenspeichertechnikVB Magnetbandkassette 0 0077
MagnetplatteNO NE82
0.0044 OB DatenspeicherMagnetbandlaufwerk OB DatenträgerNO NE7 VB MagnetplattenlaufwerkBF Magnetbandgerät BIK DatenspeicherOB Bandgerät BFK PlattenspeicherOB DatenausgabegerätOB DateneingabegerätOB Datenspeichertechnik 0.0081VB Magnetband Magnetplattengerät
BS Magnetplattenlaufwerk0.0059Magnetfeld 0.0079NO WD2 MagnetplattenlaufwerkOB Magnetismus NO NE7
BF MagnetplattengerätOB Datenausgabegerät
0.0060 OB DateneingabegerätMagnetismus OB DatenspeichertechnikNO WD2 VB MagnetplatteBF Barkhausen-EffektBF Ferromagnetismus
3. Wissensrepräsentation für Texte 76DokumentationssprachenThesauri
Thesauruspflege
Anpassung des Thesaurus an Veränderungen in der Anwendungnotwendig aufgrund von
Entwicklung des Fachgebietesobjektorientierte Datenbanken, multimediale SystemeEntwicklung der FachspracheIndexierungsverhalten / IndexierungsergebnisseBenutzerverhaltenRechercheergebnisse
3. Wissensrepräsentation für Texte 77DokumentationssprachenOntologien
Ontologien
Ursprung: semantische Netze aus der künstlichen Intelligenz(1970er)weiterentwickelt als terminologische Logiken,Beschreibungslogikenjetzt populär “semantic Web“verschiedene Formalismen (Sprachen)OWL: Web Ontology Language
Weiterentwicklung von Datenbankschemata und Thesauri:aus Thesauri: Begriffshierarchie, Relationen zwischen Begriffenaus Datenbank-Schemata: Attribute und Beziehungen,Instanzen zu Konzepten, Datentypen
3. Wissensrepräsentation für Texte 78DokumentationssprachenOntologien
Ontologien: Konstrukte
Konzepte/KlassenVererbungEigenschaften/RelationenFacetten von EigenschaftenInstanzen(Regeln)
3. Wissensrepräsentation für Texte 79DokumentationssprachenOntologien
Konzepte/Klassen
Konzepte werden als Klassen aufgefasstKlasse = Menge von Instanzen mit gleichen/ähnlichenEigenschaftenanalog zu objektorientierter ProgrammierungBeispiele:
Student als Klasse aller StudentenReiseziel als Menge aller möglichen DestinationenInformation Retrieval als Menge aller möglichen IR-Themen
3. Wissensrepräsentation für Texte 80DokumentationssprachenOntologien
Vererbung
analog zu objektorientierter ProgrammierungVererbung als Teilmengenbeziehung zwischen KlassenBeispiele:
Bachelor-Student und Master-Student als Unterklassen vonStudentHiwi als Unterklasse von Student und MitarbeiterStadt und Strand als Unterklassen von ReisezielKlassifikation als Unterklasse von Information Retrieval
viele Ontologie-Sprachen erlauben keine Mehrfachvererbung
3. Wissensrepräsentation für Texte 81DokumentationssprachenOntologien
Beispiel-Klassenhierarchie
3. Wissensrepräsentation für Texte 82DokumentationssprachenOntologien
Slots: Eigenschaften/Relationen
ein Konzept hat i.d.R. mehrere Slotsein Slot beschreibt entweder eine Eigenschaft bzw. eineRelationInstanzen eines Konzeptes unterscheiden sich in den Wertenfür die SlotsWert ist entweder von elementarem Datentyp oder einer KlasseBeispiel Student:
Eigenschaften: Name: string, Matrikelnr: integer, Semester:integerRelation: studiert → Studiengang, hört → Vorlesung
3. Wissensrepräsentation für Texte 83DokumentationssprachenOntologien
Beispiel-Properties
3. Wissensrepräsentation für Texte 84DokumentationssprachenOntologien
Facetten von Slots I
Domain und RangeDomain: Konzepte, bei denen dieser Slot vorkommtRange: Klassen/Datentypen, zu denen die Slot-Werte gehörenBs.: Domain(Name)= {Mitarbeiter,Student},Range(Name)=stringBs.: Domain(studiert)={Student}, Range(studiert) =Studiengang
Kardinalität: Anzahl möglicher Werte für diesen SlotAngabe von minimaler und maximaler AnzahlBs.: card(Name)=(1,1)Bs.: card(studiert)= (1,2)
3. Wissensrepräsentation für Texte 85DokumentationssprachenOntologien
Facetten von Slots II
Hierarchien auf SlotsSpezialisierung: Instanzen eines spezielleren Slots sind auchInstanzen des generelleren SlotsBs.: hört_Pflicht und hört_Wahlpflicht als Spezialisierung vonhörtspeziellerer Slot kann bzgl. Domain, Range, und Kardinalitäteingeschränkt sein
Default-Wert: falls kein expliziter Slot-Wert angegeben wird
3. Wissensrepräsentation für Texte 86DokumentationssprachenOntologien
Slots und Vererbung
Unterklasse erbt alle Slots ihrer Oberklassezusätzlich kann sie weitere Slots habenvererbte Slots können eingeschränkt werden:
bzgl. Range: Unterklasse des Range der OberklasseBs.: Ingenieurstudent studiert → Ingenieurstudiengangbzgl. KardinalitätBs.: Diplomand: card(hört) = (0,0)speziellerer Slot
3. Wissensrepräsentation für Texte 87DokumentationssprachenOntologien
Instanzen
Füllen der Ontologie mit WertenInstanz einer Klasse muss alle Bedingungen der Klasse erfüllenRetrieval = Suche nach Instanzen einer Klasse (mit allenUnterklassen), die zusätzlich bestimmte Wertebedingungenerfüllen
Bs.: Ingenieurstudenten mit ZweitstudiengangBs.: Studenten mit mehr als 8 Semestern, die IR hören
3. Wissensrepräsentation für Texte 88DokumentationssprachenOntologien
YAGO
Suche automatisch extrahierter Instanzen aus Wikipedia(siehe auch DBpedia)
3. Wissensrepräsentation für Texte 88DokumentationssprachenOntologien
YAGO
Suche automatisch extrahierter Instanzen aus Wikipedia(siehe auch DBpedia)
3. Wissensrepräsentation für Texte 89DokumentationssprachenOntologien
YAGO Ontology Browser
3. Wissensrepräsentation für Texte 89DokumentationssprachenOntologien
YAGO Ontology Browser
3. Wissensrepräsentation für Texte 90DokumentationssprachenOntologien
Freebase
Manuell erstellte Dokumenten/Faktenbasis:http://www.freebase.com
3. Wissensrepräsentation für Texte 91DokumentationssprachenOntologien
Freebase - Suchergebnis
3. Wissensrepräsentation für Texte 91DokumentationssprachenOntologien
Freebase - Suchergebnis
3. Wissensrepräsentation für Texte 91DokumentationssprachenOntologien
Freebase - Suchergebnis
3. Wissensrepräsentation für Texte 91DokumentationssprachenOntologien
Freebase - Suchergebnis
3. Wissensrepräsentation für Texte 92DokumentationssprachenOntologien
Werkzeuge und Anwendungen
Ontologie-Editoren zur Ontologie-Entwicklungüberprüfen Widerspruchsfreiheit der Ontologie und Erfüllungder Konsistenzbedingungen von InstanzenSysteme:
Protegé: protege.stanford.eduChimaera: www.ksl.stanford.edu/software/chimaera/Java Ontology Editor (JOE):www.cse.sc.edu/research/cit/demos/java/joe/joeBeta-jar.htmlWeitere siehe en.wikipedia.org/wiki/Ontology_editor
3. Wissensrepräsentation für Texte 94DokumentationssprachenOntologien
Wiederverwendung von Ontologien
Ontologie-Bibliotheken:DAML ontology library: (www.daml.org/ontologies)Ontolingua ontology library(www.ksl.stanford.edu/software/ontolingua/)Protégé ontology library (protege.stanford.edu/plugins.html)
Generelle Ontologien:DOLCE — Descriptive Ontology for Linguistic and CognitiveEngineering (www.loa-cnr.it/DOLCE.html)Cyc (www.cyc.com)DMOZ (www.dmoz.org)WordNet (www.cogsci.princeton.edu/ wn/)
3. Wissensrepräsentation für Texte 95DokumentationssprachenTagging
Tagging
Benutzer vergeben Stichwörter zu Dokumenten/Resourceninsbesondere auch für nicht-textuelle Dokumente (Bilder,Videos, . . . ) eingesetztLöst das Problem der Verschlagwortung großerDokumentmengen:
üblicherweise mit großem Aufwand verbundenArbeit wird auf viele Nutzer verteilt
3. Wissensrepräsentation für Texte 96DokumentationssprachenTagging
Webseiten: delicio.us
3. Wissensrepräsentation für Texte 97DokumentationssprachenTagging
Wissenschaftliche Artikel: Mendeley
3. Wissensrepräsentation für Texte 98DokumentationssprachenTagging
Bücher: Librarything
3. Wissensrepräsentation für Texte 99DokumentationssprachenTagging
Vorteile von Tagging
einfache, intuitive Nutzungflexibel, erweiterbar (sich änderndes Vokabular/Trends)Inklusiv (populäre Themen ebenso wie Spezialthemen)Gemeinschaftsgefühl (teilen/entdecken in sozialen Kontexten)multi-facettiertunterstützt unterschiedliche Benutzerbedürfnisse/SichtenKann das Vokabularproblem lösenTags spiegeln das Vokabular der Benutzer wieder
3. Wissensrepräsentation für Texte 100DokumentationssprachenTagging
Nachteile von Tagging
Inkonsistenzen bzgl. Terminologie und Abdeckungmehrdeutige Tags und Redundanzen erschweren die Navigationidiosynkratische Tags erzeugen RauschenKonzentration auf Popularität verschleiert die Information„tagging bulldozes the cost of classification and piles it ontothe price of discovery“ (Davis)
3. Wissensrepräsentation für Texte 101DokumentationssprachenTagging
Probleme und Tücken von Tagging
Kaltstartproblemverrauschte Daten (einige Tags sind nutzlos für dieCommunity)Tippfehlerschlechte Informationskodierung, ungewöhnlichezusammengesetze Terme („inforetriev“)Tags, die keinen Konventionen folgen („topic: informationretrieval“)nur einmal benutze Tags, persönliche Tags („ar15a“, „@home“)Minderheiten-VokabulareAntisoziales Tagging (Spam)
3. Wissensrepräsentation für Texte 102DokumentationssprachenTagging
Tagging: Zusammenfassung
+ insbesondere für nicht-textuelle Dokumente hilfreich+ benutzerorientierte Beschreibung von Objekten+ flexibles Vokabular– i.a. keine Strukturierung des Vokabulars
(aber: Folksonomies)– alle Nachteile der Freitextsuche bleiben
Zusammenhang zwischen Modellen undRepräsentationen
Einfache statistische Modelle
3. Wissensrepräsentation für Texte 104Zusammenhang zwischen Modellen und RepräsentationenEinfache statistische Modelle
Einfache statistische ModelleBeispiel für computerlinguistischen Ansatz
Text:Experiments with Indexing Methods.The analysis of 25 indexing algorithms has not produced consistentretrieval performance. The best indexing technique for retrievingdocuments is not known.
Stoppworteliminierung:experiments indexing methods analysis indexing algorithmsproduced consistent retrieval performance best indexing techniqueretrieving documents knownStammformreduktion:experiment index method analys index algorithm produc consistentretriev perform best index techni retriev document know
3. Wissensrepräsentation für Texte 104Zusammenhang zwischen Modellen und RepräsentationenEinfache statistische Modelle
Einfache statistische ModelleBeispiel für computerlinguistischen Ansatz
Text:Experiments with Indexing Methods.The analysis of 25 indexing algorithms has not produced consistentretrieval performance. The best indexing technique for retrievingdocuments is not known.Stoppworteliminierung:experiments indexing methods analysis indexing algorithmsproduced consistent retrieval performance best indexing techniqueretrieving documents known
Stammformreduktion:experiment index method analys index algorithm produc consistentretriev perform best index techni retriev document know
3. Wissensrepräsentation für Texte 104Zusammenhang zwischen Modellen und RepräsentationenEinfache statistische Modelle
Einfache statistische ModelleBeispiel für computerlinguistischen Ansatz
Text:Experiments with Indexing Methods.The analysis of 25 indexing algorithms has not produced consistentretrieval performance. The best indexing technique for retrievingdocuments is not known.Stoppworteliminierung:experiments indexing methods analysis indexing algorithmsproduced consistent retrieval performance best indexing techniqueretrieving documents knownStammformreduktion:experiment index method analys index algorithm produc consistentretriev perform best index techni retriev document know
3. Wissensrepräsentation für Texte 105Zusammenhang zwischen Modellen und RepräsentationenEinfache statistische Modelle
„semantische“ Sicht
Multimenge von TermsFormen des Vorkommens(Ort, Sicherheit)
Modell:Abbildung auf AttributeSemantik durch Statistik!
3. Wissensrepräsentation für Texte 105Zusammenhang zwischen Modellen und RepräsentationenEinfache statistische Modelle
„semantische“ Sicht
Multimenge von TermsFormen des Vorkommens(Ort, Sicherheit)
Modell:Abbildung auf AttributeSemantik durch Statistik!
3. Wissensrepräsentation für Texte 106Zusammenhang zwischen Modellen und RepräsentationenEinfache statistische Modelle
Computerlinguistische Verfahren sind präziser (undbenutzerfreundlicher) als der informatische Ansatz
aber:alle Verfahren sind mit Fehlern behaftet!
3. Wissensrepräsentation für Texte 106Zusammenhang zwischen Modellen und RepräsentationenEinfache statistische Modelle
Computerlinguistische Verfahren sind präziser (undbenutzerfreundlicher) als der informatische Ansatzaber:alle Verfahren sind mit Fehlern behaftet!