volltextsuche und text mining · 3. text mining sammlung von techniken und algorithmen zur...
TRANSCRIPT
![Page 1: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/1.jpg)
Volltextsuche und Text Mining
Datum: 22.12.2009Seminar: Einführung in die ComputerlinguistikReferenten: Cornelia Baldauf, Valentin Heinz, Adriana Kosior
1
![Page 2: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/2.jpg)
Agenda
1. Einführung
a) Volltextsuche
b) Text Mining
2. Volltextsuche
3. Text Mining
4. Quellen
2
![Page 3: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/3.jpg)
1. Einführung: Volltextsuche
Problem: Wie finde ich das Dokument, das mir bei meinem Informationsbedürfnis weiterhilft?
Volltextsuche
Volltextsuche ermöglicht das Auffinden von Texten in einer Vielzahl von Dateien im Internet, auf dem
Computer, usw.
3
![Page 4: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/4.jpg)
1. Einführung: Volltextsuche
Vorkommende Termini und ihre Positionen im Text werden ermittelt und in einem Index als Indexterme abgespeichert
→ Dokumente werden auf diese Weise suchbar gemacht
Definition Index:(alphabetisch) sortiertes Verzeichnis bestimmter Wörter oder Begriffe – Indexterme – unter denen Verweise auf Textstellen aufgelistet sind.
4
![Page 5: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/5.jpg)
1. Einführung: Volltextsuche
Indexterme werden automatisch aus dem Text extrahiert und in eine sortierte Reihenfolge gebracht
• Meist Normalisierung der Worte auf Stammformen
• Meist Ausfilterung der Stoppworte
5
![Page 6: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/6.jpg)
1. Einführung: Text Mining
~ Wissensgewinnung aus Texten
→ Automatischer Prozess, enthaltenes Wissen in Textdokumenten strukturiert aufzubereiten
→ Neues, interessantes und verwertbares Wissen, sowie Beziehungen zwischen Texten entdecken
→ Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten
→ Methoden:Informationsextraktion, Clusteranalyse, Mustererkennung
6
![Page 7: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/7.jpg)
1. Einführung: Text Mining
Abgrenzung zum Data Mining:
• Prozess zur Extraktion von impliziten, bislang unbekannten Informationen aus großen Datenbanken• Prozess der Identifizierung neuer, potentiell nützlicher Muster in großen Datenbanken
→ Text Mining arbeitet nicht auf den strukturierten Daten einer Datenbank, sondern versucht unstrukturierte Daten (Textdokumente) in eine Struktur zu überführen
7
![Page 8: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/8.jpg)
1. Einführung: Text Mining
Prozess des Text Mining:
8
ZielsetzungDokument-
selektionAufbereitung Data Mining Evaluation
![Page 9: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/9.jpg)
2. VolltextsucheLinguistische Ebenen
Phonetik: Nein
Phonologie: Nein
Morphologie: Ja
Syntax: Ja
Semantik: Nein
Pragmatik: Nein
9
![Page 10: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/10.jpg)
2. VolltextsucheGenerelle Schwierigkeiten
• Textmenge meist sehr groß
• Suchanfragen während die Textmenge sich laufend verändert
• Suchergebnisse sollen schnell ausgegeben werden
10
![Page 11: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/11.jpg)
2. VolltextsucheLinguistische Schwierigkeiten
Indexerstellung: (Morphologie + Syntax)
o Erkennen der Wörter(Indexterme), Wortgrenzen etc. z.B. Hunde-Kuchen, Sindbad der Seefahrer
Normalisierung: (Morphologie + Syntax)
o (sprachabhängige) Reduktion der ermittelten Indexterme auf Stammformen z.B. *Hund-Kuchen, Kätzchen, leitete her
11
![Page 12: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/12.jpg)
•RRetrieval: (Semantik + Pragmatik)
o Recherchieren / Stellen der Suchanfrage (teilweise lösbar durch Trunkierungen)
z.B. Hundekuchen | Hunde-Kuchen | Kuchen für Hunde, Schmidt | Schmid | Schmitt
o Erkennen der Bedeutung der Suchterme z.B. Golf (Automarke, Sportart, Bucht), Ring (Schmuck, Augenring, Boxring, Jahresring v. Bäumen)
12
2. VolltextsucheLinguistische Schwierigkeiten
![Page 13: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/13.jpg)
3. Text Mining
Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten
ZielsetzungDokument-selektion
Aufbereitung Evaluation
13
Unstrukturierter Text soll maschinell verarbeitet werden → strukturelle linguistische Aufbereitung
Arbeitsgegenstand → annotierter Textkorpus (Textsammlung)
Data Mining
![Page 14: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/14.jpg)
14
3. Text Mining – Vorverarbeitung Linguistische Bestandteile
Bereich: Methode:
Phonetik/Phonologie Nein
Morphologie Ja StemmingLemmatisierungKompositaanalyse
Syntax Ja Parsing
Semantik Ja Wortsinndisambiguierung
Pragmatik Nein
Grammatik Ja POS Tagging
![Page 15: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/15.jpg)
• Wörter auf Grundformen reduzieren:
Lauf aus dem über-laufen-den Staubecken.
→ Stemming.
• Wörter auf gemeinsame Stämme zurückführen:
Lauf aus dem überlaufenden Staubecken.
→ Lemmatisierung.
15
3. Text MiningLinguistische Schwierigkeiten
![Page 16: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/16.jpg)
Lauf aus dem überlaufenden Staubecken.
→ heuristische Kompositaanalyse
→ vorkommende Begriffe ermöglichen die Angabe einer Wahrscheinlichkeit, welche Bedeutung gemeint ist (Affix undoder Kontextebene)
16
3. Text MiningKomposita auflösen
![Page 17: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/17.jpg)
Wortart herausfinden: Lauf = Verb/Nomen?
Lauf aus dem überlaufenden Staubecken.
→ Part of Speech tagging
linguistisch: (Constraint Grammar) → unsere QDATR Regelnstatistisch:
→ Markov Model→ Hidden Markov Model→ Maximum Entropie Modell
17
3. Text MiningPart of Speech Tagging
![Page 18: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/18.jpg)
Wortebene:• Stoppwortliste und Ngramme
Satzebene:• Parsing
Verfahren bzgl. Dokumente:• Clustering• Klassifizieren• Vektorraummodell
18
3. Text MiningIR-Methoden und Verfahren zu Dokumenten
![Page 19: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/19.jpg)
Texte einem (pseudonymen) Autor zuordnenAutomatische Emailbeantwortung
Trends erkennen [Cuba → Cigar vs. Cuba → Rocket]Neues Wissen entdecken [Migräne → Magnesium]
Texte in Kategorien einteilen [news.google.com] (Nachrichten/Sport/Reportage/...)
19
3. Text MiningAnwendungsbeispiele:
![Page 20: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/20.jpg)
Don Swanson (1994):Titles of articles in the biomedical literature
stress is associated with migrainesstress can lead to loss of magnesiumcalcium channel blockers prevent some migraines magnesium is a natural calcium channel blocker
20
3. Text MiningBeispiel:
Neue medizinische Hypothese :
→ Magnesiummangel spielt bei Migräne manchmal eine Rolle.
![Page 21: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/21.jpg)
• Abgrenzungsproblem: Begriff Textmining
• Komplexe Programme (Bsp: RapidMiner)• Komplizierte Bedienung• Viele Algorithmen/Abstandsmaße/...• Anfangsproblem: Generierung durch Filterung• Kriterienproblem:
There is nothing either good or bad,But thinking makes it so.
(William Shakespeare, Hamlet, II:2)
21
3. Text MiningProbleme, Probleme, Probleme, ...
![Page 22: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/22.jpg)
Quellen
Carstensen et al. (2001). Computerlinguistik und Sprachtechnologie. Eine Einführung. Heidelberg, Berlin: Spektrum, Akad. Verl.Wissensexploration.de. Retrieved December, 17, 2009 from http://wissensexploration.de/textmining.phpMailvaganam, Hari. Text Mining for Fraud Detection. Retrieved December, 19, 2009 from http://www.dwreview.com/Data_mining/Effective_Text_Mining.htmlHearst, Marti A.. Untangling Text Data Mining. Retrieved December, 19, 2009 from http://people.ischool.berkeley.edu/~hearst/papers/acl99/acl99-tdm.htmlText Mining. Retrieved December, 19, 2009 from: http://en.wikipedia.org/wiki/Textmining
22
![Page 23: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/23.jpg)
Übung Text Mining:
Rufe i:/EinfCl/textmining-email/ auf und öffne die .txt Datei.
Überlege dir Kriterien anhand derer man den Namen des Email-Absenders herausfinden kann.
![Page 24: Volltextsuche und Text Mining · 3. Text Mining Sammlung von Techniken und Algorithmen zur automatischen Analyse von unstrukturierten Daten Zielsetzung Dokument-selektion Aufbereitung](https://reader031.vdocuments.net/reader031/viewer/2022041314/5e15d1abbf415d58fc7fc117/html5/thumbnails/24.jpg)
Übung Volltextsuche:
Sindbad der Seefahrer traf Marco Polo im Polo-Shirt zum Polo spielen.
Er fütterte das Ross mit einem Pferde-Leckerli.
Polo wollte sich in den Sattel schwingen, hatte zuviel Schwung und landete auf dem Hinterteil.
Der Andere sagte lachend:“Geschickt, wirklich sehr geschickt...“ und schickte sich an ebenfalls aufzusteigen.