kohonennetze für information retrieval mit user feedback georg ruß otto-von-guericke-universität...
TRANSCRIPT
![Page 1: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/1.jpg)
Kohonennetze für Information Retrieval mit User Feedback
Georg Ruß
Otto-von-Guericke-Universität Magdeburg
E-mail: [email protected]
![Page 2: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/2.jpg)
Gliederung
• Motivation der präsentierten Datenverarbeitungsmethode
• Kohonennetze / Self Organizing Maps (SOM)• Information Retrieval am Beispiel von Email-
Sammlungen• User Feedback• Zusammenfassung der Ergebnisse
![Page 3: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/3.jpg)
Einleitung / Motivation
- großes Datenaufkommen in digitaler Form (Datenbanken, E-Mail-Sammlungen, Newsgroups, ...)
- zunehmende Unübersichtlichkeit
→ Methode zur Klassifikation und Filterung der Informationen notwendig
→ gewünschte Eigenschaften:
1. Verständlich 2. Fehlerfrei
3. Automatisch
→ Growing Self-Organizing Maps als Methode, die die gewünschten Eigenschaften aufweist
![Page 4: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/4.jpg)
Self-Organizing Maps (1)
1. Verständlich- bilden hochdimensionalen Eingaberaum in zweidimensionale Karte ab- Ähnlichkeitsbeziehungen werden durch Nachbarschaften dargestellt - Anpassungen des Netzes durch Gewichtsänderungen
![Page 5: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/5.jpg)
Self-Organizing Maps (2)
2. Fehlerfrei- Verfahren basiert auf Voronoi-Zerlegung→ „fehlerminimale“ Zerlegung des Eingaberaums in eine endliche Anzahl von Zuständigkeitsgebieten→ hexagonales Grid als Optimum zwischen lückenlos und fehlerminimal
![Page 6: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/6.jpg)
Self-Organizing Maps (3)
3. Automatisch
- “self-organizing“ als Begriff
- modellhafte Nachbildung von neuronalen Strukturen
- Lernen als automatisierter Prozeß
- Paradigma des „unsupervised learning“
- einfache mathematische Vektor-Methoden
)(),( :Gewichte
),(),( :tÄhnlichkei
'
1
isss
m
k jkikji
wwicvwi:w
wwDDS
![Page 7: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/7.jpg)
Information Retrieval (1)
Definition:
Information Retrieval ist ein Prozeß zur
1. Gewinnung,
2. Speicherung und
3. Pflege von Informationen.
- Visualisierung kommt noch hinzu
- im Folgenden an einem „Text-Mining“-Beispiel
![Page 8: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/8.jpg)
Information Retrieval (2)
zu 1. Informationsgewinnung
- filtering (Entfernen von Stop-Words)
- stemming (Bilden der Wortstämme)
- indexing (Bildung von Gruppen von Wörtern, die in ähnlichem Kontext auftauchen, „buckets“)
- Erstellen von Kontextvektoren für jedes Wort
- Erstellen von charakteristischen n-dimensionalen Vektoren für jedes Dokument, sog. „fingerprints“
![Page 9: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/9.jpg)
Information Retrieval (3)
![Page 10: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/10.jpg)
Information Retrieval (4)
zu 2. Speicherung (mit Visualisierung)
- Worte, die in ähnlichem Kontext auftauchen, sind selbst ähnlich zueinander
→ ähnliche Worte werden in der Wortkarte („word category map“) benachbart sein
→ Aufbau der Wortkarte erfolgt sukzessive
![Page 11: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/11.jpg)
Information Retrieval (5)
zu 2. Speicherung (mit Visualisierung)
- ähnliche Dokumente besitzen ähnliche Vektoren
→ ähnliche Dokumente werden in der Karte benachbart sein (bzw. im selben „bucket“)
→ Aufbau der Dokumentenkarte erfolgt sukzessive
→ zukünftige Veränderungen (z.B. neue „buzz words“) können durch ein erneutes Anlernen der Karte berücksichtigt werden
![Page 12: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/12.jpg)
User Feedback
Problem:
- Dokumente könnten in mehrere Cluster der Karte gut passen
Lösung:
- Einbeziehung der oft guten Intuition des Nutzers
- z.B. Abfrage per Drag-and-Drop
- Anpassung des gewünschten Ähnlichkeitsmaßes
(d.h. Änderung von Prioritäten einzelner Features)
![Page 13: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/13.jpg)
Ergebnisse / Nutzen (1)
Ergebnis: mehr Möglichkeiten einer Datenbankanfrage
- herkömmliche Suche nach Keyword
- visuelle Suche auf den erstellten Karten
i) auf der Wortkarte (Finden neuer Keywords)
ii) auf der Dokumentenkarte (Finden ähnlicher Dokumente)
- Content Based Search (Query by Example)
![Page 14: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/14.jpg)
Ergebnisse / Nutzen (2)
Ablauf einer Suche:
1. Herkömmliche Keyword-Suche
2. Anzeige der Treffer auf der Wort- / Dokumentenkarte
Wortkarte:
3a. Inspizieren der Wortkarte zum Finden neuer Keywords
Dokumentenkarte:
3b. Inspizieren der Dokumentenkarte zum Finden weiterer relevanter Dokumente
![Page 15: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/15.jpg)
Ergebnisse / Nutzen (3)
Content Based Search / Classification / Query by Example
a) e-mail als Vorlage für die Suche nach ähnlichen e-mails:
- Berechnung des Fingerprints
- Anzeige auf der Dokumentenkarte
- Ergebnis: ähnliche e-mails
b) Automatische Klassifikation von eingehenden e-mails:
- Berechnung des Fingerprints
- Einsortieren in die Dokumentenkarte, wobei die Buckets in diesem Fall „echte“ Mail-Ordner sein können
![Page 16: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/16.jpg)
![Page 17: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/17.jpg)
![Page 18: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/18.jpg)
![Page 19: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/19.jpg)
![Page 20: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/20.jpg)
![Page 21: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/21.jpg)
Zusammenfassung
Der Einsatz von Self-Organizing Maps innerhalb von Dokumentensammlungen bringt erhebliche Vorteile:
- automatisches Lernen sowie Visualisierung großer Dokumentsammlungen
- mehr Möglichkeiten zur Suche
- intuitive Verständlichkeit des Systems
- Möglichkeit zur Einbeziehung des Nutzers
- Flexibilität ohne großen Aufwand
- Prototypen: SOMAccess auf DUST-2 CD-ROM
Websom (http://websom.hut.fi)
![Page 22: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de](https://reader037.vdocuments.net/reader037/viewer/2022110305/55204d6149795902118b4d31/html5/thumbnails/22.jpg)
Vielen Dank für Ihre Aufmerksamkeit !