suchen und finden im collaborative workspacei e ziente suchstrategien werden immer wichtiger i...
TRANSCRIPT
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Suchen und Finden im Collaborative Workspace
Raoul Pascal Pein
Department Informatik HAW Hamburg
24. November 2006
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Einführung
AnwendungsszenarienTextbasiert (�klassisch�)OrtsbezogenBildsucheLow-Level Ansatz
Eigener AnsatzArchitekturSkalierung
ZieleMasterprojekt
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Motivation
�Content that cannot be easily found is like content that does notexist, [...]. The easier it becomes to produce content, the faster theamount of content grows and the more complex the problem ofmanaging content gets.�
Fernando Pereira, Rob Koenen
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Problem im Collaborative Workspace
Wo sind die Informationen, die ich benötige?
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Textbasiert (�klassisch�)
Google Desktop Search
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Textbasiert (�klassisch�)
Beagle Desktop Search
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Ortsbezogen
GoogleMaps
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Ortsbezogen
Rescue
Arbeit mit interaktiven ÜbersichtskartenSuche von:
I SensordatenI PositionsabhängigI Überschreitung von
SchwellwertenI KamerasI Einsatzkräften
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Bildsuche
F-SpotTags, Timestamps
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Bildsuche
FlickrSets, Groups, Tags, Timestamps, Geotags
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Bildsuche
Content Based + Text/Tags
Benutzer kann Bilder in einem groÿen Bestand ansehen und auchgezielt nach diversen Kriterien suchen und �ltern
I SchlagworteI KategorienI InhaltsbasiertI Eigene Zeichnung
Zusätzliche Annotation währendder Benutzung denkbar
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Low-Level Ansatz
Virtuelle Verzeichnisse
I Auf Dateisystemebene (z.B. Samba Share)I Vorde�nierte Suchanfrage für ein VerzeichnisI Inhalt repräsentiert SuchergebnisI Für Anwendungen vollkommen transparentI Bei Änderungen der Datenbasis automatische Aktualisierung
Beispiel: �intelligente Wiedergabeliste� bei iTunes
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Architektur
Position im Gesamtprojekt
Presentation Layer(Philipp)
Blade Server
Persistence Layer(Mykhaylo)
RetrievalServer
Servlets
User Interface
FS
HTTP
FSNASetc.
DBIndex
FSNASetc.
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Architektur
Retrieval Architektur
Blade Server
RetrievalServer
Administration
Daemon
Beagle
notify
RetrievalClient
Servlets
externalUIexternal
UIexternalUI
Persis-tence
textual query
VirtualFolder
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Architektur
Besonderheiten beim Content Based Image Retrieval
I Suche nach Ähnlichkeit statt Identität (über Aspekte wieHistogramme, Formen, ...)
I Keine scharfen De�nitionen von Richtig und FalschI Suchanfragen können nur näherungsweise gestellt werdenI Ergebnisse sind �eher richtig� und �eher falsch�
I Qualität hängt stark von den zu Grunde liegenden Aspekten ab
Wie erhält man ein brauchbares Ranking?
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Architektur
Beispielaspekte
Universelle AspekteI SchlüsselwörterI SemantikI Kategorien/TagsI Erstellungsdatum/Zeitpunkt
Bildspezi�sche AspekteI HistogrammeI FormenI Wavelets
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Architektur
Berechnung der kombinierten Ähnlichkeit
rx =1∑n
f =1 w f ∗n∑
f =1w f ∗ r fx
n Anzahl der verschiedenen Bildaspektex Ein Bild aus dem Datenbestandrx �Ranking� (Ähnlichkeitsmaÿ) zwischen Anfrage und Bild xf �Feature� (Vergleichsaspekt)
w f Gewichtung eines Aspektsr fx Teilranking für Bild x bezogen auf Aspekt f
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Skalierung
Probleme bei der Skalierung
I Indexerstellung gerade bei hochaufösenden Bildern teuerI Eine perfekte Ähnlichkeitssuche benötigt einen kompletten
Scan über alle DatenätzeI Rankingaufwand steigt linear mit der Anzahl der Datensätze
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Skalierung
Load BalancingMehrere Server können sich Aufträge auf einfache Weise teilen:
IndexCache
IndexCache
IndexCache
RetrievalServer 1
Servlets
IndexBlackboard(e.g. Java Space)
RetrievalServer 2
RetrievalServer 3
SubQuery
SubQuery
SubResult
SubResult
Result
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Skalierung
Suchraum eingrenzen
ProblemÄhnlichkeitssuche lässt sich nicht direkt auf einfache Indexeabbilden. Praktisch jeder Vergleich liefert eine Ähnlichkeit > 0,0.Dadurch existieren keine klaren Grenzen, welches Objekt in dieErgebnismenge gehört.
Lösungsansätze
I ClusteringI Mehrdimensionale SuchbäumeI �harte� Filter (Keywords, Kategorien, Tags)
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Masterprojekt
Prototyp
I Integration in gemeinsames ProjektI Ähnlichkeitssuche über extrahierte AspekteI Textsuche extern z.B. über BeagleI Semantische Beziehungen z.B. über Topicmaps (TopicSEEK)I Automatische Erfassung von Meta/IndexdatenI Manuelle Erweiterung/Verfeinerung der IndexdatenI Samba-Shares als low-level Schnittstelle
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Masterprojekt
Risiken
I Evaluierung von CBIR generell schwierig, da es keineReferenzprojekte gibt
I Samba-Shares möglicherweise extrem aufwändig zuimplementieren
I O�en zugängliche Systeme können mit �Müll� ge�utet werden(z.B. Wikis)
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
Masterprojekt
Evaluierung der kombinierten Suche
Möglicher Ablauf
1. Interne Auswahl eines zufälligen Bildes2. Suche mit vorgegebenen Parametern (Einzelaspekt,
Kombination)3. Präsentation der Ergebnismenge4. Versuchsperson selektiert Ergebnisse, die sie als ähnlich ansieht5. Nächstes Bild
Die erhaltenen Daten können bei ausreichend vielenTestdurchläufen statistisch ausgewertet werden.
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung
ZusammenfassungDie zu bewältigenden Datenmengen wachsen ständig, auch imprivaten Bereich
I Kurze Wege zu den Daten werden benötigtI Einfache hierarchische Dateisysteme reichen nicht mehr ausI E�ziente Suchstrategien werden immer wichtigerI Systembedingt können bei der Suche Daten �verschwinden�
I Auf Geschwindigkeit optimierte Indexe können inkonsistent seinI Inhaltbasierte Suche bei Bildern, etc. ist nicht eindeutig
�Content that cannot be easily found is like content that does notexist, [...].�
Fernando Pereira, Rob Koenen
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Anhang
Weiterführende Literatur
Weiterführende Literatur I
J.P. Eakins, M.E. GrahamContent-based Image Retrieval. A Report to the JISCTechnology Applications ProgrammeUniversity of Northumbria at Newcastle, 1999
Andreas ChristensenSemantische Anreicherung von Suchanfragen auf Basis vonTopic MapsHochschule für Angewandte Wissenschaften Hamburg, 2005
Raoul Pascal PeinMulti-Modal Image Retrieval - A Feasibility StudyHochschule für Angewandte Wissenschaften Hamburg, 2006
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Anhang
Weiterführende Literatur
Weiterführende Literatur II
I Beagle Desktop Searchhttp://beagle-project.org/Main_Page
I F-Spot - personal photo managementhttp://f-spot.org
I Flickrhttp://www.�ickr.com/
I Google Desktop Search / Google Mapshttp://www.google.com
I iTuneshttp://www.apple.com/de/itunes/jukebox/playlists.html
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace
Anhang
Die letzte Seite
Die letzte Seite
Vielen Dank für die Aufmerksamkeit
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace