web-suchmaschinen: suchverhalten, informationsqualität, trends

36
Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends Prof. Dr. Dirk Lewandowski [email protected]

Upload: dirk-lewandowski

Post on 25-Jan-2015

632 views

Category:

Technology


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

Web-Suchmaschinen:Suchverhalten, Informationsqualität, TrendsProf. Dr. Dirk [email protected]

Page 2: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

1 |

Nutzerverhalten

Wie gut sind die gängigen Suchmaschinen?

Suche und Web 2.0

Fazit

Agenda

Page 3: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

2 |

Nutzerverhalten

Wie gut sind die gängigen Suchmaschinen?

Suche und Web 2.0

Fazit

Agenda

Page 4: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

3 |

Bedeutung der Suchmaschinen

• Suchmaschinen sind der Zugang zu Informationen im Netz.– Andere Zugänge (Kataloge, usw.) haben kaum noch Bedeutung.– Suchmaschinen bestimmen über die sichtbaren Inhalte des Web.– Suchmaschinen bestimmen das Nutzerverhalten (auch für andere

Informationssysteme).

Page 5: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

4 |

Drei Anfragetypen

Anfragetypen nach Broder (2002)

• Informational (informationsorientiert)– Nutzer möchte sich zu einem Thema informieren.– Ziel sind mehrere Dokumente.

• Navigational (navigationsorientiert)– Ziel ist es, eine bestimmte Seite (wieder) zu finden.– Typisch: Suche nach Homepage („Daimler Chrysler“).– Ziel ist i.d.R. ein Dokument.

• Transactional (transaktionsorientiert)– Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll.– Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.

Page 6: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

5 |

„Die meisten Nutzer sind nicht willens, bei der Formulierung ihresSuchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“

• Boolesche Operatoren– Bei weniger als 10% der Anfragen; keine Veränderung im Lauf der Jahre

(Spink&Jansen 2004).– Nur etwa die Hälfte der Nutzer weiß, dass es Operatoren gibt (Machill et al.

2003).– 20% der Nutzer geben an, sie öfter zu verwenden (Machill et al. 2003).– Etwa die Hälfte der Anfragen mit Operatoren enthält Fehler (Spink et al. 2000),

bei der Verwendung von Plus-/Minuszeichen lag die Fehlerquote bei 2/3.

• Profisuche– 59% der Nutzer kennen die Profisuche (Machill et al. 2003).– Nur 14% nutzen sie öfter (Machill et al. 2003).

(Machill et al. 2003)

Page 7: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

6 |

Grunddaten zum Nutzerverhalten (2)

• Auswertung der Treffer– 80% der Nutzer betrachten nur die erste Ergebnisseite (= 10 Treffer)

(Spink&Jansen 2004).– Vor allem die Treffer auf den ersten Listenplätzen werden angesehen; möglichst

kein Scrollen– Pro Session werden nur etwa fünf Dokumente gesichtet (Spink&Jansen 2004).– Sessions dauern weniger als 15 Minuten.

• Kaum Veränderungen im Lauf der Zeit

Page 8: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

7 |

Google groß

Page 9: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

Google klein

Page 10: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

9 |

Page 11: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

10 |

Selektionsverhalten (Top11 Treffer)

(Granka et al. 2004)

Page 12: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

11 |

Eye-tracking

(Enquiro Eye Tracking Report II)

Page 13: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

12 |

Nutzerverhalten

Wie gut sind die gängigen Suchmaschinen?

Suche und Web 2.0

Fazit

Agenda

Page 14: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

13 |

Die Qualität von Suchmaschinen kann nur durch eineKombination unterschiedlicher Faktoren gemessen werden.Qualitätsfaktoren für Suchmaschinen

• Qualität des Index– Größe des Datenbestands, Abdeckung des Web– Abdeckung bestimmter Bereiche (Sprachräume, Länder)– Überschneidungen der Indices– Aktualität des Datenbestands

• Qualität der Suchresultate– Retrievaleffektivität– Zufriedenheit der Nutzer– Überschneidungen der (Top-)Ergebnisse

• Qualität der Suchfunktionen

• Nutzerfreundlichkeit + Benutzerführung (Lewandowski & Höchstötter 2007)

Page 15: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

14 |

Web-Abdeckung

Keine Suchmaschine deckt das gesamte Web ab!– Aber: keine genauen Zahlen; aktuelle Untersuchungen fehlen.– Größe des Web ist unbekannt; die großen Suchmaschinen haben einige

Milliarden Dokumente indexiert.– Wenig erforschter Bereich: Invisible Web.

Definitionen Invisible/Deep Web– “Text pages, files, or other often high-quality authoritative information available

via the World Wide Web that general-purpose search engines cannot, due totechnical limitations, or will not, due to deliberate choice, add to their indices ofWeb pages" (Sherman u. Price 2001).

– “The deep Web - those pages do not exist until they are created dynamically asthe result of a specific search“ (Bergman 2001).

Page 16: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

15 |

Country Bias

Page 17: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

16 |

Überschneidung der Datenbestände

• Überschneidung der Indices– Relativ gering, daher lohnt sich die Suche in mehreren Suchmaschinen.

• Überschneidung der Suchergebnisse– Sehr gering innerhalb der Top10, 20.

Page 18: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

17 |

Überschneidung der Trefferlisten (Top10)

Page 19: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

18 |

Aktualität der Datenbestände

• Wichtig wegen– Auffinden und Erfassen neuer Dokumente.– Aktualisierung veränderter Dokumente; korrekte Repräsentation der URLs.

• Untersuchung 2005-2007– Beobachtungszeitraum jeweils sechs Wochen.– 40 täglich aktualisierte Seiten (+ 30 unregelmäßig aktualisierte).

Page 20: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

19 |

Auch aktuelle Seiten werden nicht zuverlässig regelmäßigindexiert.

Page 21: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

20 |

Aktualität der Datenbestände

Page 22: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

21 |

Aktualität der Datenbestände

Quelle: Lewandowski et al. 2006

Page 23: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

22 |

Retrievaleffektivität: Navigationsorientierte Anfragen

Page 24: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

23 |

Retrievaleffektivität: Informationsorientierte Anfragen

Klassische Tests

• Welche Suchmaschine liefert die besten Treffer?

• Test anhand von– einer bestimmten Anzahl von Suchanfragen (50).– einer bestimmten Anzahl von Treffern pro Suchmaschine (20).– Bewertungen durch Juroren (wichtige Frage: wer bewertet?).– Ja/Nein-Entscheidungen über Relevanz, verschiedenen Skalen.

Page 25: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

24 |

Precision ist das am häufigsten verwendete Retrievalmaß.

Klassische Retrievalmaße

• Precision– Anteil der relevanten ausgegebenen Treffer an der Gesamtheit der

ausgegebenen Treffer.– Wird bei Suchmaschinen i.d.R. bis zu einem Cut-Off-Wert bestimmt (z.B. 20).

• Recall– Anteil der relevanten ausgegebenen Treffer an der Gesamtheit aller überhaupt

vorhandenen Treffer (= aller im Web vorhandener relevanter Dokumente).– Bei Suchmaschinen nicht messbar (Ausweg evtl. über Pooling-Methoden).

• Fallout– Anteil der ausgegebenen nicht relevanten Treffer an der Gesamtzahl der nicht

relevanten Treffer im Datenbestand.• Generality

– Anteil der relevanten Dokumente im zugrunde liegenden Datenbestand.

Page 26: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

25 |

Precision@10 zwischen 0,43 und 0,60.

Page 27: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

26 |

Skalenbewertung zeigt die Gruppierung der Suchmaschinennoch deutlicher.

Page 28: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

27 |

Keine klare Reihung der Suchmaschinen, wenn einzelneAnfragen betrachtet werden.

Page 29: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

28 |

Offene Frage: Wie können Retrievalmaße dem spezifischenVerhalten der Suchmaschinen-Nutzer angepasst werden?Problembereiche

• Such-Sessions– Nur Treffer auf der ersten Ergebnisseite (bzw. auf dem direkt sichtbaren Bildschirmbereich)

werden angesehen.– In der Regel werden maximal fünf Dokumente angesehen.– Recherche wird oft abgebrochen, sobald ein passendes Dokument gefunden wurde.Wie können die Maße dem Bedürfnis nach nur einem/wenigen relevanten Treffern

angepasst werden?

• Zusammensetzung der Trefferlisten– Abbildung mehrerer Facetten eines Themas auf den vorderen Plätzen der Trefferlisten.Wie kann in der Evaluierung auf Facetten eingegangen werden?

• Interaktion– Allgemeines IR-Evaluationsproblem: Recherche ist immer als interaktiver Prozess

anzusehen.Wie können die Maße an den tatsächlichen Suchprozess angepasst werden?

Page 30: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

29 |

Nutzerverhalten

Wie gut sind die gängigen Suchmaschinen?

Suche und Web 2.0

Fazit

Agenda

Page 31: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

30 |

„Such-Ansätze“ des Web 2.0

• Social Bookmarking– Nutzer speichern Lesezeichen online und machen diese öffentlich zugänglich.– Lesezeichen werden mit tags verschlagwortet.– Beispiele: Mr. Wong; del.icio.us

• Frage-Antwort-Dienste– Nutzer stellen Fragen, Community antwortet.– Fragen und Antworten werden mit tags verschlagwortet.– Beispiele: Yahoo Clever, Lycos IQ

Page 32: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

31 |

Suchmaschinen, Social Bookmarking, Frage-Antwort-Dienste

(Gammer et al. 2008)

Suchmaschinen

F&A-Diente

Social Bookmarking

Page 33: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

32 |

Fazit Web 2.0 Dienste für die Suche

• Web 2.0 Dienste bieten bisher keine den Suchmaschinen vergleichbareTrefferqualität.

• Bislang kaum Ausnutzung der klassischen IR-Verfahren in diesenAnwendungen.

• Mashup der Ergebnisse aus allen Quellen könnte zu Qualitätssteigerungführen.

Page 34: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

33 |

Nutzerverhalten

Wie gut sind die gängigen Suchmaschinen?

Suche und Web 2.0

Fazit

Agenda

Page 35: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

34 |

Fazit

• Suchmaschinen prägen das Nutzerverhalten auch für andereInformationssysteme.

– „Google kann das doch auch!“

• Qualität der Suchmaschinen ist nur durch eine Kombination verschiedenerFaktoren messbar.

– Empirische Untersuchungen zeigen deutliche Unterschiede.– Beliebtheit von Google lässt sich nicht allein durch die Qualität erklären.

• Web 2.0 Dienste verbessern die Suche bislang nicht.– Potential ist aber durchaus vorhanden.

Page 36: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends

Vielen Dank für IhreAufmerksamkeit.

www.bui.haw-hamburg.de/lewandowski.html

Alle in der Präsentation genanntenArtikel zum Download.

Bücher:Handbuch Internet-Suchmaschinen(erscheint im Oktober)

Web-2.0-Dienste als Ergänzung zualgorithmischen Suchmaschinen

E-Mail:[email protected]