vergleichende betrachtung der funktionalität und leistungsfähigkeit von internet-suchmaschinen

23
1 Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet- Suchmaschinen Prof. Dr. Dirk Lewandowski [email protected] Programm heute 14.00 - 15.30 Uhr: Internetsuchmaschinen - Kritische Betrachtung von Funktionalität und Leistungsfähigkeit im Vergleich (Vortrag) Vergleich der Leistungsfähigkeit (Qualität) der bekannten Suchmaschinen kurze Pause Überblick Recherchemöglichkeiten 16.00 - 17.30 Uhr: Gruppenweise Durchführung von Recherchen Recherchieren in der Gruppe Vorstellung der Recherchen im Plenum Was Sie schon immer über Suchmaschinen wissen wollten...

Upload: dirk-lewandowski

Post on 25-Jan-2015

172 views

Category:

Technology


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

1

Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

Prof. Dr. Dirk Lewandowski [email protected]

Programm heute

•  14.00 - 15.30 Uhr: Internetsuchmaschinen - Kritische Betrachtung von Funktionalität und Leistungsfähigkeit im Vergleich (Vortrag)

–  Vergleich der Leistungsfähigkeit (Qualität) der bekannten Suchmaschinen –  kurze Pause –  Überblick Recherchemöglichkeiten

•  16.00 - 17.30 Uhr: Gruppenweise Durchführung von Recherchen –  Recherchieren in der Gruppe –  Vorstellung der Recherchen im Plenum –  Was Sie schon immer über Suchmaschinen wissen wollten...

Page 2: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

2

Welche Suchmaschinen sind wichtig?

Wie suchen Nutzer im Web?

Wie kann man die Qualität von Suchmaschinen messen?

Qualität des Index

Qualität der Treffer

Recherchemöglichkeiten

Gliederung

Welche Suchmaschinen sind wichtig?

Wie suchen Nutzer im Web?

Wie kann man die Qualität von Suchmaschinen messen?

Qualität des Index

Qualität der Treffer

Recherchemöglichkeiten

Gliederung

Page 3: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

3

5 |

Bedeutung der Suchmaschinen

•  Suchmaschinen sind der Zugang zu Informationen im Netz. – Andere Zugänge (Kataloge, usw.) haben kaum noch Bedeutung. – Suchmaschinen bestimmen über die sichtbaren Inhalte des Web. – Suchmaschinen bestimmen das Nutzerverhalten (auch für andere

Informationssysteme).

6 |

Suchmaschinenmarkt (D)

Page 4: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

4

7 |

8 |

Suchmaschinen-Indizes

Suchmaschinen mit eigenem Index – Google, Yahoo, MSN (Live.com; Kumo?) – Ask – Exalead – Cuil

Ohne eigenen Index – Alle Portale: T-Online, Web.de, AOL, ... –  „Klassiker“: Altavista, All the Web, ... –  „Neue Suchmaschinen“: Wikia Search

Page 5: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

5

9 |

Warum sind Alternativen notwendig?

•  Qualität der Ergebnisse

•  Vielfalt –  „Zweite Meinung“

•  Trefferpräsentation

•  Nutzerbindung – Verknüpfung von Nutzungsdaten mit Nutzerprofilen

•  Innovation

Alternativen

•  Andere Universalsuchmaschinen

•  Spezielle Kollektionen

•  Spezialsuchmaschinen

•  Kommerzielle Datenbanken

•  Freie Datenbanken im Invisible Web

Page 6: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

6

Welche Suchmaschinen sind wichtig?

Wie suchen Nutzer im Web?

Wie kann man die Qualität von Suchmaschinen messen?

Qualität des Index

Qualität der Treffer

Recherchemöglichkeiten

Gliederung

„Die meisten Nutzer sind nicht willens, bei der Formulierung ihres Suchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“

•  Suchanfragen – Durchschnittliche Länge: 1,7 Wörter – Ca. 50% Einwort-Anfragen

•  Ergebnisseiten – 80% der Nutzer gehen nicht über die erste Ergebnisseite hinaus. – Nutzer betrachten bevorzugt die ersten Ergebnisse (“über dem Knick”). – Pro Session werden bis etwa fünf Dokumente angesehen. – Sessions dauern i.d.R. weniger als 15 Minuten.

•  Nutzer sind meist mit ihren Suchergebnissen zufrieden.

•  Nutzer erwarten, dass alle Systeme so leicht zu bedienen sind wie Google.

(Machill et al. 2003)

Page 7: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

7

13 |

Google groß

14 |

Page 8: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

8

15 |

Shortcuts

16 |

Selektionsverhalten (Top11 Treffer)

(Granka et al. 2004)

Page 9: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

9

Welche Suchmaschinen sind wichtig?

Wie suchen Nutzer im Web?

Wie kann man die Qualität von Suchmaschinen messen?

Qualität des Index

Qualität der Treffer

Recherchemöglichkeiten

Gliederung

18 |

Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. Qualitätsfaktoren für Suchmaschinen

•  Qualität des Index –  Größe des Datenbestands, Abdeckung des Web –  Abdeckung bestimmter Bereiche (Sprachräume, Länder) –  Überschneidungen der Indices –  Aktualität des Datenbestands

•  Qualität der Suchresultate –  Retrievaleffektivität –  Zufriedenheit der Nutzer –  Überschneidungen der (Top-)Ergebnisse

•  Qualität der Suchfunktionen

•  Nutzerfreundlichkeit + Benutzerführung (Lewandowski & Höchstötter 2007)

Page 10: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

10

Welche Suchmaschinen sind wichtig?

Wie suchen Nutzer im Web?

Wie kann man die Qualität von Suchmaschinen messen?

Qualität des Index

Qualität der Treffer

Recherchemöglichkeiten

Gliederung

20 |

Web-Abdeckung

Keine Suchmaschine deckt das gesamte Web ab! – Aber: keine genauen Zahlen; aktuelle Untersuchungen fehlen. – Größe des Web ist unbekannt; die großen Suchmaschinen haben einige

Milliarden Dokumente indexiert. – Wenig erforschter Bereich: Invisible Web.

Definitionen Invisible/Deep Web –  “Text pages, files, or other often high-quality authoritative information available

via the World Wide Web that general-purpose search engines cannot, due to technical limitations, or will not, due to deliberate choice, add to their indices of Web pages" (Sherman u. Price 2001).

–  “The deep Web - those pages do not exist until they are created dynamically as the result of a specific search“ (Bergman 2001).

Page 11: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

11

21 |

Taxonomie der digitalen Online-Information

(Stock 2003)

22 |

Country Bias

Page 12: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

12

23 |

Überschneidung der Datenbestände

•  Überschneidung der Indices – Relativ gering, daher lohnt sich die Suche in mehreren Suchmaschinen.

•  Überschneidung der Suchergebnisse – Sehr gering innerhalb der Top10, 20.

24 |

Auch aktuelle Seiten werden nicht zuverlässig regelmäßig indexiert.

Page 13: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

13

25 |

Aktualität der Datenbestände

Welche Suchmaschinen sind wichtig?

Wie suchen Nutzer im Web?

Wie kann man die Qualität von Suchmaschinen messen?

Qualität des Index

Qualität der Treffer

Recherchemöglichkeiten

Gliederung

Page 14: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

14

27 |

Drei Anfragetypen

Anfragetypen nach Broder (2002)

•  Informational (informationsorientiert) – Nutzer möchte sich zu einem Thema informieren. – Ziel sind mehrere Dokumente.

•  Navigational (navigationsorientiert) – Ziel ist es, eine bestimmte Seite (wieder) zu finden. – Typisch: Suche nach Homepage („Daimler Chrysler“). – Ziel ist i.d.R. ein Dokument.

•  Transactional (transaktionsorientiert) – Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden

soll. – Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.

28 |

Retrievaleffektivität: Navigationsorientierte Anfragen

Page 15: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

15

29 |

Precision ist das am häufigsten verwendete Retrievalmaß.

Klassische Retrievalmaße

•  Precision – Anteil der relevanten ausgegebenen Treffer an der Gesamtheit der

ausgegebenen Treffer. – Wird bei Suchmaschinen i.d.R. bis zu einem Cut-Off-Wert bestimmt (z.B. 20).

•  Recall – Anteil der relevanten ausgegebenen Treffer an der Gesamtheit aller überhaupt

vorhandenen Treffer (= aller im Web vorhandener relevanter Dokumente). – Bei Suchmaschinen nicht messbar (Ausweg evtl. über Pooling-Methoden).

•  Fallout – Anteil der ausgegebenen nicht relevanten Treffer an der Gesamtzahl der nicht

relevanten Treffer im Datenbestand. •  Generality

– Anteil der relevanten Dokumente im zugrunde liegenden Datenbestand.

30 |

Top 10 Precision

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

Number of results

Precis

ion

Google

Yahoo

Live

Metager

Cuil

Google 0,60 0,58 0,59 0,57 0,55 0,53 0,51 0,52 0,50 0,49

Yahoo 0,54 0,57 0,53 0,53 0,51 0,52 0,50 0,50 0,49 0,48

Live 0,48 0,48 0,49 0,45 0,46 0,45 0,43 0,43 0,42 0,41

Metager 0,30 0,29 0,25 0,23 0,20 0,19 0,18 0,18 0,17 0,16

Cuil 0,15 0,18 0,17 0,15 0,16 0,16 0,16 0,15 0,15 0,16

1 2 3 4 5 6 7 8 9 10

Page 16: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

16

31 |

Skalenbewertung zeigt die Gruppierung der Suchmaschinen noch deutlicher.

Vergleich der Precision nach Listenplatz (Top20; Skala)

0,00

0,50

1,00

1,50

2,00

2,50

3,00

Trefferplatz

Du

rch

sch

nit

tlic

he P

recis

ion

Google

Yahoo

MSN

Ask

Seekport

Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32

Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42

MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99

Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12

Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

32 |

Veränderungen 2008-2008 (Beispiel)

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

Number of results

Precis

ion

Google

Google2007

Google 0,60 0,58 0,59 0,57 0,55 0,53 0,51 0,52 0,50 0,49

Google2007 0,75 0,71 0,71 0,67 0,64 0,62 0,59 0,58 0,55 0,55

1 2 3 4 5 6 7 8 9 10

Page 17: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

17

33 |

Suchmaschinen, Social Bookmarking, Frage-Antwort-Dienste

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

Trefferanzahl

Pre

cis

ion

google 3,843 3,725 3,647 3,510 3,459 3,271 3,148 3,142 3,068 2,992

yahoo 3,039 2,941 2,850 2,897 2,804 2,797 2,753 2,730 2,653 2,608

MSN 2,765 2,784 2,889 2,814 2,627 2,542 2,462 2,365 2,292 2,216

Mr. Wong 1,765 1,922 1,904 1,956 1,867 1,846 1,792 1,755 1,785 1,680

del.icio.us 1,647 1,706 1,837 1,672 1,668 1,723 1,785 1,749 1,733 1,667

Yahoo! Clever 2,294 2,212 2,279

Lycos IQ 2,725 2,546 2,455

1 2 3 4 5 6 7 8 9 10

(Gammer et al. 2008)

Suchmaschinen

F&A-Diente

Social Bookmarking

34 |

Offene Frage: Wie können Retrievalmaße dem spezifischen Verhalten der Suchmaschinen-Nutzer angepasst werden? Problembereiche

•  Such-Sessions –  Nur Treffer auf der ersten Ergebnisseite (bzw. auf dem direkt sichtbaren Bildschirmbereich)

werden angesehen. –  In der Regel werden maximal fünf Dokumente angesehen. –  Recherche wird oft abgebrochen, sobald ein passendes Dokument gefunden wurde.  Wie können die Maße dem Bedürfnis nach nur einem/wenigen relevanten Treffern

angepasst werden?

•  Zusammensetzung der Trefferlisten –  Abbildung mehrerer Facetten eines Themas auf den vorderen Plätzen der Trefferlisten.  Wie kann in der Evaluierung auf Facetten eingegangen werden?

•  Interaktion –  Allgemeines IR-Evaluationsproblem: Recherche ist immer als interaktiver Prozess

anzusehen.  Wie können die Maße an den tatsächlichen Suchprozess angepasst werden?

Page 18: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

18

Welche Suchmaschinen sind wichtig?

Wie suchen Nutzer im Web?

Wie kann man die Qualität von Suchmaschinen messen?

Qualität des Index

Qualität der Treffer

Recherchemöglichkeiten

Gliederung

36 |

Katholisch? Evangelisch? Ja, was denn nun?

Page 19: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

19

37 |

Neonazis informieren über schwarzen Bürgerrechtler

Grundlegende Suchfunktionen

•  Boolesche Operatoren – Yahoo, MSN, Ask: vollständige Unterstützung. – Google: keine vollständige Unterstützung, OR arbeitet unzuverlässig,

Klammerung funktioniert nicht.

•  Phrasensuche –  funktioniert bei allen

•  Abstandsoperatoren – nur bei Exalead

Page 20: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

20

Suche über Felder

in der erweiterten Suche oder über Befehle

•  Titel: –  title:

•  Dateityp: –  filetype:

•  URL: –  inurl:

•  bestimmter Server: –  site:

•  Land (über Top-Level-Domain) –  site:

•  Verlinkung: –  link:

•  Sprache

•  Datum

40 |

Funktionsfähigkeit der Datumsbeschränkung

Quelle: Lewandowski 2004

Page 21: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

21

41 |

Funktionstüchtigkeit der Sprachbeschränkung (deutsch-englisch)

Weitere Suchmöglichkeiten

•  Ähnliche Seiten

•  Cache Copies – Google, Yahoo, MSN – bei Ask teilweise

•  Alte Versionen von Websites – Wayback Machine: www.archive.org

Page 22: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

22

Benutzerführung: Einschränkung der Suchergebnisse

•  Clustering –  www.clusty.com (Datenbasis: Metasuche)

•  Visualisierung von Suchergebnissen –  www.kartoo.com (Datenbasis: Metasuche)

•  Vorschläge für Suchanfragen –  www.yahoo.de –  www.ask.de –  Google (am Ende der ersten Ergebnisseite)

•  Vorschläge während der Eingabe –  Yahoo –  Google.com –  Cuil (inkl, Website-Vorschlägen)

•  Bewertung von Suchergebnissen –  Wikia Search –  Google Search Wiki (in Google.com)

Dokumentkollektionen

Page 23: Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

23

45 |

Suche jenseits von Google und Co.

Vielen Dank für Ihre Aufmerksamkeit.

www.bui.haw-hamburg.de/lewandowski.html

Aktuelle Bücher: Handbuch Internet-Suchmaschinen

Web-2.0-Dienste als Ergänzung zu algorithmischen Suchmaschinen

E-Mail: [email protected]