information-retrieval: evaluation - universität zu köln...information-retrieval: evaluation claes...

Systembewertung Evaluationsmaße Ergebnislisten Literatur

Information-Retrieval:Evaluation

Claes NeuefeindFabian Steeg

17. Dezember 2009

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln


Themen des Seminars

I Boolesches Retrieval-Modell (IIR 1)

I Datenstrukturen (IIR 2)

I Tolerantes Retrieval (IIR 3)

I Vektorraum-Modell (IIR 6)

I Evaluation (IIR 8)

I Web-Retrieval (IIR 19-21)



Basis-Komponenten eines IR-Systems

I Vorverarbeitung von Dokumenten

I Invertierter Index

I Rechtschreibprufung/unscharfes MatchenI Hilfsindizes:

I PositionalI K-Gram/PermutermI Parameter/Bereiche

I Ranking



Ein vollstandiges IR-System

Abbildung: www.informationretrieval.org


www.informationretrieval.org


Systembewertung

EvaluationsmaßePrecision & RecallEvaluation und Ranking

Ergebnislisten

Literatur



Bewertungskriterien fur IR-Systeme

I Beschaffenheit des Korpus (Große, Inhalte)

I Geschwindigkeit der IndexierungI Geschwindigkeit der Suche

I Quantifizierbare Großen

I Aussagekraft der Anfragen (Boole, Wildcards, etc.)

I Checklisten verfugbarer FeaturesI Auswirkung auf Suchdauer

I Wesentlich: Nutzerzufriedenheit





I Geschwindigkeit der Indexierung

I Geschwindigkeit der Suche











I Aussagekraft der Anfragen (Boole, Wildcards, etc.)I Checklisten verfugbarer Features

I Auswirkung auf Suchdauer








I Aussagekraft der Anfragen (Boole, Wildcards, etc.)I Checklisten verfugbarer FeaturesI Auswirkung auf Suchdauer




Nutzerzufriedenheit

I Bedurfnisse der Nutzer sind stark domanenspezifisch:I Web: Suche→ Maß: Rate der wdh. Nutzung der Suchmaschine

I Web: Werbung→ Maß: Clicks von Nutzern

I eCommerce: Kaufer/Verkaufer→ Maß: Dauer bis Kauf/Anteil der Suchenden, die kaufen

I Enterprise: Suchdauer→ Produktivitat (Profit)

I Keine allgemeine Methodik fur Studien

I Gemeinsamkeit: Frage nach der Relevanz



Relevanz von Suchergebnissen

I Um Relevanz zu messen braucht es mindestens:I ReferenzkorpusI Menge von Anfragen, die versch. Informationsbedarf

formulierenI Relevanzurteile zu (moglichst) allen Anfrage/Dokument-Paaren

→ gold standard

I Faktoren:I Große des KorpusI Zusammensetzung des KorpusI Menge der Anfragen > 50



Relevanz von Suchergebnissen

I Anfragen mussen auf Korpus abgestimmt seinI Anfragen mussen Nutzerverhalten realistisch abbilden

I Zufallige Auswahl nicht sinnvoll (→ Experten)

I Urteile relativ zu Informationsbedarf, nicht zu AnfrageI Alle Worte enthalten 6= Gesuch erfullt

I Fur Evaluation sind klare Angaben notig

I Probleme:I Relevanz ist ein subjektiver, skalierbarer WertI Manuelle Bewertung aufwandig (zuverlassig?)



Beispiel fur ein Referenzkorpus: TREC

I Text Retrieval Conference, seit 1992 ausgerichtet vom NIST(National Institute of Standards and Testing)→ siehe http://trec.nist.gov/

I Enthalt verschiedene Testsettings:I Sammlungen von Dokumenten (u.a. Reuters)I Retrieval-Tasks, z.T. als Anfragen formuliertI Relevanzurteile durch Experten


http://trec.nist.gov/


Precision & Recall

Precision & Recall

I Precision (P): Anteil relevanter Dokumente am Suchergebnis

Precision =#(relevant items retrieved)

#(retrieved items)= P(relevant|retrieved)

I Recall (R): Anteil relevanter Dokumente im Suchergebnis gegenuberGesamtmenge relevanter Dokumente

Recall =#(relevant items retrieved)

#(relevant items)= P(retrieved|relevant)

I P: Wie viele der gefundenen Dokumente sind relevant?I R: Wie viele der relevanten Dokumente wurden gefunden?



Precision & Recall

Precision & Recall







I P: Wie viele der gefundenen Dokumente sind relevant?

I R: Wie viele der relevanten Dokumente wurden gefunden?



Precision & Recall

Precision & Recall







I P: Wie viele der gefundenen Dokumente sind relevant?I R: Wie viele der relevanten Dokumente wurden gefunden?



Precision & Recall

Precision & Recall

Relevant Nonrelevant

Retrieved true positives (TP) false positives (FP)

Not retrieved false negatives (FN) true negatives (TN)

I P = TP/(TP + FP)

I R = TP/(TP + FN)



Precision & Recall

Precision & Recall

I P/R sind voneinander abhangig:I Recall steigt mit Anzahl der Dokumente

(Alle Doks = Recall von 100%)I Hoher Recall geht meist auf Kosten der Precision

I In versch. Kontexten sind P & R versch. wichtig:I Expertensysteme, Dateisuche: Hoher RecallI Web: Hohe Precision wichtiger

→ P/R mussen gemeinsam betrachtet werden



Precision & Recall

F-Measure

I Gewichtete Kombination von Precision & Recall:

F =1

α 1P + (1− α) 1

R

=(β2 + 1)PR

β2P + Rmit β2 =

1− αα

I β < 1 betont Precision, β > 1 betont Recall

I Meist als balanced F-Measure mit β = 1 oder α = 12

F1 =1

12 ( 1

P + 1R )

=2PR

P + R

I Sog. ’harmonic mean’ von P & R



Precision & Recall

F-Measure: Ein Beispiel

relevant not relevant

retrieved 20 40 60not retrieved 60 1,000,000 1,000,060

80 1,000,040 1,000,120

I P = 20/(20 + 40) = 1/3

I R = 20/(20 + 60) = 1/4

I F1 = 2 1113

+ 114

= 2/7

I P, R und F liegen immer zwischen 0/1,deshalb meist Angabe in %



Precision & Recall

P/R vs. Genauigkeit

I IR-Systeme klassifizieren Dokumente als +/- relevant

I Genauigkeit = Anteil richtig klassifizierter Elemente:(TP + TN)/(TP + FP + FN + TN)

I Sinnvoll bei maschinellem Lernen, problematisch bei IRI Oft > 99,9% der Dokumente irrelevantI Wenn ein System alles als irrelevant klassifiziert:

I Genauigkeit von bis zu 99,9%I Keine Treffer

I P & R konzentrieren sich auf ’true positives’



Evaluation und Ranking


I P, R und F sind Maße fur unsortierte MengenI Um diese auch in Kombination mit Ranglisten zu nutzen:

I Berechnung von P/R fur Teilmengen:→ Beste 1, 2, . . . n Dokumente

I P/R-Werte fur versch. Recall-Stufen→ Punkte auf einer Precision-Recall-Kurve




Eine Precision-Recall-Kurve

I Zeigt Precision auf versch. Recall-Levels:I Bei nicht relevanten fallt P ab, R bleibt gleichI Bei relevanten Dok steigt P mit R an

I Interpolation (rot):→ Maximale P fur großtmogliche Teilmenge




’11-point interpolated average precision’

Recall InterpolatedPrecision

0.0 1.000.1 0.670.2 0.630.3 0.550.4 0.450.5 0.410.6 0.360.7 0.290.8 0.130.9 0.101.0 0.08

11-point-average:≈ 0.425

Vorteil:Einzelner Wert

Jeweils nur fureine Anfrage!




’Averaged 11-point precision/recall graph’

I P/R-Kurve fur mehrere AnfragenI Fur jedes Recall-Level:

I Interpolierte Precision fur alle AnfragenI Arithmetisches Mittel der Werte

I Maß fur Performance auf allen Recall-levels

I Standardmaß in TREC




Weitere Maße

I Mean Average Precision (MAP)I AP: Mittelwert uber die Precision der besten k Dokumente

nach jeder Ruckgabe eines relevanten DokumentsI MAP = Mittelwert uber AP aller AnfragenI Keine Recall-Levels (6= 11pt), keine Interpolation→ Gleiche Gewichtung fur jeden Informationsbedarf

I Precision at k→ P an einem festen Recall-Level

I R-PrecisionI Gegeben: Menge relevanter Dokumente (Rel)I Fur die Rel besten Dokumente:

tatsachlich relevante Dokumente / RelI Misst P nur fur einen Punkt

dennoch hohe Korrelation mit MAP




Varianz bei Evaluation

I Werte variieren teils erheblich bei verschiedenemInformationsbedarf, auch innerhalb von Testsettings

I Performance variiert oftmals starker zwischen verschiedenenAnfragen innerhalb eines Systems als zwischen gleichenAnfragen in verschiedenen Systemen→ Informationsbedarfe sind verschieden komplex



Informative Ergebnislisten

I Ziel: Nutzerfreundlichkeit durch abschließende Bewertungdurch den Nutzer

I In der Regel Titel, URL und kurze Zusammenfassung

I Titel & URL aus MetadatenI Zusammenfassung muss erstellt werden:

I Statisch - unabhangig von AnfragenI Dynamisch - Anfrage einbeziehen



Statische Zusammenfassung

I Fester Ausschnitt des DokumentsI Z.B. erste X Satze/X Worter o.a.I Auswertung von Parametern/BereichenI Kann beim Indexieren durchgefuhrt werden

I Mittels NLP-MethodenI Key-words zur Bewertung von Satzen, ’beste’ Satze

kombinierenI Grammatiken (Teilsatze, Pronomina, etc.)I Satze neu generieren (NLG)→ NLP noch Gegenstand der Forschung



Dynamische Zusammenfassung

I Erstellung ad hoc

I Ruckgabe von Ausschnitten, die Terme der Anfrage enthalten(KWIC)

I Bewertung der Ausschnitte:I Terme der Anfrage als Phrase enthaltenI Terme der Anfrage nahe beieinander

I Ruckgabe der besten Ausschnitte



Dynamische Zusammenfassung

I Optimierungsproblem:I Moglichst kurzI Moglichst informativI Moglichst lesbar→ Feste Fensterbreite vs. rudimentare NLP-Techniken

I DZ verkomplizieren das GesamtsystemI Mussen ad hoc erstellt werdenI Zugriff auf Texte sehr aufwandig:

Rekonstruktion mit Positional Indexvs. Caching von (Teil-)Dokumenten

I Da sie aber die Usability erheblich verbessern. . .



Wie geht es weiter?

I 07.01.2010 fallt aus!

I Danach: Web-Retrieval (IIR 19-21)



Luhn, H. P. (1957).A statistical approach to mechanized encoding and searchingof literary information.IBM Journal of Research and Development, 1(4):309–317.

Manning, C. D., Raghavan, P., and Schutze, H. (2008).Introduction to Information Retrieval.Cambridge University Press.

Zum Nachlesen: [Manning et al., 2008], Kapitel 8(siehe www.informationretrieval.org)


www.informationretrieval.org

information-retrieval: evaluation - universität zu köln...information-retrieval: evaluation claes...

Documents