information-retrieval: evaluation - universität zu köln...information-retrieval: evaluation claes...
TRANSCRIPT
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Information-Retrieval:Evaluation
Claes NeuefeindFabian Steeg
17. Dezember 2009
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Themen des Seminars
I Boolesches Retrieval-Modell (IIR 1)
I Datenstrukturen (IIR 2)
I Tolerantes Retrieval (IIR 3)
I Vektorraum-Modell (IIR 6)
I Evaluation (IIR 8)
I Web-Retrieval (IIR 19-21)
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Basis-Komponenten eines IR-Systems
I Vorverarbeitung von Dokumenten
I Invertierter Index
I Rechtschreibprufung/unscharfes MatchenI Hilfsindizes:
I PositionalI K-Gram/PermutermI Parameter/Bereiche
I Ranking
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Ein vollstandiges IR-System
Abbildung: www.informationretrieval.org
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Systembewertung
EvaluationsmaßePrecision & RecallEvaluation und Ranking
Ergebnislisten
Literatur
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Bewertungskriterien fur IR-Systeme
I Beschaffenheit des Korpus (Große, Inhalte)
I Geschwindigkeit der IndexierungI Geschwindigkeit der Suche
I Quantifizierbare Großen
I Aussagekraft der Anfragen (Boole, Wildcards, etc.)
I Checklisten verfugbarer FeaturesI Auswirkung auf Suchdauer
I Wesentlich: Nutzerzufriedenheit
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Bewertungskriterien fur IR-Systeme
I Beschaffenheit des Korpus (Große, Inhalte)
I Geschwindigkeit der Indexierung
I Geschwindigkeit der Suche
I Quantifizierbare Großen
I Aussagekraft der Anfragen (Boole, Wildcards, etc.)
I Checklisten verfugbarer FeaturesI Auswirkung auf Suchdauer
I Wesentlich: Nutzerzufriedenheit
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Bewertungskriterien fur IR-Systeme
I Beschaffenheit des Korpus (Große, Inhalte)
I Geschwindigkeit der IndexierungI Geschwindigkeit der Suche
I Quantifizierbare Großen
I Aussagekraft der Anfragen (Boole, Wildcards, etc.)
I Checklisten verfugbarer FeaturesI Auswirkung auf Suchdauer
I Wesentlich: Nutzerzufriedenheit
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Bewertungskriterien fur IR-Systeme
I Beschaffenheit des Korpus (Große, Inhalte)
I Geschwindigkeit der IndexierungI Geschwindigkeit der Suche
I Quantifizierbare Großen
I Aussagekraft der Anfragen (Boole, Wildcards, etc.)
I Checklisten verfugbarer FeaturesI Auswirkung auf Suchdauer
I Wesentlich: Nutzerzufriedenheit
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Bewertungskriterien fur IR-Systeme
I Beschaffenheit des Korpus (Große, Inhalte)
I Geschwindigkeit der IndexierungI Geschwindigkeit der Suche
I Quantifizierbare Großen
I Aussagekraft der Anfragen (Boole, Wildcards, etc.)
I Checklisten verfugbarer FeaturesI Auswirkung auf Suchdauer
I Wesentlich: Nutzerzufriedenheit
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Bewertungskriterien fur IR-Systeme
I Beschaffenheit des Korpus (Große, Inhalte)
I Geschwindigkeit der IndexierungI Geschwindigkeit der Suche
I Quantifizierbare Großen
I Aussagekraft der Anfragen (Boole, Wildcards, etc.)I Checklisten verfugbarer Features
I Auswirkung auf Suchdauer
I Wesentlich: Nutzerzufriedenheit
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Bewertungskriterien fur IR-Systeme
I Beschaffenheit des Korpus (Große, Inhalte)
I Geschwindigkeit der IndexierungI Geschwindigkeit der Suche
I Quantifizierbare Großen
I Aussagekraft der Anfragen (Boole, Wildcards, etc.)I Checklisten verfugbarer FeaturesI Auswirkung auf Suchdauer
I Wesentlich: Nutzerzufriedenheit
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Bewertungskriterien fur IR-Systeme
I Beschaffenheit des Korpus (Große, Inhalte)
I Geschwindigkeit der IndexierungI Geschwindigkeit der Suche
I Quantifizierbare Großen
I Aussagekraft der Anfragen (Boole, Wildcards, etc.)I Checklisten verfugbarer FeaturesI Auswirkung auf Suchdauer
I Wesentlich: Nutzerzufriedenheit
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Nutzerzufriedenheit
I Bedurfnisse der Nutzer sind stark domanenspezifisch:I Web: Suche→ Maß: Rate der wdh. Nutzung der Suchmaschine
I Web: Werbung→ Maß: Clicks von Nutzern
I eCommerce: Kaufer/Verkaufer→ Maß: Dauer bis Kauf/Anteil der Suchenden, die kaufen
I Enterprise: Suchdauer→ Produktivitat (Profit)
I Keine allgemeine Methodik fur Studien
I Gemeinsamkeit: Frage nach der Relevanz
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Relevanz von Suchergebnissen
I Um Relevanz zu messen braucht es mindestens:I ReferenzkorpusI Menge von Anfragen, die versch. Informationsbedarf
formulierenI Relevanzurteile zu (moglichst) allen Anfrage/Dokument-Paaren
→ gold standard
I Faktoren:I Große des KorpusI Zusammensetzung des KorpusI Menge der Anfragen > 50
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Relevanz von Suchergebnissen
I Anfragen mussen auf Korpus abgestimmt seinI Anfragen mussen Nutzerverhalten realistisch abbilden
I Zufallige Auswahl nicht sinnvoll (→ Experten)
I Urteile relativ zu Informationsbedarf, nicht zu AnfrageI Alle Worte enthalten 6= Gesuch erfullt
I Fur Evaluation sind klare Angaben notig
I Probleme:I Relevanz ist ein subjektiver, skalierbarer WertI Manuelle Bewertung aufwandig (zuverlassig?)
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Beispiel fur ein Referenzkorpus: TREC
I Text Retrieval Conference, seit 1992 ausgerichtet vom NIST(National Institute of Standards and Testing)→ siehe http://trec.nist.gov/
I Enthalt verschiedene Testsettings:I Sammlungen von Dokumenten (u.a. Reuters)I Retrieval-Tasks, z.T. als Anfragen formuliertI Relevanzurteile durch Experten
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
Precision & Recall
I Precision (P): Anteil relevanter Dokumente am Suchergebnis
Precision =#(relevant items retrieved)
#(retrieved items)= P(relevant|retrieved)
I Recall (R): Anteil relevanter Dokumente im Suchergebnis gegenuberGesamtmenge relevanter Dokumente
Recall =#(relevant items retrieved)
#(relevant items)= P(retrieved|relevant)
I P: Wie viele der gefundenen Dokumente sind relevant?I R: Wie viele der relevanten Dokumente wurden gefunden?
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
Precision & Recall
I Precision (P): Anteil relevanter Dokumente am Suchergebnis
Precision =#(relevant items retrieved)
#(retrieved items)= P(relevant|retrieved)
I Recall (R): Anteil relevanter Dokumente im Suchergebnis gegenuberGesamtmenge relevanter Dokumente
Recall =#(relevant items retrieved)
#(relevant items)= P(retrieved|relevant)
I P: Wie viele der gefundenen Dokumente sind relevant?I R: Wie viele der relevanten Dokumente wurden gefunden?
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
Precision & Recall
I Precision (P): Anteil relevanter Dokumente am Suchergebnis
Precision =#(relevant items retrieved)
#(retrieved items)= P(relevant|retrieved)
I Recall (R): Anteil relevanter Dokumente im Suchergebnis gegenuberGesamtmenge relevanter Dokumente
Recall =#(relevant items retrieved)
#(relevant items)= P(retrieved|relevant)
I P: Wie viele der gefundenen Dokumente sind relevant?
I R: Wie viele der relevanten Dokumente wurden gefunden?
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
Precision & Recall
I Precision (P): Anteil relevanter Dokumente am Suchergebnis
Precision =#(relevant items retrieved)
#(retrieved items)= P(relevant|retrieved)
I Recall (R): Anteil relevanter Dokumente im Suchergebnis gegenuberGesamtmenge relevanter Dokumente
Recall =#(relevant items retrieved)
#(relevant items)= P(retrieved|relevant)
I P: Wie viele der gefundenen Dokumente sind relevant?I R: Wie viele der relevanten Dokumente wurden gefunden?
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
Precision & Recall
Relevant Nonrelevant
Retrieved true positives (TP) false positives (FP)
Not retrieved false negatives (FN) true negatives (TN)
I P = TP/(TP + FP)
I R = TP/(TP + FN)
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
Precision & Recall
I P/R sind voneinander abhangig:I Recall steigt mit Anzahl der Dokumente
(Alle Doks = Recall von 100%)I Hoher Recall geht meist auf Kosten der Precision
I In versch. Kontexten sind P & R versch. wichtig:I Expertensysteme, Dateisuche: Hoher RecallI Web: Hohe Precision wichtiger
→ P/R mussen gemeinsam betrachtet werden
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
F-Measure
I Gewichtete Kombination von Precision & Recall:
F =1
α 1P + (1− α) 1
R
=(β2 + 1)PR
β2P + Rmit β2 =
1− αα
I β < 1 betont Precision, β > 1 betont Recall
I Meist als balanced F-Measure mit β = 1 oder α = 12
F1 =1
12 ( 1
P + 1R )
=2PR
P + R
I Sog. ’harmonic mean’ von P & R
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
F-Measure
I Gewichtete Kombination von Precision & Recall:
F =1
α 1P + (1− α) 1
R
=(β2 + 1)PR
β2P + Rmit β2 =
1− αα
I β < 1 betont Precision, β > 1 betont Recall
I Meist als balanced F-Measure mit β = 1 oder α = 12
F1 =1
12 ( 1
P + 1R )
=2PR
P + R
I Sog. ’harmonic mean’ von P & R
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
F-Measure
I Gewichtete Kombination von Precision & Recall:
F =1
α 1P + (1− α) 1
R
=(β2 + 1)PR
β2P + Rmit β2 =
1− αα
I β < 1 betont Precision, β > 1 betont Recall
I Meist als balanced F-Measure mit β = 1 oder α = 12
F1 =1
12 ( 1
P + 1R )
=2PR
P + R
I Sog. ’harmonic mean’ von P & R
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
F-Measure
I Gewichtete Kombination von Precision & Recall:
F =1
α 1P + (1− α) 1
R
=(β2 + 1)PR
β2P + Rmit β2 =
1− αα
I β < 1 betont Precision, β > 1 betont Recall
I Meist als balanced F-Measure mit β = 1 oder α = 12
F1 =1
12 ( 1
P + 1R )
=2PR
P + R
I Sog. ’harmonic mean’ von P & R
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
F-Measure: Ein Beispiel
relevant not relevant
retrieved 20 40 60not retrieved 60 1,000,000 1,000,060
80 1,000,040 1,000,120
I P = 20/(20 + 40) = 1/3
I R = 20/(20 + 60) = 1/4
I F1 = 2 1113
+ 114
= 2/7
I P, R und F liegen immer zwischen 0/1,deshalb meist Angabe in %
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
F-Measure: Ein Beispiel
relevant not relevant
retrieved 20 40 60not retrieved 60 1,000,000 1,000,060
80 1,000,040 1,000,120
I P = 20/(20 + 40) = 1/3
I R = 20/(20 + 60) = 1/4
I F1 = 2 1113
+ 114
= 2/7
I P, R und F liegen immer zwischen 0/1,deshalb meist Angabe in %
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
F-Measure: Ein Beispiel
relevant not relevant
retrieved 20 40 60not retrieved 60 1,000,000 1,000,060
80 1,000,040 1,000,120
I P = 20/(20 + 40) = 1/3
I R = 20/(20 + 60) = 1/4
I F1 = 2 1113
+ 114
= 2/7
I P, R und F liegen immer zwischen 0/1,deshalb meist Angabe in %
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
F-Measure: Ein Beispiel
relevant not relevant
retrieved 20 40 60not retrieved 60 1,000,000 1,000,060
80 1,000,040 1,000,120
I P = 20/(20 + 40) = 1/3
I R = 20/(20 + 60) = 1/4
I F1 = 2 1113
+ 114
= 2/7
I P, R und F liegen immer zwischen 0/1,deshalb meist Angabe in %
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
F-Measure: Ein Beispiel
relevant not relevant
retrieved 20 40 60not retrieved 60 1,000,000 1,000,060
80 1,000,040 1,000,120
I P = 20/(20 + 40) = 1/3
I R = 20/(20 + 60) = 1/4
I F1 = 2 1113
+ 114
= 2/7
I P, R und F liegen immer zwischen 0/1,deshalb meist Angabe in %
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Precision & Recall
P/R vs. Genauigkeit
I IR-Systeme klassifizieren Dokumente als +/- relevant
I Genauigkeit = Anteil richtig klassifizierter Elemente:(TP + TN)/(TP + FP + FN + TN)
I Sinnvoll bei maschinellem Lernen, problematisch bei IRI Oft > 99,9% der Dokumente irrelevantI Wenn ein System alles als irrelevant klassifiziert:
I Genauigkeit von bis zu 99,9%I Keine Treffer
I P & R konzentrieren sich auf ’true positives’
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Evaluation und Ranking
Evaluation und Ranking
I P, R und F sind Maße fur unsortierte MengenI Um diese auch in Kombination mit Ranglisten zu nutzen:
I Berechnung von P/R fur Teilmengen:→ Beste 1, 2, . . . n Dokumente
I P/R-Werte fur versch. Recall-Stufen→ Punkte auf einer Precision-Recall-Kurve
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Evaluation und Ranking
Eine Precision-Recall-Kurve
I Zeigt Precision auf versch. Recall-Levels:I Bei nicht relevanten fallt P ab, R bleibt gleichI Bei relevanten Dok steigt P mit R an
I Interpolation (rot):→ Maximale P fur großtmogliche Teilmenge
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Evaluation und Ranking
’11-point interpolated average precision’
Recall InterpolatedPrecision
0.0 1.000.1 0.670.2 0.630.3 0.550.4 0.450.5 0.410.6 0.360.7 0.290.8 0.130.9 0.101.0 0.08
11-point-average:≈ 0.425
Vorteil:Einzelner Wert
Jeweils nur fureine Anfrage!
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Evaluation und Ranking
’11-point interpolated average precision’
Recall InterpolatedPrecision
0.0 1.000.1 0.670.2 0.630.3 0.550.4 0.450.5 0.410.6 0.360.7 0.290.8 0.130.9 0.101.0 0.08
11-point-average:≈ 0.425
Vorteil:Einzelner Wert
Jeweils nur fureine Anfrage!
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Evaluation und Ranking
’11-point interpolated average precision’
Recall InterpolatedPrecision
0.0 1.000.1 0.670.2 0.630.3 0.550.4 0.450.5 0.410.6 0.360.7 0.290.8 0.130.9 0.101.0 0.08
11-point-average:≈ 0.425
Vorteil:Einzelner Wert
Jeweils nur fureine Anfrage!
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Evaluation und Ranking
’11-point interpolated average precision’
Recall InterpolatedPrecision
0.0 1.000.1 0.670.2 0.630.3 0.550.4 0.450.5 0.410.6 0.360.7 0.290.8 0.130.9 0.101.0 0.08
11-point-average:≈ 0.425
Vorteil:Einzelner Wert
Jeweils nur fureine Anfrage!
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Evaluation und Ranking
’Averaged 11-point precision/recall graph’
I P/R-Kurve fur mehrere AnfragenI Fur jedes Recall-Level:
I Interpolierte Precision fur alle AnfragenI Arithmetisches Mittel der Werte
I Maß fur Performance auf allen Recall-levels
I Standardmaß in TREC
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Evaluation und Ranking
Weitere Maße
I Mean Average Precision (MAP)I AP: Mittelwert uber die Precision der besten k Dokumente
nach jeder Ruckgabe eines relevanten DokumentsI MAP = Mittelwert uber AP aller AnfragenI Keine Recall-Levels (6= 11pt), keine Interpolation→ Gleiche Gewichtung fur jeden Informationsbedarf
I Precision at k→ P an einem festen Recall-Level
I R-PrecisionI Gegeben: Menge relevanter Dokumente (Rel)I Fur die Rel besten Dokumente:
tatsachlich relevante Dokumente / RelI Misst P nur fur einen Punkt
dennoch hohe Korrelation mit MAP
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Evaluation und Ranking
Varianz bei Evaluation
I Werte variieren teils erheblich bei verschiedenemInformationsbedarf, auch innerhalb von Testsettings
I Performance variiert oftmals starker zwischen verschiedenenAnfragen innerhalb eines Systems als zwischen gleichenAnfragen in verschiedenen Systemen→ Informationsbedarfe sind verschieden komplex
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Informative Ergebnislisten
I Ziel: Nutzerfreundlichkeit durch abschließende Bewertungdurch den Nutzer
I In der Regel Titel, URL und kurze Zusammenfassung
I Titel & URL aus MetadatenI Zusammenfassung muss erstellt werden:
I Statisch - unabhangig von AnfragenI Dynamisch - Anfrage einbeziehen
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Statische Zusammenfassung
I Fester Ausschnitt des DokumentsI Z.B. erste X Satze/X Worter o.a.I Auswertung von Parametern/BereichenI Kann beim Indexieren durchgefuhrt werden
I Mittels NLP-MethodenI Key-words zur Bewertung von Satzen, ’beste’ Satze
kombinierenI Grammatiken (Teilsatze, Pronomina, etc.)I Satze neu generieren (NLG)→ NLP noch Gegenstand der Forschung
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Dynamische Zusammenfassung
I Erstellung ad hoc
I Ruckgabe von Ausschnitten, die Terme der Anfrage enthalten(KWIC)
I Bewertung der Ausschnitte:I Terme der Anfrage als Phrase enthaltenI Terme der Anfrage nahe beieinander
I Ruckgabe der besten Ausschnitte
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Dynamische Zusammenfassung
I Optimierungsproblem:I Moglichst kurzI Moglichst informativI Moglichst lesbar→ Feste Fensterbreite vs. rudimentare NLP-Techniken
I DZ verkomplizieren das GesamtsystemI Mussen ad hoc erstellt werdenI Zugriff auf Texte sehr aufwandig:
Rekonstruktion mit Positional Indexvs. Caching von (Teil-)Dokumenten
I Da sie aber die Usability erheblich verbessern. . .
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Wie geht es weiter?
I 07.01.2010 fallt aus!
I Danach: Web-Retrieval (IIR 19-21)
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Wie geht es weiter?
I 07.01.2010 fallt aus!
I Danach: Web-Retrieval (IIR 19-21)
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln
Systembewertung Evaluationsmaße Ergebnislisten Literatur
Luhn, H. P. (1957).A statistical approach to mechanized encoding and searchingof literary information.IBM Journal of Research and Development, 1(4):309–317.
Manning, C. D., Raghavan, P., and Schutze, H. (2008).Introduction to Information Retrieval.Cambridge University Press.
Zum Nachlesen: [Manning et al., 2008], Kapitel 8(siehe www.informationretrieval.org)
Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln