information-retrieval: einf uhrung filewas ist ir? boolesches retrieval groˇe korpora invertierter...

42
Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur Information-Retrieval: Einf¨ uhrung Claes Neuefeind Fabian Steeg 22. Oktober 2009 Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universit¨ at zu K¨ oln

Upload: vophuc

Post on 03-Jun-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Information-Retrieval:Einfuhrung

Claes NeuefeindFabian Steeg

22. Oktober 2009

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 2: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Themen des Seminars

I Boolesches Retrieval-Modell (IIR, Kapitel 1)

I Datenstrukturen (IIR 2)

I Tolerantes Retrieval (IIR 3)

I Vektorraum-Modell (IIR 6)

I Evaluation (IIR 8)

I Web-Retrieval (IIR 19-21)

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 3: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Was ist IR?

Boolesches Retrieval

Große Korpora

Invertierter Index

Literatur

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 4: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Definition (Manning et al.):

I IR is finding material (usually documents) of an unstructurednature (usually text) that satisfies an information need fromwithin large collections (usually stored on computers).

I Gegenmodell zu traditioneller Datenbanksuche

[Manning et al., 2008, S. 1]

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 5: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Definition (Manning et al.):

I IR is finding material (usually documents) of an unstructurednature (usually text) that satisfies an information need fromwithin large collections (usually stored on computers).

I Gegenmodell zu traditioneller Datenbanksuche

[Manning et al., 2008, S. 1]

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 6: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Definition (Manning et al.):

I IR is finding material (usually documents) of an unstructurednature (usually text) that satisfies an information need fromwithin large collections (usually stored on computers).

I Gegenmodell zu traditioneller Datenbanksuche

[Manning et al., 2008, S. 1]

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 7: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Definition (Manning et al.):

I IR is finding material (usually documents) of an unstructurednature (usually text) that satisfies an information need fromwithin large collections (usually stored on computers).

I Gegenmodell zu traditioneller Datenbanksuche

[Manning et al., 2008, S. 1]

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 8: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Definition (Manning et al.):

I IR is finding material (usually documents) of an unstructurednature (usually text) that satisfies an information need fromwithin large collections (usually stored on computers).

I Gegenmodell zu traditioneller Datenbanksuche

[Manning et al., 2008, S. 1]

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 9: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Definition (Manning et al.):

I IR is finding material (usually documents) of an unstructurednature (usually text) that satisfies an information need fromwithin large collections (usually stored on computers).

I Gegenmodell zu traditioneller Datenbanksuche

[Manning et al., 2008, S. 1]

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 10: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Unstrukturierte vs. Strukturierte Daten 1996

Abbildung: www.informationretrieval.org

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 11: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Unstrukturierte vs. Strukturierte Daten 2006

Abbildung: www.informationretrieval.org

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 12: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Strukturierte Daten

Begriff referiert auf Information in Tabellen:

Mitarbeiter Manager Gehalt

Muller Meier 60000

Schmidt Muller 50000

Schulz Muller 40000

Typische Features: “ranges”, exaktes Matchen

I z.B. “Gehalt ≤ 60000” und “Manager=Muller“

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 13: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Unstrukturierte Daten

I Begriff referiert auf FreitextI Gestattet:

I Keyword-Anfragen (mit Operatoren)I “konzeptuelle” AnfragenI z.B. “finde alle Websites zum Thema IR”

I Klassisches Modell fur Suche in Textdokumenten

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 14: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Semi-strukturierte Daten

I Textuelle Daten sind nie vollig unstrukturiert

I Bsp: Diese Folie enthalt FormatierungenI Nutzbar fur semi-strukturierte Suche

I Titel enthalt Daten, Unterpunkte enthalten SucheI nutzlich z.B. bei Web-Suche (Markup)

I Außerdem nutzbar: Latente linguistische Struktur

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 15: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Anwendungsdomanen

I InternetI Indexierung, Nutzung des Markup, Bewertungskriterien

I “Personalisiertes IR”I Im Betriebssystem, Mailprogramm

(Suche, Textklassifikation, etc.)

I Domanenspezifische SucheI v.a. in Firmen und Institutionen

(Bibliotheken, Expertensysteme etc.)

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 16: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Teilbereiche und Aufgaben

I Suche nach Informationen

I Datenaufbereitung, Reprasentation

I Filtern von Dokumentensammlungen

I Unterstutzung beim Browsen

I Weiterverarbeitung von Suchergebnissen

I Allgemein: Informationsmanagement

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 17: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Komplexere Aufgaben

I Cross-language IR

I Question Answering

I Automatisches Zusammenfassen

I . . .

→ Text-Mining

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 18: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Suchbeispiel

I Shakespeare-Korpus (ca. 1 Mio Worter)I Anfrage:

I Welche Stucke enthalten Brutus und Caesar aberNICHT Calpurnia?

I Welche Suchstrategie soll gewahlt werden?

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 19: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Der naive Ansatz:

I lineare Suche uber alle Stucke fur Brutus und Caesar,anschließend alle aussortieren, die Calpurnia enthalten

I Aber:

I sehr langsamI keine erweiterten Anfragen (z.B. Nahe)I keine Ranglisten

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 20: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Der naive Ansatz:

I lineare Suche uber alle Stucke fur Brutus und Caesar,anschließend alle aussortieren, die Calpurnia enthalten

I Aber:

I sehr langsamI keine erweiterten Anfragen (z.B. Nahe)I keine Ranglisten

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 21: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Der naive Ansatz:

I lineare Suche uber alle Stucke fur Brutus und Caesar,anschließend alle aussortieren, die Calpurnia enthalten

I Aber:I sehr langsam

I keine erweiterten Anfragen (z.B. Nahe)I keine Ranglisten

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 22: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Der naive Ansatz:

I lineare Suche uber alle Stucke fur Brutus und Caesar,anschließend alle aussortieren, die Calpurnia enthalten

I Aber:I sehr langsamI keine erweiterten Anfragen (z.B. Nahe)

I keine Ranglisten

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 23: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Der naive Ansatz:

I lineare Suche uber alle Stucke fur Brutus und Caesar,anschließend alle aussortieren, die Calpurnia enthalten

I Aber:I sehr langsamI keine erweiterten Anfragen (z.B. Nahe)I keine Ranglisten

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 24: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Term-Dokument-Matrix

Anthony Julius The Hamlet Othello Macbeth . . .and Caesar Tempest

CleopatraAnthony 1 1 0 0 0 1Brutus 1 1 0 1 0 0Caesar 1 1 0 1 1 1Calpurnia 0 1 0 0 0 0Cleopatra 1 0 0 0 0 0mercy 1 0 1 1 1 1worser 1 0 1 1 1 0...

Eintrag ist 1, wenn der Term auftritt.Eintrag ist 0, wenn der Term nicht auftritt

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 25: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Term-Dokument-Matrix

Anthony Julius The Hamlet Othello Macbeth . . .and Caesar Tempest

CleopatraAnthony 1 1 0 0 0 1Brutus 1 1 0 1 0 0Caesar 1 1 0 1 1 1Calpurnia 0 1 0 0 0 0Cleopatra 1 0 0 0 0 0mercy 1 0 1 1 1 1worser 1 0 1 1 1 0...

Eintrag ist 1, wenn der Term auftritt.Eintrag ist 0, wenn der Term nicht auftritt

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 26: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Term-Dokument-Matrix

Anthony Julius The Hamlet Othello Macbeth . . .and Caesar Tempest

CleopatraAnthony 1 1 0 0 0 1Brutus 1 1 0 1 0 0Caesar 1 1 0 1 1 1Calpurnia 0 1 0 0 0 0Cleopatra 1 0 0 0 0 0mercy 1 0 1 1 1 1worser 1 0 1 1 1 0...

Eintrag ist 1, wenn der Term auftritt.Eintrag ist 0, wenn der Term nicht auftritt

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 27: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Term-Dokument-Vektoren

I Fur jeden Term erhalten wir einen 0/1-VektorI Bearbeitung von Anfragen mittels Vergleich der Vektoren:

I berechne bitweise UND fur die Vektoren von Brutus, Caesarsowie fur den Komplement-Vektor von Calpurnia

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 28: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

0/1-Vektor fur Brutus

Anthony Julius The Hamlet Othello Macbeth . . .and Caesar Tempest

CleopatraAnthony 1 1 0 0 0 1Brutus 1 1 0 1 0 0Caesar 1 1 0 1 1 1Calpurnia 0 1 0 0 0 0Cleopatra 1 0 0 0 0 0mercy 1 0 1 1 1 1worser 1 0 1 1 1 0...

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 29: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

0/1-Vektor fur Brutus

Anthony Julius The Hamlet Othello Macbeth . . .and Caesar Tempest

CleopatraAnthony 1 1 0 0 0 1Brutus 1 1 0 1 0 0Caesar 1 1 0 1 1 1Calpurnia 0 1 0 0 0 0Cleopatra 1 0 0 0 0 0mercy 1 0 1 1 1 1worser 1 0 1 1 1 0...

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 30: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

0/1-Vektor fur Brutus

Anthony Julius The Hamlet Othello Macbeth . . .and Caesar Tempest

CleopatraAnthony 1 1 0 0 0 1Brutus 1 1 0 1 0 0Caesar 1 1 0 1 1 1Calpurnia 0 1 0 0 0 0Cleopatra 1 0 0 0 0 0mercy 1 0 1 1 1 1worser 1 0 1 1 1 0...

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 31: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

0/1-Vektor fur Brutus

Anthony Julius The Hamlet Othello Macbeth . . .and Caesar Tempest

CleopatraAnthony 1 1 0 0 0 1Brutus 1 1 0 1 0 0Caesar 1 1 0 1 1 1Calpurnia 0 1 0 0 0 0Cleopatra 1 0 0 0 0 0mercy 1 0 1 1 1 1worser 1 0 1 1 1 0...

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 32: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Suchergebnis

Anthony and Cleopatra, Act III, Scene iiAgrippa [Aside to Domitius Enobarbus]: Why, Enobarbus,

When Antony found Julius Caesar dead,He cried almost to roaring; and he weptWhen at Philippi he found Brutus slain.

Hamlet, Act III, Scene iiLord Polonius: I did enact Julius Caesar: I was killed

i’ the Capitol; Brutus killed me.

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 33: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Ergebnisbewertung

I Erfullung des Informationsbedarfs?I Frage nach der Relevanz

I Effektivitat des IR-Systems:I Precision:

Wie viele der gefundenen Dokumente sind relevant?I Recall:

Wie viele der relevanten Dokumente wurden gefunden?

→ Mehr dazu spater im Seminar!

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 34: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Wie ist das bei großeren Korpora?

I Seien N = 1 Mio. Dokumente, mit ca. 1000 Wortern jeDokument

I Korpus hat ca. 6 GB(bei Ø 6 Bytes/Wort, inkl. Leer- und Satzzeichen)

I Weitere Annahme:I m = 500K verschiedene Terme

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 35: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Wie ist das bei großeren Korpora?

I Matrix hat N x m = 500K x 1 Mio (= 500 Mrd.) EintrageI Aufbau der Matrix nicht moglich

I Aber:I Nur max. 1 Mrd davon sind EinsenI Die Matrix ist extrem “gestreut“: 99,8% sind leer

I Bessere Reprasentation?

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 36: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Invertierter Index

Notiere zu jedem Term alle Dokumente, die den Term enthalten→ nur Positionen, in denen Einsen stehen

Brutus −→ 1 2 4 11 31 45 173 174

Caesar −→ 1 2 4 5 6 16 57 132 . . .

Calpurnia −→ 2 31 54 101

...︸ ︷︷ ︸ ︸ ︷︷ ︸dictionary postings

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 37: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Invertierter Index

Notiere zu jedem Term alle Dokumente, die den Term enthalten→ nur Positionen, in denen Einsen stehen

Brutus −→ 1 2 4 11 31 45 173 174

Caesar −→ 1 2 4 5 6 16 57 132 . . .

Calpurnia −→ 2 31 54 101

...︸ ︷︷ ︸ ︸ ︷︷ ︸dictionary postings

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 38: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Invertierter Index

Notiere zu jedem Term alle Dokumente, die den Term enthalten→ nur Positionen, in denen Einsen stehen

Brutus −→ 1 2 4 11 31 45 173 174

Caesar −→ 1 2 4 5 6 16 57 132 . . .

Calpurnia −→ 2 31 54 101

...︸ ︷︷ ︸ ︸ ︷︷ ︸dictionary postings

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 39: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Invertierter Index

Welche Datenstruktur soll gewahlt werden?Weshalb?

Brutus −→ 1 2 4 11 31 45 173 174

Caesar −→ 1 2 4 5 6 16 57 132 . . .

Calpurnia −→ 2 31 54 101

...︸ ︷︷ ︸ ︸ ︷︷ ︸dictionary postings

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 40: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Wie geht es weiter?

I Datenstrukturen (IIR 2)

I Tolerantes Retrieval (IIR 3)

I Vektorraum-Modell (IIR 6)

I Evaluation (IIR 8)

I Web-Retrieval (IIR 19-21)

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 41: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Fur die Ubung:

I Lineare Suche

I Term-Dokument-Matrix

I Verkettete Liste

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln

Page 42: Information-Retrieval: Einf uhrung fileWas ist IR? Boolesches Retrieval Groˇe Korpora Invertierter IndexLiteratur Themen des Seminars I Boolesches Retrieval-Modell (IIR, Kapitel 1)

Was ist IR? Boolesches Retrieval Große Korpora Invertierter Index Literatur

Manning, C. D., Raghavan, P., and Schutze, H. (2008).Introduction to Information Retrieval.Cambridge University Press.

Zum Nachlesen: Kapitel 1 (siehe www.informationretrieval.org)

Text-Engineering I - Information-Retrieval - Wintersemester 2009/2010 - Informationsverarbeitung - Universitat zu Koln