institute for science networking thomas severiens [email protected] online fachinformation...

29
Institute for Science Networking Thomas Severien [email protected] Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter: Eberhard R. Hilf Michael Hohlfeld Heinrich Stamerjohanns Thomas Severiens Zeit und Ort: Montags 14:15 - 15:45 A3-4-402 Form: Vorlesung, Kolloquium, Seminar ins.uni-oldenburg.de/Institute/education/ sose01

Upload: adelheid-boeger

Post on 06-Apr-2015

105 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Online Fachinformation

Veranstaltungsnummern:1.05.07 und 8.1.53

Veranstalter:Eberhard R. HilfMichael HohlfeldHeinrich StamerjohannsThomas Severiens

Zeit und Ort:Montags 14:15 - 15:45A3-4-402

Form:Vorlesung, Kolloquium, Seminarins.uni-oldenburg.de/Institute/education/sose01

Page 2: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Termine und Themen

23.4. Einführung, Strategien, Messgrößen T.S.30.4. Geschichte des Internets, Suchmaschinen, FIZe H.S. 7.5. Zentrale Datenbanken (STN), Fernleihe BIS14.5. Metadaten, Formate T.S.21.5. Dezentrale Konzepte, Portale, PrePrint-Dienste

E.H.,M.H.28.5. MPress J.P. (OS)11.6. Übungsaufgaben18.6. Seminar25.6. Seminar 2.7. Seminar 9.7. Kuchenseminar

Page 3: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Scheinkriterien

Regelmäßige Teilnahme Bearbeitung einer Übungsaufgabe Bericht als kurzer Seminarvortrag Interesse am Thema

Page 4: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Themen today

Einführung

Boolsche Operatoren

Suchstrategien

Messparameter

Page 5: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Was sind die Ziele?

Wo suche ich was? Wie suche ich im Zeitalter des Internet und

digitaler Bibliotheken? Wie funktionieren Suchmaschinen? Welche Konzepte stecken hinter

Suchmaschinen? Welche Möglichkeiten bieten mir Online-

Publikationen?

Page 6: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Information Retrieval

„...leading the user to those documents that will best enable him/her to satisfy his/her need for information.“

S. E. Robertson. The methodology of information retrieval experiments. p. 10. 1981

„...the goal of an information system is for the user to obtain information from the knowledge resource which helps her/him in problem management.“

N. J. Belkin. Cognitive models and information transfer. In: Social Science Inform. Studies (4)2-3, p.111-129, 1984

Page 7: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Retrieval-Prozess

Problem

Problem-analyse

Informations-quellenauswahl

Suchfrageformulieren

Suche

Bewertung

Informations-aufbereitung

Problem:Wie soll man Anfragen zu einem Bereich formulieren, über den man ja noch nicht viel weiß?

Page 8: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Some Definitions

Information„... die Teilmenge von Wissen, die von einer bestimmten Person

oder Gruppe in einer konkreten Situation zur Lösung von Problemen benötigt wird...“

R. Kuhlen, Pragmatischer Mehrwert von Information. Bericht 1989

Informationsbedarf„... Art, Menge und Qualität der Informationsgüter, die ein Informationssubjekt im gegebenen Informationskontext zur Erfüllung einer Aufgabe in einer bestimmten Zeit innerhalb

eines gegebenen Raumgebiets benötigt...“N. Szyberski, p. 904 In: Handwörterbuch der Organisation. 2. Auflage 1980

Page 9: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Some Definitions

Objektiver Informationsbedarf„...Menge derjenigen Informationen..., die in unmittelbarem sachlichem Kontext zu der betrachteten Aufgabe stehen...“

H. Garbe, p.1873, In: Poeschel, Handwörterb. d. Betriebswirtschaft. 4.Aufl.1975

Subjektiver Informationsbedarf„...durch die Person oder die Wünsche des Entscheidungsträgers

determiniert und kann als ein Mangel an Aussagen verstanden werden, den das Informationssubjekt empfindet bzw. zu haben

glaubt...“A.R. Bahlmann, Informationsbedarfsanalysen für das

Beschaffungsmanagement. Mannhold: Gelsenkirchen, 1982

Page 10: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Informationsbedarf, -nachfrage und -angebot

IA

INsubj.

IBobj.

Informationsstand max.Ziel: IN IB

IA IB

Page 11: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Informationsquellenauswahl

Inhaltlich: Fachgebietsabdeckung Art der ausgewerteten Quellen Qualität der Inhalte

Formal: Aktualität des Informationsangebotes (Updates) Qualität der Retrievalsprache geographische Abdeckung zeitliche Abdeckung Kosten Online Hilfen Zugangsberechtigung

Page 12: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Suchfrageformulierung und-erweiterung

Um die semantische Genauigkeit in Bezug auf die Problemstellung zu verbessern, muß eine zunächst formulierte Suchanfrage verbessert werden. Klassische Verfahren der Indexierung und Klassifizierung werden zur Verbesserung der Suchanfrage eingesetzt. Kontrolliertes Vokabular erlaubt dabei den Suchenden, eine gemeinsame Sprache mit den Autoren zu verwenden. Automatische Verfahren, die bspw. auf assoziativen Verfahren oder der Einbindung von relationiertem Vokabular (Thesaurus) beruhen, erhöhen die Anzahl der Suchterme und verbessern damit den Retrievalvorgang.

Page 13: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Operatoren

Die meisten/manche Retrieval-Sprachen kennen Boolsche Operatoren:

ANDORNOT

weitere Operatoren:NEARSOUNDS_LIKE

ordnende Elemente:()“”

Trunkierungen:*?

Reguläre Ausdrücke(regular expressions)

.*\n*[]{}^$

Page 14: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Relevanz

Die Relevanz bezeichnet den Grad der Übereinstimmung der inhaltlichen Aussage eines Dokumentes mit der Suchanfrage.

Man kann beispielsweise verschiedene Relevanzstufen unterscheiden 0: Keine Berührung mit dem Suchthema 1: berührt das Suchthema 2: trifft das Suchthema

Page 15: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Relevanzbewertung: Maßzahlen

Relevanzquote oder „precision“relevante gefundene / alle gefundenen = A / (A+B)

Idealer Wert: 1

Nachweisquote oder „recall“relevante gefundene / alle relevanten = A / (A+C)

Idealer Wert: 1

A = „Treffer“ oder die relevanten gefundenen DokumenteB = „Ballast“ oder die nicht relevanten gefundenen DokumenteC = „Silence“ oder die vermißten relevanten DokumenteD = „Umgangene Dokumente“ oder die nicht nachgewiesenen und nicht relevanten Dokumente

Problem: Wie ermittelt man C ?Schätzwert im Nenner !!!

Page 16: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Relevanzbewertung: Maßzahlen

Ausfallquote oder „fallout ratio“irrelevant gefundene / alle irrelevanten = B / (B+D)

Idealer Wert: 0

Single-Number-Measures relevance balance = (A+C) / (B+D) retrieval balance = (A+B) / (C+D)search distillation = AD - BC

A = „Treffer“ oder die relevanten gefundenen DokumenteB = „Ballast“ oder die nicht relevanten gefundenen DokumenteC = „Silence“ oder die vermißten relevanten DokumenteD = „Umgangene Dokumente“ oder die nicht nachgewiesenen und nicht relevanten Dokumente

Page 17: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Maßauswahl

Boolsche Systeme: 1. Ein System ist umso besser, je mehr

relevante Dokumente gefunden werden. 2. Ein System ist umso besser, je geringer der

Ballast ist. 3. Punkt (1) hat Priorität vor Punkt (2).

Ranking Systeme: Die Position der Dokumente spielt die

entscheidende Rolle.

Page 18: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Bewertungskriterien

Die Fähigkeit eines Systems, alle relevanten Dokumente nachzuweisen

Die Fähigkeit eines Systems, nur relevante Dokumente nachzuweisen

Aufwand, intellektuell und physisch, um die Suchanfragen zu formulieren, die Suche durchzuführen und die Ergebnisse durchzuschauen

Zeit, die zwischen Eingabe der Suchanfrage und der Präsentation der Suchergebnisse vergeht

Ausgabe der Suchergebnisse in weiterverarbeitbarer Form Qualität der Datenbasis (Abdeckung in zeitlicher,

geographischer und inhaltlicher Sicht)

Page 19: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Heterogenität

MassendatenMultimedia

Crosslingualität

Online-Retrieval Semantik

Dateiformate

StrukturData-Warehousing

Page 20: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Evaluierung von IR-Systemen

Datenanalytische Verfahren Vergleich: automatische Indexierung mit

manuellem Pendant differenzierte Fehlerbewertung

wichtig sind die Fehler, die den Zugang zum Dokument verwehren

Statistische und qualitative Verfahren Verbindung von Recall-Precision-Zahlen mit

bestimmten StrategienAnzahl der InteraktionenAnzahl der Deskriptoren

Page 21: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Systemunterschiede

System A: Analyse des Textes in Einzelterme

System B: Grundformenreduktion und Kompositazerlegung

System C: Grundformenreduktion, Kompositazerlegung, Komplexe Deskriptoren

System D: Nominalgruppen max. Länge

Page 22: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

TREC

TREC (Text Retrieval Conferences) http://trec.nist.gov/ Ziele:

Herstellung der Vergleichbarkeit der IR-Verfahren durch die Verwendung gleicher Kollektionen und Evaluierungsverfahren.

Zugrundelegung realistisch-großer TestkollektionenBereitstellung operationalistischer Grundlagen für die

Testdurchführung und -auswertung technologischer „Transfer“ zwischen Universitäten und

Industrie

Page 23: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Suche im Netz

W W W

Komponenten des WWW

Information Retrieval

Kataloge

Such-roboter

Suche innerhalbeinesServers

Clientbasierte Suche

Hypertext

HTTP HTML

URI

Page 24: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Katalogbasierte Suche

Charakteristiken: hierarchisch aufgebaut nach Sachgebieten meist nur URL und TITLE-Elemente Einträge werden über WWW-Seiten gemacht meist Stichwortsuche möglich (Indexierung)

Problematik: kein Volltextinvertierung unbefriedigende Abdeckung des WWW-Space Aktualität und Korrektheit hängt vom Eintragenden ab

Vorteile: leichte Handhabung gut für Browsing

Page 25: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Roboterbasierte Suche

Charakteristiken: auch Spider, Wanderer etc. genannt automatisches Holen von WWW-Seiten weltweit diverse Indexierungsverfahren, meist Volltextinvertierung mehrere Abfragemodi, IR-Methoden

Problematik: Anbieter bestimmt Vollständigkeit Performance Sicherheit / Zugriffschutz Aufwendige Konfiguration

Vorteile: Volltextsuche mit IR-Methoden

Page 26: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Agenten

Internet

User-Interface DB

WWW-Library

Search-Search-EngineEngine

Agenten

Page 27: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Eigenschaften von Agenten

Autonomie: Arbeit wird ohne direkte Einflußnahme verrichtet. Agenten planen ihre Aktionen und haben Kontrolle über ihren Zustand.

Sozialfähigkeit: Agenten kommunizieren mit anderen Agenten und mit Menschen.

Reaktionsfähigkeit: Agenten nehmen ihre Umwelt wahr und reagieren auf Änderungen.

Selbständigkeit: Agenten reagieren nicht nur, sondern agieren, um ihre Ziele zu erreichen.

Mobilität: Agenten können sich in Netzwerken bewegen. Wahrhaftigkeit: Ein Agent vermittelt nicht absichtlich falsche

Informationen Gutmütigkeit: Es soll keine Zielkonflikte geben. Rationalität: Agenten handeln so, daß sie ihre Ziele erreichen

können.

Page 28: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Typen von Agenten

IntelligenteAgenten

Software-Agenten

Hardware-Agenten

MenschlicheAgenten

Informations-Agenten

Transaktions-Agenten

Kooperations-Agenten

Page 29: Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Institute for Science Networking

Thomas [email protected]

Intelligenz

Inwieweit wir das Verhalten eines Objektes als intelligent beurteilen, hängt sowohl von unserer eigenen Intelligenz und unserer Ausbildung als auch von den Eigenschaften des fraglichen Objekts ab. Wenn wir in der Lage sind, sein Verhalten zu erklären und vorherzusagen, oder wenn wir ihm keine noch so einfachen Regeln zugrunde legen, so sind wir wenig geneigt, ihm Intelligenz zuzuschreiben. Deshalb ist es möglich, daß ein und dasselbe Objekt von einer Person als intelligent, von einer anderen Person als nicht intelligent beurteilt wird; letztere hat die Regeln für das Verhalten des Objekts herausgefunden. Alan Turing (1912 - 1954)