institute for science networking thomas severiens [email protected] online fachinformation...
TRANSCRIPT
Institute for Science Networking
Thomas [email protected]
Online Fachinformation
Veranstaltungsnummern:1.05.07 und 8.1.53
Veranstalter:Eberhard R. HilfMichael HohlfeldHeinrich StamerjohannsThomas Severiens
Zeit und Ort:Montags 14:15 - 15:45A3-4-402
Form:Vorlesung, Kolloquium, Seminarins.uni-oldenburg.de/Institute/education/sose01
Institute for Science Networking
Thomas [email protected]
Termine und Themen
23.4. Einführung, Strategien, Messgrößen T.S.30.4. Geschichte des Internets, Suchmaschinen, FIZe H.S. 7.5. Zentrale Datenbanken (STN), Fernleihe BIS14.5. Metadaten, Formate T.S.21.5. Dezentrale Konzepte, Portale, PrePrint-Dienste
E.H.,M.H.28.5. MPress J.P. (OS)11.6. Übungsaufgaben18.6. Seminar25.6. Seminar 2.7. Seminar 9.7. Kuchenseminar
Institute for Science Networking
Thomas [email protected]
Scheinkriterien
Regelmäßige Teilnahme Bearbeitung einer Übungsaufgabe Bericht als kurzer Seminarvortrag Interesse am Thema
Institute for Science Networking
Thomas [email protected]
Themen today
Einführung
Boolsche Operatoren
Suchstrategien
Messparameter
Institute for Science Networking
Thomas [email protected]
Was sind die Ziele?
Wo suche ich was? Wie suche ich im Zeitalter des Internet und
digitaler Bibliotheken? Wie funktionieren Suchmaschinen? Welche Konzepte stecken hinter
Suchmaschinen? Welche Möglichkeiten bieten mir Online-
Publikationen?
Institute for Science Networking
Thomas [email protected]
Information Retrieval
„...leading the user to those documents that will best enable him/her to satisfy his/her need for information.“
S. E. Robertson. The methodology of information retrieval experiments. p. 10. 1981
„...the goal of an information system is for the user to obtain information from the knowledge resource which helps her/him in problem management.“
N. J. Belkin. Cognitive models and information transfer. In: Social Science Inform. Studies (4)2-3, p.111-129, 1984
Institute for Science Networking
Thomas [email protected]
Retrieval-Prozess
Problem
Problem-analyse
Informations-quellenauswahl
Suchfrageformulieren
Suche
Bewertung
Informations-aufbereitung
Problem:Wie soll man Anfragen zu einem Bereich formulieren, über den man ja noch nicht viel weiß?
Institute for Science Networking
Thomas [email protected]
Some Definitions
Information„... die Teilmenge von Wissen, die von einer bestimmten Person
oder Gruppe in einer konkreten Situation zur Lösung von Problemen benötigt wird...“
R. Kuhlen, Pragmatischer Mehrwert von Information. Bericht 1989
Informationsbedarf„... Art, Menge und Qualität der Informationsgüter, die ein Informationssubjekt im gegebenen Informationskontext zur Erfüllung einer Aufgabe in einer bestimmten Zeit innerhalb
eines gegebenen Raumgebiets benötigt...“N. Szyberski, p. 904 In: Handwörterbuch der Organisation. 2. Auflage 1980
Institute for Science Networking
Thomas [email protected]
Some Definitions
Objektiver Informationsbedarf„...Menge derjenigen Informationen..., die in unmittelbarem sachlichem Kontext zu der betrachteten Aufgabe stehen...“
H. Garbe, p.1873, In: Poeschel, Handwörterb. d. Betriebswirtschaft. 4.Aufl.1975
Subjektiver Informationsbedarf„...durch die Person oder die Wünsche des Entscheidungsträgers
determiniert und kann als ein Mangel an Aussagen verstanden werden, den das Informationssubjekt empfindet bzw. zu haben
glaubt...“A.R. Bahlmann, Informationsbedarfsanalysen für das
Beschaffungsmanagement. Mannhold: Gelsenkirchen, 1982
Institute for Science Networking
Thomas [email protected]
Informationsbedarf, -nachfrage und -angebot
IA
INsubj.
IBobj.
Informationsstand max.Ziel: IN IB
IA IB
Institute for Science Networking
Thomas [email protected]
Informationsquellenauswahl
Inhaltlich: Fachgebietsabdeckung Art der ausgewerteten Quellen Qualität der Inhalte
Formal: Aktualität des Informationsangebotes (Updates) Qualität der Retrievalsprache geographische Abdeckung zeitliche Abdeckung Kosten Online Hilfen Zugangsberechtigung
Institute for Science Networking
Thomas [email protected]
Suchfrageformulierung und-erweiterung
Um die semantische Genauigkeit in Bezug auf die Problemstellung zu verbessern, muß eine zunächst formulierte Suchanfrage verbessert werden. Klassische Verfahren der Indexierung und Klassifizierung werden zur Verbesserung der Suchanfrage eingesetzt. Kontrolliertes Vokabular erlaubt dabei den Suchenden, eine gemeinsame Sprache mit den Autoren zu verwenden. Automatische Verfahren, die bspw. auf assoziativen Verfahren oder der Einbindung von relationiertem Vokabular (Thesaurus) beruhen, erhöhen die Anzahl der Suchterme und verbessern damit den Retrievalvorgang.
Institute for Science Networking
Thomas [email protected]
Operatoren
Die meisten/manche Retrieval-Sprachen kennen Boolsche Operatoren:
ANDORNOT
weitere Operatoren:NEARSOUNDS_LIKE
ordnende Elemente:()“”
Trunkierungen:*?
Reguläre Ausdrücke(regular expressions)
.*\n*[]{}^$
Institute for Science Networking
Thomas [email protected]
Relevanz
Die Relevanz bezeichnet den Grad der Übereinstimmung der inhaltlichen Aussage eines Dokumentes mit der Suchanfrage.
Man kann beispielsweise verschiedene Relevanzstufen unterscheiden 0: Keine Berührung mit dem Suchthema 1: berührt das Suchthema 2: trifft das Suchthema
Institute for Science Networking
Thomas [email protected]
Relevanzbewertung: Maßzahlen
Relevanzquote oder „precision“relevante gefundene / alle gefundenen = A / (A+B)
Idealer Wert: 1
Nachweisquote oder „recall“relevante gefundene / alle relevanten = A / (A+C)
Idealer Wert: 1
A = „Treffer“ oder die relevanten gefundenen DokumenteB = „Ballast“ oder die nicht relevanten gefundenen DokumenteC = „Silence“ oder die vermißten relevanten DokumenteD = „Umgangene Dokumente“ oder die nicht nachgewiesenen und nicht relevanten Dokumente
Problem: Wie ermittelt man C ?Schätzwert im Nenner !!!
Institute for Science Networking
Thomas [email protected]
Relevanzbewertung: Maßzahlen
Ausfallquote oder „fallout ratio“irrelevant gefundene / alle irrelevanten = B / (B+D)
Idealer Wert: 0
Single-Number-Measures relevance balance = (A+C) / (B+D) retrieval balance = (A+B) / (C+D)search distillation = AD - BC
A = „Treffer“ oder die relevanten gefundenen DokumenteB = „Ballast“ oder die nicht relevanten gefundenen DokumenteC = „Silence“ oder die vermißten relevanten DokumenteD = „Umgangene Dokumente“ oder die nicht nachgewiesenen und nicht relevanten Dokumente
Institute for Science Networking
Thomas [email protected]
Maßauswahl
Boolsche Systeme: 1. Ein System ist umso besser, je mehr
relevante Dokumente gefunden werden. 2. Ein System ist umso besser, je geringer der
Ballast ist. 3. Punkt (1) hat Priorität vor Punkt (2).
Ranking Systeme: Die Position der Dokumente spielt die
entscheidende Rolle.
Institute for Science Networking
Thomas [email protected]
Bewertungskriterien
Die Fähigkeit eines Systems, alle relevanten Dokumente nachzuweisen
Die Fähigkeit eines Systems, nur relevante Dokumente nachzuweisen
Aufwand, intellektuell und physisch, um die Suchanfragen zu formulieren, die Suche durchzuführen und die Ergebnisse durchzuschauen
Zeit, die zwischen Eingabe der Suchanfrage und der Präsentation der Suchergebnisse vergeht
Ausgabe der Suchergebnisse in weiterverarbeitbarer Form Qualität der Datenbasis (Abdeckung in zeitlicher,
geographischer und inhaltlicher Sicht)
Institute for Science Networking
Thomas [email protected]
Heterogenität
MassendatenMultimedia
Crosslingualität
Online-Retrieval Semantik
Dateiformate
StrukturData-Warehousing
Institute for Science Networking
Thomas [email protected]
Evaluierung von IR-Systemen
Datenanalytische Verfahren Vergleich: automatische Indexierung mit
manuellem Pendant differenzierte Fehlerbewertung
wichtig sind die Fehler, die den Zugang zum Dokument verwehren
Statistische und qualitative Verfahren Verbindung von Recall-Precision-Zahlen mit
bestimmten StrategienAnzahl der InteraktionenAnzahl der Deskriptoren
Institute for Science Networking
Thomas [email protected]
Systemunterschiede
System A: Analyse des Textes in Einzelterme
System B: Grundformenreduktion und Kompositazerlegung
System C: Grundformenreduktion, Kompositazerlegung, Komplexe Deskriptoren
System D: Nominalgruppen max. Länge
Institute for Science Networking
Thomas [email protected]
TREC
TREC (Text Retrieval Conferences) http://trec.nist.gov/ Ziele:
Herstellung der Vergleichbarkeit der IR-Verfahren durch die Verwendung gleicher Kollektionen und Evaluierungsverfahren.
Zugrundelegung realistisch-großer TestkollektionenBereitstellung operationalistischer Grundlagen für die
Testdurchführung und -auswertung technologischer „Transfer“ zwischen Universitäten und
Industrie
Institute for Science Networking
Thomas [email protected]
Suche im Netz
W W W
Komponenten des WWW
Information Retrieval
Kataloge
Such-roboter
Suche innerhalbeinesServers
Clientbasierte Suche
Hypertext
HTTP HTML
URI
Institute for Science Networking
Thomas [email protected]
Katalogbasierte Suche
Charakteristiken: hierarchisch aufgebaut nach Sachgebieten meist nur URL und TITLE-Elemente Einträge werden über WWW-Seiten gemacht meist Stichwortsuche möglich (Indexierung)
Problematik: kein Volltextinvertierung unbefriedigende Abdeckung des WWW-Space Aktualität und Korrektheit hängt vom Eintragenden ab
Vorteile: leichte Handhabung gut für Browsing
Institute for Science Networking
Thomas [email protected]
Roboterbasierte Suche
Charakteristiken: auch Spider, Wanderer etc. genannt automatisches Holen von WWW-Seiten weltweit diverse Indexierungsverfahren, meist Volltextinvertierung mehrere Abfragemodi, IR-Methoden
Problematik: Anbieter bestimmt Vollständigkeit Performance Sicherheit / Zugriffschutz Aufwendige Konfiguration
Vorteile: Volltextsuche mit IR-Methoden
Institute for Science Networking
Thomas [email protected]
Agenten
Internet
User-Interface DB
WWW-Library
Search-Search-EngineEngine
Agenten
Institute for Science Networking
Thomas [email protected]
Eigenschaften von Agenten
Autonomie: Arbeit wird ohne direkte Einflußnahme verrichtet. Agenten planen ihre Aktionen und haben Kontrolle über ihren Zustand.
Sozialfähigkeit: Agenten kommunizieren mit anderen Agenten und mit Menschen.
Reaktionsfähigkeit: Agenten nehmen ihre Umwelt wahr und reagieren auf Änderungen.
Selbständigkeit: Agenten reagieren nicht nur, sondern agieren, um ihre Ziele zu erreichen.
Mobilität: Agenten können sich in Netzwerken bewegen. Wahrhaftigkeit: Ein Agent vermittelt nicht absichtlich falsche
Informationen Gutmütigkeit: Es soll keine Zielkonflikte geben. Rationalität: Agenten handeln so, daß sie ihre Ziele erreichen
können.
Institute for Science Networking
Thomas [email protected]
Typen von Agenten
IntelligenteAgenten
Software-Agenten
Hardware-Agenten
MenschlicheAgenten
Informations-Agenten
Transaktions-Agenten
Kooperations-Agenten
Institute for Science Networking
Thomas [email protected]
Intelligenz
Inwieweit wir das Verhalten eines Objektes als intelligent beurteilen, hängt sowohl von unserer eigenen Intelligenz und unserer Ausbildung als auch von den Eigenschaften des fraglichen Objekts ab. Wenn wir in der Lage sind, sein Verhalten zu erklären und vorherzusagen, oder wenn wir ihm keine noch so einfachen Regeln zugrunde legen, so sind wir wenig geneigt, ihm Intelligenz zuzuschreiben. Deshalb ist es möglich, daß ein und dasselbe Objekt von einer Person als intelligent, von einer anderen Person als nicht intelligent beurteilt wird; letztere hat die Regeln für das Verhalten des Objekts herausgefunden. Alan Turing (1912 - 1954)