recommender systeme in digitalen bibliothekenmichael.hahsler.net/se/ss2005/papers/brand.pdf ·...

35
Recommender Systeme in digitalen Bibliotheken Bakkalaureatsarbeit Betreuer: Dr. Michael Hahsler Institut für Informationsverarbeitung und Informationswirtschaft Abteilung für Informationswirtschaft Wirtschaftsuniversität Wien Augasse 2-6 A-1090 Wien, AUSTRIA von: Richard Brand-Haushofer Studienrichtung: Wirtschaftsinformatik Matrikelnummer: 0250109

Upload: phungtruc

Post on 22-Mar-2018

226 views

Category:

Documents


4 download

TRANSCRIPT

Recommender Systeme in digitalen Bibliotheken

Bakkalaureatsarbeit

Betreuer: Dr. Michael Hahsler

Institut für Informationsverarbeitung und Informationswirtschaft

Abteilung für Informationswirtschaft Wirtschaftsuniversität Wien

Augasse 2-6 A-1090 Wien, AUSTRIA

von: Richard Brand-Haushofer

Studienrichtung: Wirtschaftsinformatik

Matrikelnummer: 0250109

Recommendersysteme in digitalen Bibliotheken - II -

Stichworte: digitale Bibliothek, Recommender Systeme, Collaborative Filtering, Content-based Filtering,

Benutzerprofile, Hybride Recommender Systeme, Fab, LIBRA, Anforderungen

Keywords: digital library, recommender systems, collaborative filtering, content-based filtering, user

profiles, hybrid recommender systems, Fab, LIBRA, requirements,

Zusammenfassung: Diese Arbeit beschreibt im Allgemeinen den Einsatz von Recommender Systemen in

digitalen Bibliotheken. Nach einer kurzen Einleitung, in der diverse Anforderungen an

Recommender Systeme und digitale Bibliotheken beschrieben werden, behandelt diese Arbeit

die beiden Filtermethoden Content-based filtering und Collaborative filtering. Das

Hauptaugenmerk liegt dabei auf der Kombination dieser Methoden und deren Einsatz im

Bibliothekswesen.

Abstract: This paper describes the deployment of recommender systems in digital libraries. According

to a short prelude, in which miscellaneous requests at recommender systems and digital

libraries are described, this work explains the two filter methods content-based filtering and

collaborative filtering. The main part of this work concentrates on how these two filtering

methods are used in libraries.

Kernpunkte für das Management: Dieser Beitrag beschreibt, wie Recommender Systeme in digitalen Bibliotheken eingesetzt

werden können, und welchen Nutzen ein Anwender daraus ziehen kann. Es werden

Möglichkeiten aufgezeigt, wie Benutzerprofile erstellt und von den Filtermethoden verwendet

werden können.

Content-based Filtering: Vergleicht die Inhalte der einzelnen Items und generiert daraus

Empfehlungen

Collaborative Filtering: Generiert Empfehlungen aufgrund von Ähnlichkeiten in den

Benutzerprofilen der einzelnen User.

Hybride Filtermethoden: Kombiniert die Vorteile der beiden Ansätze um so bessere

Recommendations zu ermitteln. Als Beispiele für hybride Systeme werden die Systeme

„Fab“ und „LIBRA“ näher erläutert.

Recommendersysteme in digitalen Bibliotheken - III -

Inhaltsverzeichnis

Inhaltsverzeichnis...................................................................................................................III

Abbildungsverzeichnis ...........................................................................................................IV

Tabellenverzeichnis................................................................................................................IV

1 Bibliotheken .......................................................................................................................... 1

1.1 konventionelle Bibliotheken........................................................................................... 1 1.1.1 Entwicklung von wissenschaftlichen Bibliotheken.............................................. 1

1.2 digitale Bibliotheken ...................................................................................................... 2 1.2.1 digitale vs. virtuelle Bibliotheken ........................................................................ 2 1.2.2 technische und nicht-technische Aspekte............................................................. 3 1.2.3 Chancen und Gefahren ......................................................................................... 3 1.2.4 funktionale und nicht-funktionale Anforderungen............................................... 4

2 Recommender Systeme ........................................................................................................ 5

2.1 Allgemeines.................................................................................................................... 5 2.1.1 Definition - Entwicklung...................................................................................... 5 2.1.2 Modell eines Recommendation Prozesses ........................................................... 7

2.2 Klassifizierung von Recommendersystemen ................................................................. 8

3 Recommender Systeme in digitalen Bibliotheken ............................................................. 9

3.1 Benutzerprofile ............................................................................................................... 9 3.1.1 Schritte der Informationserschließung ................................................................. 9 3.1.2 Identifikation des Benutzers............................................................................... 10 3.1.3 Profildatengewinnung ........................................................................................ 12

3.2 Content-Based Recommendation ................................................................................. 13 3.2.1 Methode.............................................................................................................. 13 3.2.2 Kategorisierung der Content-Based Filtering Methoden ................................... 13 3.2.3 Probleme............................................................................................................. 16

3.3 Collaborative Filters ..................................................................................................... 16 3.3.1 Methode.............................................................................................................. 16 3.3.2 Kategorisierung der Collaborative Filtering Methoden ..................................... 17 3.3.3 Probleme............................................................................................................. 18

3.4 Kombination von Content-Based und Collaborative Filtering..................................... 19 3.4.1 Vorteile eines Hybrid-Systems........................................................................... 19 3.4.2 System „Fab“...................................................................................................... 19 3.4.3 System „LIBRA“................................................................................................ 21 3.4.4 Hierarchical Bayesian Recommender System ................................................... 26

3.5 Probleme - Datenschutz................................................................................................ 27

3.6 Fazit .............................................................................................................................. 28

Literaturverzeichnis............................................................................................................... 29

Recommendersysteme in digitalen Bibliotheken - IV -

Abbildungsverzeichnis

Abb. 1 Modell eines Recommendation Prozesses - Quelle: [THL01]....................................... 7

Abb. 2 Kategorisierung der Collaborative Filtering Methoden - Quelle: [ÖS02] ................... 17

Tabellenverzeichnis

Tabelle 1 Recommender Systems Issues and Approaches – Quelle [TLH01] .......................... 6

Tabelle 2 – Discovery Model - Quelle: [NTP97]..................................................................... 10

Recommendersysteme in digitalen Bibliotheken - 1 -

1 Bibliotheken „The digital age offers libraries an opportunity to shape

the future of knowledge management in the networked

community of the World Wide Web. “

Jay Jordan, Präsident von OCLC im Jahresbericht 1998/99

1.1 konventionelle Bibliotheken

1.1.1 Entwicklung von wissenschaftlichen Bibliotheken Konventionelle Bibliotheken konzentrieren sich auf das Sammeln und Ausleihen analoger

Bestände wie zum Beispiel Zeitschriften, Bücher, Videoaufzeichnungen usw. Die

Entwicklung von Bibliotheken hat sich durch Innovationen in mehreren Stufen vollzogen, um

so auf die Herausforderungen, die der Wandel von der Industrie- zur Informationsgesellschaft

mit sich brachte, zu reagieren. Bibliotheken und diverse Informationseinrichtungen sind

entstanden, um den Bedarf an Informationen und Wissen der Gesellschaft zu befriedigen. Die

Entwicklung neuer Speichermedien, vom Buch bis hin zur digitalen Speicherung, hat

Bibliotheken und ihre konzeptionellen Grundlagen schon immer verändert. Die steigende

Verbreitung wissenschaftlicher Zeitschriften im 17. und 18. Jahrhundert führte dazu, dass sich

im 18. und 19. Jahrhundert die wissenschaftliche Gebrauchsbibliothek entwickelte. Der

gegenwärtige, durch die digitale Revolution ausgelöste, Wandel von der Industrie- zur

Informationsgesellschaft bringt eine Verkürzung der Innovationszyklen mit sich, was klar als

Strukturmerkmal der Informationsgesellschaft angesehen werden kann [GP99]. Derzeit

erkennt man einen dreistufigen Entwicklungsprozess, welcher durch

Informationstechnologien ausgelöst wurde:

1.1.1.1 Automatisierung

Die Automatisierung begann in den 60er Jahren und bezieht sich hauptsächlich auf die

automatische Erschließung und Bereitstellung von Informationsmaterial. Dadurch wurden

Vorgänge in Bibliotheken rationalisiert und beschleunigt. In Folge dessen entstanden die

ersten OPACs (Online Public Access Catalog), digitale Kataloge, welche Metadaten über

Bücher usw. beinhalten, die den Benutzern zugänglich gemacht wurden. [RH02]

Recommendersysteme in digitalen Bibliotheken - 2 -

1.1.1.2 Digitalisierung

In den 80er Jahren folgte dann die Digitalisierung. Man ging dazu über, nicht nur Metadaten,

sondern die Medien selbst in digitaler Form zu speichern und den Benutzern zur Verfügung

zu stellen. Man fand nun auch multimediale CD-ROMs und digitale Volltexte in den

Beständen wissenschaftlicher Bibliotheken. Mit der Zeit wuchs der Anteil dieser Medien

zusehends an. [RFD99]

1.1.1.3 Virtualisierung

Die Anfänge der Virtualisierung sind in den Anfängen der 90er Jahre zu suchen. Man versteht

darunter, dass die Informationsversorgung aus verteilten Ressourcen in digitaler Form erfolgt.

Dabei kann es sich entweder um externe oder um interne Ressourcen handeln, die über

Netzwerke verbreitet und unter einheitlichen Gesichtspunkten aufbereitet werden. [OA95]

1.2 digitale Bibliotheken

1.2.1 digitale vs. virtuelle Bibliotheken Im Zusammenhang mit der oben genannten Virtualisierung werden oft die Begriffe „digitale

Bibliothek“ und „virtuelle Bibliothek“ verwendet. Eine eindeutige Abgrenzung bzw.

Definition dieser Terme hat sich bislang noch nicht durchgesetzt. Sie werden daher oft in

einer nicht genau erläuterten Bedeutung gebraucht, was leicht zu Fehlinterpretationen führen

kann. Digitale Bibliotheken könnte man folgendermaßen charakterisieren: „Bibliotheken, die

sich auf das Sammeln und Ausleihen digitaler Medien konzentrieren.“ [KH04] Unter

virtuellen Bibliotheken versteht man oft „Bibliotheken, die ortsgebundene sowie

ortsunabhängige Daten verwalten und anbieten“. [KH04] Der Nachteil dieser oben genannten

Begriffe besteht jedoch darin, dass sie sich ausschließlich auf digitale Medien beziehen.

Digitale Medien machen in der Praxis jedoch nur einen Teil des gesamten Bestandes an

Informationsmaterial aus. Deshalb wurde als weitere Bezeichnung 1997 im Rahmen des

britischen eLib-Programms der Begriff „Hybrid Library“ eingeführt. [RC98] Hierunter

versteht man im Allgemeinen „Bibliotheken, die sich auf das Sammeln und Ausleihen sowohl

analoger Bestände, als auch digitaler Medien konzentrieren.“ [KH04] Damit wird man der

Einsicht gerecht, dass in absehbarer Zeit auch physische Dokumente in Bibliotheken

weiterhin Bestand haben werden. Alle diese Begriffe von digitaler über virtueller bis hin zu

hybrider Bibliothek bleiben jedoch medien-, also bestandsbezogen. Es kommt damit jedoch

nicht zum Ausdruck, dass Bibliotheken nicht nur Medien aufbewahren und bereitstellen,

sondern darüber hinaus auch als Dienstleistungseinrichtungen für ihre Besucher agieren.

Recommendersysteme in digitalen Bibliotheken - 3 -

Dieser Aspekt gewinnt in der heutigen Informationsgesellschaft immer mehr an Bedeutung.

[RH02]

1.2.2 technische und nicht-technische Aspekte Der Hauptzweck digitaler Bibliotheken ist natürlich das Sammeln, Speichern, Indexieren und

Präsentieren digitaler Dokumente. Diese Daten sind zumeist in unterschiedlichen Formaten

wie Text, Video oder Ton vorhanden, und müssen oftmals in verteilten Datenbanken

gespeichert werden. Damit wird ein gutes Datenbankmanagement unumgänglich. Außerdem

müssen digitale Bibliotheken für ihre Benutzer mehr als nur eine Informationsquelle

darstellen. Sie müssen ihnen auch die Möglichkeit bieten, untereinander in Kontakt zu treten

um Informationen auszutauschen. [SPAN98]

Zu den nicht-technischen Aspekten gehören vor allem Fragen wie jene nach dem geistigen

Eigentum an Dokumenten. Wer besitzt die Urheberrechte auf welche Informationsquellen und

inwieweit dürfen diese Dokumente veröffentlicht bzw. heruntergeladen werden.

Unterschiedliche Benutzer stellen natürlich auch unterschiedliche nicht-technische

Anforderungen an ein Bibliothekssystem. So werden zum Beispiel Professoren oder Experten

eher daran interessiert sein, Dokumente zu veröffentlichen, während für Studenten eher das

rasche Auffinden relevanter Informationen im Vordergrund stehen wird. Vor allem die

unterschiedlichen nicht-technischen Aspekte digitaler Bibliotheken erhöhen die Komplexität

in der Entwicklung solcher Systeme und den Wartungsaufwand in der Praxis. [SPAN98]

1.2.3 Chancen und Gefahren Zu den großen Chancen digitaler Bibliotheken zählen vor allem, dass immense Mengen an

unterschiedlichen Informationen von verschiedenen Benutzergruppen an fast jedem Ort der

Welt abgerufen werden können. Um bei dieser Informationsflut den Usern das Durchsuchen

der Datenmengen zu erleichtern, bieten digitale Bibliotheken, im Gegensatz zu

konventionellen Bibliotheken, die Möglichkeit, Recommendersysteme einzusetzen. Den

Benutzern wird damit das Auffinden und Bewerten relevanter Dokumente erleichtert.

Außerdem kann den Usern die Möglichkeit geboten werden, selbst ein Urteil über die

Relevanz eines Dokumentes abzugeben, oder eine Empfehlung zu einem bestimmten

Dokument zu schreiben. In digitalen Bibliotheken steigt weiters die Gefahr an, dass Artikel

oder Unterlagen veröffentlicht werden, die nicht einem gewissen Qualitätsstandart

entsprechen, da sie oftmals nicht mehr von Experten bewertet und beurteilt werden, sondern

Recommendersysteme in digitalen Bibliotheken - 4 -

automatisch vom Bibliothekssystem beschrieben und in den Bestand eingeordnet werden.

[SAPN98]

1.2.4 funktionale und nicht-funktionale Anforderungen Jede Bibliothek ist natürlich inhaltlich durch die Unterlagen, die ihr zugrunde liegen,

begrenzt. Da bei digitalen Bibliotheken die räumliche bzw. örtliche Begrenzung

konventioneller Bibliotheken wegfällt, ergeben sich noch weitere funktionale und nicht-

funktionale Anforderungen. Die Hauptaufgaben, das Indexieren, Suchen, Finden und

Präsentieren von Dokumenten müssen jedoch beide Arten von Bibliotheken erfüllen, wenn

auch in unterschiedlicher Art und Weise. Zudem benötigen die verschiedenen

Personengruppen, die mit digitalen Bibliotheken zu tun haben, unterschiedliche Tools, um

ihre Aufgaben bzw. Bedürfnisse zu erfüllen. So sind zum Beispiel Mitarbeiter hauptsächlich

dafür zuständig, alles in einer den Anforderungen der Benutzer entsprechender Form zu

organisieren. Dies beinhaltet Tätigkeiten wie das Erwerben, Lagern und Aufbewahren,

Klassifizieren und Indexieren von Materialien. Wobei die Klassifizierung und Indexierung

oftmals schon maschinell erfolgen. Mitarbeiter benötigen daher Content Management

Systeme zur Verwaltung und Strukturierung der verschiedenen Informationsquellen. Die

zweite Personengruppe, nämlich die Benutzer, sind hauptsächlich an der Verwendung dieser

Unterlagen und an der raschen Gewinnung relevanter Informationen interessiert. Um dies zu

ermöglichen, benötigen digitale Bibliotheken Kataloge über Meta-Daten von Dokumenten,

Content Repositories und elektronische Kataloge, um die gewünschten Dokumente schneller

wieder zu finden. Digitale Bibliotheken sollten Benutzern außerdem auch die Funktionalität

bieten, miteinander in Interaktion zu treten, um so Erfahrungen und Informationen

auszutauschen. Dies können Meeting Rooms und weitere diverse Human-to-Human

Interaction Möglichkeiten bieten. [SAPN98]

Zu den nicht-funktionalen Anforderungen zählen generell einmal all jene Anforderungen, die

im Allgemeinen an Softwaresysteme generell gestellt werden. Dazu zählen zum Beispiel

Aspekte wie die Performance oder eine klare Strukturierung des Quellcodes. Darüber hinaus

müssen digitale Bibliotheken ihren Benutzern universelle Zugangs- bzw.

Zugriffsmöglichkeiten bieten. Das heißt, dass sie für eine größtmögliche Benutzergruppe, die

jeweils unterschiedliche Fähigkeiten, Anforderungen und Kenntnisse besitzt, entworfen

werden muss. Daraus lassen sich unterschiedliche Anforderungen an den Inhalt und an das

Human-Computer-Interface Design ableiten. Benutzer sollen außerdem die Möglichkeit

haben, auf die von ihnen gewünschten Informationen in einer möglichst effektiven und

Recommendersysteme in digitalen Bibliotheken - 5 -

effizienten Weise zuzugreifen. Des Weiteren sollte ein digitales Bibliothekssystem

modifizierbar sein. Darunter versteht man vor allem die Fähigkeit des Systems, dass

bestimmte Funktionalitäten erweitert werden können, um so über längere Zeit Bestand zu

haben. Die Anforderung der Platform Scalability einer digitalen Bibliothek bedeutet, dass

zukünftige Technologien jederzeit integrierbar sein sollten, und dass die Benutzer auch mit

unterschiedlich technisch ausgestatteten Systemen auf die digitale Bibliothek zugreifen

können, und die Informationen in einer für sie angepassten Form erhalten. [SAPN98]

2 Recommender Systeme

2.1 Allgemeines

2.1.1 Definition - Entwicklung Unter Recommender Systemen versteht man Systeme, die für Benutzer automatisch

Empfehlungen generieren. Diese Empfehlungen können sich im Zusammenhang mit einem

Online-Shop zum Beispiel auf ähnliche Produkte beziehen, oder im Kontext von Bibliotheken

eben auf Bücher oder Dokumente zu ähnlichen relevanten Themen. Diese Systeme sollen also

den Benutzer bzw. Kunden bei der Produkt- bzw. Informationssuche unterstützen. Generell

kann man zwischen personalisierten und nicht-personalisierten Recommender Systemen

unterscheiden. Der Unterschied besteht darin, dass nicht-personalisierte Recommender

Systeme für jeden Benutzer dieselben Empfehlungen aussprechen. Als Beispiel hierfür seien

Bestsellerlisten genannt. Im Gegensatz dazu richten sich personalisierte Recommender

Systeme nach den Bedürfnissen oder Gewohnheiten der einzelnen Benutzer. In digitalen

Bibliotheken sollen personalisierte Recommender Systeme dem User also helfen, Dokumente

zu finden, die zu seiner Suchanfrage am besten passen, und die für das System am

relevantesten erscheinen. [FS02]

In den 1990er wurden verschiedene Typen von Recommender Systemen entwickelt, die sich

grob in vier Klassen unterteilen lassen: [TLH01]

Content-based systems: Diese Systeme empfehlen Items, von denen sie aufgrund

vorhergegangener Erfahrungen glauben, dass sie für den User relevant sind. Der Focus

liegt bei diesen Systemen auf den Algorithmen, welche die Benutzerprofile erlernen und

neue Items herausfiltern, deren Inhalte am besten mit den Benutzerpräferenzen

korrelieren.

Recommendersysteme in digitalen Bibliotheken - 6 -

Recommendation support systems: Support Systeme automatisieren den

Recommendationprozess nicht, sondern unterstützen nur die einzelnen Benutzer

Empfehlungen abzugeben bzw. zu erhalten.

Social data mining systems: Beziehen die User-Präferenzen implizit aus den Interaktionen

des Benutzers mit dem System, oder aus diversen Usenet Messages usw. Diese Systeme

fokussieren sich auf HCI Komponenten, welche die Resultate von Empfehlungsprozessen

visualisieren, womit die Navigation im Informationsraum erleichtert werden soll.

Collaborative filtering systems: Collaborative filtering setzt ebenfalls auf den

Benutzerprofilen auf und versucht, mit Hilfe von Algorithmen, Benutzer Präferenzen zu

matchen, um so Items zu empfehlen. Items die ein Benutzer als interessant bewertet hat,

werden auch jenen Benutzern empfohlen, deren Benutzerprofile am besten mit dem des

aktiven Benutzers korrelieren.

Approaches Issues Content-based Rec. Support Social Data

Mining Collaborative

Filtering Preferences Seeker’s

preferences only Mines preferences;

seeker’s preferences typically not used

Seekers must state preferences

Roles & Communication

System automates Role asymmetry

System supports human recommenders and seekers

System automates High potential for community; raises

significant privacy concerns Role asymmetry vs. Role uniformity

Algorithms Machine learning; information retrieval

Data mining Preference matching and weighting

HCI Visualization; visual annotation

Tabelle 1 Recommender Systems Issues and Approaches – Quelle [TLH01]

Die Geschichte von Recommender Systemen ist noch relativ jung und ging aus der

Entwicklung von Decision Support Systeme (DSS) heraus. Decision Support Systeme,

welche vor allem im Management Bereich ihren Einsatz finden, wurden Ende der 50er und

Anfang der 60er Jahre entwickelt. Es sind dies Werkzeuge, die die Entscheidungsträger bei

der Entscheidungsfindung unterstützen sollen. Im Gegensatz zu Recommender Systemen wird

aber keine Bewertung der einzelnen Möglichkeiten vorgenommen.

Als den Erfinder des Collaborative Filterings kann man John Hey bezeichnen. Dieser

beschrieb im Jahre 1987 in einem ersten Patent grob das Verfahren von Collaborative

Filtering und in einem zweiten Patent im Jahre 1989 den Zusammenhang dieses Algorithmus

Recommendersysteme in digitalen Bibliotheken - 7 -

mit der automatischen Generierung von Empfehlungen. Er nannte diesen Begriff jedoch noch

nicht Collaborative Filtering, welcher erst in einem Aufsatz über „Tapestry“, einem

Mailfiltersystem der XEROX Palo Alto Research Group, erwähnt wurde [RM00]. Im Jahr

1992 startete an der University of Minnesota das Forschungsprojekt „GroupLens“, mit dem es

erstmals möglich war, automatisch ähnliche Benutzer zu finden, wodurch das Recommender

System nicht mehr auf Netzwerke begrenzt war, in dem jeder jeden kennt. Ein weiterer

Meilenstein war das im Jahr 1993 ins Leben gerufene Forschungsprojekt namens

„OpenSesame!“, bei dem es sich um einen lernenden Agenten handelt, der das

Benutzerverhalten aufzeichnete und nach wiederkehrenden Mustern suchte. Das Produkt

daraus wird heute unter dem Name „LearnSesame!“ angeboten. Ein letzter Schritt war die

Portierung von „GroupLens“ auf das Usenet zur Bildung von Communities im Jahre 1996.

[FS02]

2.1.2 Modell eines Recommendation Prozesses Abbildung 1 zeigt ein sehr allgemeines Modell eines Recommendationprozesses. Ein

Empfehlungssuchender fragt um eine Empfehlung an, oder ein Empfehlender übermittelt

ohne Anfrage automatisch eine Empfehlung. Empfehlungssuchende stellen dem System

möglicherweise Daten über sich zu Verfügung, oder das System erhebt diese implizit.

Basierend auf den Informationen über den Benutzer, aber auch anhand von Informationen

über andere Benutzer, schlägt das Recommender System dann dem User entsprechende

Objekte vor, welche dem System als relevant erscheinen, und zu den Interessen des Users

passen könnten. Ein User wird dann entweder das Objekt auswählen und weiter verwenden,

oder er wird möglicherweise Kontakt zu anderen Usern aufnehmen, die ähnliche Interessen

besitzen. [THL01]

Abb. 1 Modell eines Recommendation Prozesses - Quelle: [THL01]

Recommendersysteme in digitalen Bibliotheken - 8 -

2.2 Klassifizierung von Recommendersystemen Nach P. Resnick und H. R. Varian [RV97] kann man Recommendersysteme anhand der

folgenden 5 Dimensionen klassifizieren. [GHJ]

1. Was stellt den Inhalt einer Empfehlung dar? Der Inhalt einer Empfehlung kann in

unterschiedlichen Formen dargestellt werden, zum Beispiel als ein einzelnes Bit

(1=empfohlen, 0=nicht empfohlen) oder in Form einer Schulnote, oder es kann auch

nur unstrukturierter Text sein, oder eine URL, welche auf eine andere

Informationsquelle verweist.

2. Basiert die Empfehlung auf der Meinung von Benutzern oder auf beobachtetem

Benutzerverhalten? Die Betonung liegt hier vor allem auf dem Unterschied zwischen

expliziten Empfehlungen, welche die Meinung der Benutzer widerspiegeln, und auf

implizit beobachtetem Benutzerverhalten. Die auf dem Internet basierende

Infrastruktur von digitalen Bibliotheken bietet eine Reihe von unterschiedlichen

Indikatoren, aus denen implizit Benutzerdaten gewonnen werden können.

3. Ist der Benutzer anonym? In digitalen Bibliotheken sind Benutzer nur bis zu einem

gewissen Grad anonym. So können User zum Beispiel über Sessions, Pseudonyme

oder Logins identifiziert werden.

4. Wie werden Empfehlungen aggregiert? Recommendations können beispielsweise

anhand einzelner Personen, Usergruppen (clusters) oder für alle User (globally)

aggregiert werden.

5. Wie werden Empfehlungen im System verwendet? Empfehlungen können zum einen

dazu verwendet werden, um Bucher zu bewerten (z.B.: mittels Sterne) oder um

Rankings zu erstellen. Außerdem können sie auch dazu dienen, um negativ bewertete

Bücher aus einer Anfrage herauszufiltern.

Auf der Seite der Produkte (Informationsquellen) sollten noch bestimmte Eigenschaften

dieser berücksichtigt werden:

1. Was soll bewertet werden? Zum Beispiel Bücher, Zeitschriften, Newsgroup Artikel,

Videos, usw.

2. Wie viele Objekte müssen bewertet werden? Die Anzahl der zu bewerteten Objekte ist

natürlich durch die Menge der einer Bibliothek zugrunde liegenden Dokumente

beschränkt.

Recommendersysteme in digitalen Bibliotheken - 9 -

3. Wie groß ist die Lebensdauer eines Objekts? Bei Dokumenten mit einer kurzen

Bestandsdauer, wie zum Beispiel bei Newsgroup Artikeln, ist es sehr wichtig, die

Empfehlungen rechtzeitig abzugeben.

4. Welche Gewinne oder Verluste entstehen durch „falsche“ Produktauswahl für

Benutzer von Recommendersystemen? Man bedenke nur, man müsste das „Rad neu

erfinden“, nur weil man einen relevanten Artikel übersehen hat.

Fragen, welche die Teilnehmer an Recommendersystemen betreffen, lauten folgendermaßen:

1. Wer produziert die Empfehlungen?

2. Wer konsumiert bzw. erhält diese Empfehlungen?

3. Welche „Dichte“ von Empfehlungen wird erreicht?

4. Wie schnell ändern sich die Voraussetzungen der Konsumenten?

All diese Fragen haben wesentlichen Einfluss auf das technische Design von Recommender

Systemen. [GHJ01]

3 Recommender Systeme in digitalen Bibliotheken

3.1 Benutzerprofile Die Basis vieler Recommender Systeme bilden die so genannten Benutzerprofile, in denen

Daten gespeichert werden, die zur Identifikation eines Benutzers notwendig sind, die aber

auch soziodemographische (Alter, Geschlecht, usw.) und psychographische (Interessen, usw.)

Informationen enthalten. Diese Daten bilden die Grundlage zur Erstellung personalisierter

Recommendations.

3.1.1 Schritte der Informationserschließung Wichtige Informationen über das Interesse eines Benutzers, beziehungsweise über die

Relevanz eines bestimmten Dokumentes für die Bedürfnisse des Users, lassen sich aus den

einzelnen Schritten ableiten, die ein Benutzer bei der Suche nach Informationen durchläuft.

Tabelle 1 zeigt nun in einzelnen Schritten, wie ein Besucher einer digitalen Bibliothek

vorgeht, wenn er sich über ein bestimmtes Thema informieren möchte, und dazu Unterlagen

sucht. [NTP97]

Activity Response

glimpse is aware of the existence focus or ignore

Recommendersysteme in digitalen Bibliotheken - 10 -

consider looks at summary information select or reject

examine looks at detailed information adopt or reject

use varies with the nature

assess evaluates the experience using the document endorse

Tabelle 2 – Discovery Model - Quelle: [NTP97]

Geht ein Benutzer durch jede dieser Phasen, um ein Dokument zu bewerten, werden ihm nach

jedem Schritt mehr Details zu dem betreffenden Dokument bekannt, und er bekommt ein

Gefühl für die Relevanz dieses Dokuments für seine Informationsbedürfnisse. In einem ersten

Schritt erhält der Benutzer die Information, dass ein bestimmtes Dokument überhaupt

existiert. Diese Information kann zum Beispiel aus dem Ergebnis einer Suchanfrage abgeleitet

werden. Weiters wird er sich eine kurze Zusammenfassung über das Dokument durchlesen

und danach entscheiden, ob er es weiter betrachten soll oder nicht. Scheint ein Dokument für

die Informationsbedürfnisse eines Users relevant zu sein, wird er dieses weiter durcharbeiten

und die darin enthaltenen Informationen für sich verwenden. Wie er diese neu gewonnene

Information für seine Zwecke anwendet, unterscheidet sich von Fall zu Fall. Am Ende dieser

Kette erfolgt meist eine Beurteilung, indem der Benutzer beispielsweise die in dem Dokument

enthaltenen Informationen oder Meinungen bejaht oder ablehnt.

Für Recommender Systeme kann man aus jeder dieser Phasen Informationen über die

Relevanz eines Dokumentes für einen Benutzer ableiten. Wurde ein Dokument öfter

durchsucht oder länger betrachtet, ist dies ein Indiz dafür, dass es möglicherweise

Informationen enthält, die für den Benutzer von Nutzen sein können. [NTP97]

3.1.2 Identifikation des Benutzers Idealerweise sollte ein System einen Benutzer bei betreten der Bibliothek sofort erkennen und

dessen Profil abrufen können. Ein Profil über mehrere Sessions hinweg aufzubauen und zu

vervollständigen kann jedoch nur dann erfolgen, wenn die Möglichkeit besteht, die Benutzer

eindeutig zu identifizieren. Folgende Verfahren können dabei unterschieden werden:

3.1.2.1 Public Key Verfahren

Die sicherste Methode einen Benutzer eindeutig zu identifizieren bietet das Public Key

Verfahren. Dabei meldet sich der User bei einer Website durch Austausch von Schlüsseln an,

womit die Identität eindeutig festgestellt wird. Die hohe Sicherheit bringt jedoch auch einen

sehr hohen administrativen Aufwand für die Zertifizierungsstelle (Certification Authority,

CA) mit sich, da mit diesem Verfahren auch digitale Signaturen erstellt werden können. Es

Recommendersysteme in digitalen Bibliotheken - 11 -

kann also nicht wie beim Login ein beliebiger anonymer Deckname vergeben werden,

sondern es muss die reale Identität der betreffenden Personen vor der Vergabe des Schlüssels

sichergestellt werden. [RBF03]

3.1.2.2 Login und Passwort

Eine weitere Variante Personen exakt zu erkennen, besteht darin, von den Anwendern explizit

die Eingabe von Benutzernamen und Passwort zu verlangen. Diese Methode bringt allerdings

wieder einigen Aufwand für die User mit sich. Viele scheuen davor zurück sich mit Hilfe

eines Anmeldungsprozesses zu registrieren und auch für jede neue Sitzung Benutzername und

Passwort einzugeben. Anonymität kann in diesem Fall gewährt werden, indem der User einen

Decknamen verwendet, und das System beim Registrierungsprozess ansonst keine

persönlichen Daten verlangt. [PR02] Ein Sicherheitsrisiko bei diesem Verfahren stellen

jedoch Browser dar, die sich Passwörter merken. So könnte sich jeder beliebige Nutzer des

Rechners als eine bestimmte Person ausgeben. [RBF03]

3.1.2.3 Cookies

Eine Möglichkeit die Benutzererkennung zu automatisieren ist die Verwendung von Cookies,

die beim ersten Besuch eines Benutzers lokal auf dessen Rechner gespeichert werden.

Problematisch hierbei ist jedoch, dass eigentlich nur der Browser identifiziert wird, und nicht

zwischen den einzelnen Benutzern selbst unterschieden wird. Wechselt ein User den Rechner,

erkennt ihn das System nicht mehr als dieselbe Person, sondern stuft ihn als neuen Nutzer ein.

Außerdem bieten neue Systeme den Benutzern oftmals die Möglichkeit die Speicherung von

Cookies zu deaktivieren. Sind Cookies also deaktiviert, ist keine Identifikation des Benutzers

mehr möglich. [RBF03]

3.1.2.4 IP-Adresse

Computer können im Internet über ihre IP-Adressen erkannt werden. Der Nachteil hierbei

liegt jedoch darin, dass heutzutage die meisten Internet Provider die IP-Adressen beim

Einwählen eines Rechners dynamisch vergeben. Das heißt, ein und derselbe Computer, an

dem eine bestimmte Person arbeitet, erscheint nach jeder neuen Einwahl ins Internet mit einer

neuen IP-Adresse. Auf Seiten eines Bibliothekssystems bedeutet dies, dass dieselbe Person

als eine Vielzahl unterschiedlicher Personen interpretiert wird, was natürlich zu einer

Sinnlosigkeit der Personalisierung führen würde. Das andere Extrem dazu wäre, dass ein

System eine Vielzahl an verschiedenen Benutzern als ein und denselben interpretiert.

Recommendersysteme in digitalen Bibliotheken - 12 -

Firmennetzwerke sind zum Schutz vor Angriffen durch Viren oder Hacker mittels Firewalls

geschützt. Dadurch kommunizieren die User einer Firma nur indirekt über einen Proxy Server

mit dem Internet, wodurch sie als nur ein einziger Benutzer erkannt werden. Aus diesen

Gründen eignet sich die Benutzererkennung mittels IP-Adresse nur sehr beschränkt zur

Identifikation von Personen. [PR02]

3.1.3 Profildatengewinnung Wissen über User kann mit unterschiedlichen Methoden gewonnen werden. Zum einen gibt es

die Möglichkeit, das Verhalten des Benutzers bei der Informationssuche, wie in 3.1.1

beschrieben, zu beobachten. Man kann dadurch feststellen, wie lange ein bestimmtes

Dokument und welche Dokumente betrachtet wurden, und welche Suchbegriffe ein User

eingegeben hat, um bestimmte Objekte zu finden. Diese Art der Informationsgewinnung wird

auch als implizite Profildatengewinnung bezeichnet. Außerdem kann man dem Benutzer die

Möglichkeit geben, sein Profil nach den eigenen Wünschen zu ändern, wobei man jedoch

darauf achten sollte, dass ein User seine Daten nur dann preisgeben wird, wenn er eine

angemessene Gegenleistung, im Fall einer digitalen Bibliothek gute Recommendations,

erhalten wird. Solche Varianten werden unter dem Begriff explizite Profildatengewinnung

zusammengefasst. Da die Profile laufend erweitert werden, wie zum Beispiel durch die

Analyse des Benutzerverhaltens, ist „der Vorgang der Erhebung von […] Benutzerprofilen

keine einmalige und abgeschlossene Aktion“ [PF01], sondern vielmehr „ein kontinuierlicher

Lernprozess, bei dem das Wissen über den Kunden […] ständig erweitert und aktualisiert

wird.“ [KGL00]

3.1.3.1 explizite Profildatengewinnung

Wie schon erwähnt, gibt der User bei der expliziten Profildatengewinnung, Informationen

bewusst preis. Ihm können dabei Fragen gestellt werden, deren Antworten direkt in das

Benutzerprofil übernommen werden können. Beispiele dafür sind die Gewichtung von

Interessen, das Angeben von Keywords oder die Angabe von Personendaten. Die Fragen

können von den Betreibern frei gewählt werden, wodurch sofort ein vollständiges Profil

abgeleitet werden kann. Der große Nachteil besteht allerdings darin, dass die Angst der

Benutzer, Informationen über sich preiszugeben, sehr leicht zu Falschaussagen führen kann.

Außerdem besteht die Gefahr, dass die Profile leicht veraltern, da eine Aktualisierung nur

durch Interaktion mit dem Benutzer durchgeführt werden kann.

Recommendersysteme in digitalen Bibliotheken - 13 -

3.1.3.2 implizite Profildatengewinnung

Bei der impliziten Profildatengewinnung werden alle Informationen aus den durchgeführten

Aktionen der Benutzer abgeleitet. Das heißt, man protokolliert sämtliche Bewegungen und

Aktionen eines Benutzers mit, und wertet diese anschließend aus. Das ständige Sammeln von

Informationen über Anwender oder Kunden führt zu einer laufenden Verbesserung des

Benutzerprofils. Durch diesen „Customer Lifetime Cycle“ lernt das System den Benutzer bei

jedem Besuch besser kennen, wodurch schon nach einiger Zeit qualitativ gute

Recommendations gegeben werden können. Die Vorteile dieses Verfahrens liegen vor allem

darin, dass der Benutzer nicht direkt mit dem System in Interaktion treten muss um Angaben

über sich abzugeben. Weiters wird es bei diesem Verfahren den Usern erschwert, gezielte

Falschangaben über sich zu machen, da sie die Auswertungsroutinen nicht einsehen können.

[OWDJK]

3.2 Content-Based Recommendation

3.2.1 Methode Beim Content Based Recommendation oder auch eigenschaftsbasierten Filtern in digitalen

Bibliotheken wird nach Ähnlichkeiten zwischen Objekten bzw. Büchern gesucht. Das heißt,

Metadaten über Titel, Autor oder Inhalt werden miteinander verglichen. Um die Relevanz

eines aktuellen Objekts zu beurteilen, wird es meist in Beziehung zu anderen Objekten

gesetzt, für die der Benutzer Interesse gezeigt hat. Diese Beziehung basiert auf der Theorie

des repeat-buyings und kann entweder wegen eines konstanten Verhaltens eines Benutzers

automatisch, oder durch explizite Angaben von Interessen manuell erstellt werden. Zwei

Dokumente kann man also ähnlich bezeichnen, wenn sie Informationen enthalten, die mit

dem Informationsbedürfnis des Benutzers korrespondieren. [CK02] Basiert ein Recommender

System auf Content Based Recommendation, werden einem User, der nach einem bestimmten

Buch eines Autors sucht, auch andere Bücher desselben Autors vorgeschlagen. Das

Hauptanwendungsgebiet für Recommender Systeme dieser Art liegen vor allem in Gebieten

in denen textbasierte Objekte eine Rolle spielen, also in Bibliotheken, Informationsportalen,

Webseiten oder Newsgroups. [JA04]

3.2.2 Kategorisierung der Content-Based Filtering Methoden Bei Content-Based Systemen unterscheidet man zwischen verschiednen Methoden, nämlich

zwischen dem einfachen Boolean-Matching, der Vector-Space Methode und den

probabilistischen Methoden. [OWM97]

Recommendersysteme in digitalen Bibliotheken - 14 -

Boolean-Matching

Beim Boolean-Matching ist die Relevanz eines Dokuments davon abhängig, ob es ein

bestimmtes Feature enthält oder nicht. Als Feature kann man zum Beispiel Wörter,

Wortstämme, Wortketten oder Sätze betrachten. Diese Methode heißt Boolean, da hier mit

Hilfe der einfachen Boole’schen Operatoren „Und“ bzw. „Oder“ gearbeitet wird. Ein

Dokument kann also den Wert Eins (enthält das Feature) oder den Wert Null (enthält das

Feature nicht) erhalten. Man spricht daher auch von einer binären Beurteilung eines

Dokumentes. Außerdem wird diese Methode auch als Exact-Match Methode bezeichnet, im

Gegensatz zu den folgenden, bei denen man von Best-Match Methoden spricht. [MK00]

Da in dieser Form kein Ranking aufgrund der Relevanz des Dokuments für den

Informationsbedarf des Nutzers möglich ist, wird meistens der daraus abgeleitete Winnow-

Algorithmus, bei dem die Relevanz eines jeden Wortes gewichtet wird, verwendet: [JK00]

∑ τ>ii xw mit:

ix : Wort oder angrenzende Wortbedeutungen (i=1,…I)

iw : Gewicht des Wortes i (i=1,…I)

τ : Schwelle ab der ein Dokument dem Nutzer vorgeschlagen wird.

Recommendersysteme in digitalen Bibliotheken - 15 -

Vector-Space Methode

Beim Vector Space Modell werden die komplexen Inhalte von Dokumenten in einem String

dargestellt, der jeweils angibt, in welcher Häufigkeit bestimmte Wörter, Wortphrasen,

grammatikalisch verwandte Wörter, Namen, Daten oder charakteristische Redewendungen in

einem Text vorkommen. [FD92] Anschließend werden diese, ebenso wie das

Eigenschaftsprofil des Nutzers, als Vektoren in einem Vektorraum dargestellt. Jedes Wort

wird durch eine Dimension repräsentiert; die Distanz zum Ursprung gibt den jeweiligen

Gewichtungsfaktor des Wortes wider. Es wird angenommen, dass, wenn ein Dokument im

Vektorraum einem Eigenschaftsprofil sehr nahe liegt, dieses Dokument den

Informationsbedarf des Nutzers befriedigen könnte. [TF97] Eine sehr weit verbreitete

Ausprägung des Vektor Space Models ist das so genannte TFIDF-Schema. [KPB00]

Das TFIDF-Schema (term frequency times inverse document frequency) dient der

Evaluierung der Relevanz bestimmter Dokumente. Für jedes Dokument kann ein Vektor V

gebildet werden, dessen Element den Bewertungen der Wörter im Feature-Vektor D

entsprechen:

iv id

)(log)(

idfnitfvi =

Dabei sind:

)(itf : Häufigkeit des Wortes im Dokument oder im Profil des Nutzers id

)(idf : Dokumentenanzahl, in denen vorkommt id

n : Gesamtzahl der durchsuchten und analysierten Dokumente

Probabilistische Methode

Die probabilistische Methode errechnet nicht die Ähnlichkeit zwischen Dokumenten, sondern

die Wahrscheinlichkeit, dass ein Dokument für eine bestimmte Suchanfrage relevant ist.

Ermittelt wird dies über die bedingte Wahrscheinlichkeit für das Ergebnis „Dokument ist

relevant“, unter der Voraussetzung, dass bestimmte Ausdrücke mit einer bestimmten

Häufigkeit darin vorkommen. Diese bedingten Wahrscheinlichkeiten können mit so

genannten Bayes’schen Belief-Netzen modelliert werden. [MK00]

Recommendersysteme in digitalen Bibliotheken - 16 -

3.2.3 Probleme Bei Content Based Recommendations treten vor allem folgende Probleme auf: [WG02]

1. Generell kann beim Content-Based Filtering nur eine oberflächliche Analyse von

bestimmten Arten von Inhalten erfolgen. Einige Inhalte wie zum Beispiel Bilder,

Filme oder Musik sind für die klassischen Extraktionsalgorithmen eines Content-

Based Systems nicht zugänglich. Es gibt also Bereiche für die keine inhaltlichen

Informationen oder Metadaten erhoben werden können.

2. Es kann nicht alles was den User in seiner Entscheidung über die Relevanz eines

Dokumentes beeinflusst, wie zum Beispiel Aktualität und Qualität der Information,

Ästhetik, oder im Dokument integrierte Bilder, beachtet werden. Zum Erfassen dieser

Merkmale müssen diese in „pseudo-quantitative Merkmale“ umgewandelt werden.

Diese Transformation wird jedoch meist unvollständig und unvollkommen bleiben.

Trotzdem ist es unumgänglich solche qualitativen Merkmale zu berücksichtigen, wenn

das Recommender System zur Zufriedenheit der Benutzer arbeiten soll.

3. Es werden nur Items empfohlen, deren Beschreibung am besten mit dem

Benutzerprofil übereinstimmen. Dieses Problem nennt man auch

„Überspezialisierung“; Objekte die nicht dem Profil des Benutzers ähnlich sind,

diesen aber trotzdem interessieren könnten, werden dem User vorenthalten.

3.3 Collaborative Filters

3.3.1 Methode Im Gegensatz zur vorherigen Methode wird beim Collaborative Filtering nicht direkt nach

ähnlichen Objekten gesucht, sondern es werden Personen gesucht, die ähnliche Präferenzen

haben, um sodann Objekte zu empfehlen, die diese Personen auch für gut befunden haben. Es

steht also nicht die Klassifizierung von Objekten im Vordergrund, sondern die Beziehung der

Nutzer zu den einzelnen Objekten, die entweder durch implizite oder explizite Bewertung der

Inhalte entsteht. Implizit erfolgt eine Bewertung dann, wenn sie vom System automatisch auf

Grund des Userverhaltens vorgenommen wird. Eine explizite Bewertung nimmt der User

selbst vor, indem er mit dem System in Interaktion tritt und diesem seine Bewertung mitteilt.

Dokumente die von Usern gleich bewertet wurden, werden also als ähnlich eingestuft.

Beispielsweise kann eine lange Betrachtung oder der Download eines Dokumentes als

positive Wertung interpretiert werden. Dieses Verfahren macht es möglich, dass auch

subjektive Empfindungen in die Empfehlungen mit einfließen. Der große Vorteil dieser

Recommendersysteme in digitalen Bibliotheken - 17 -

Methode liegt darin, dass sie auch einsetzbar ist, wenn keine Beschreibungen oder Metadaten

über ein Objekt vorliegen. [JA04]

3.3.2 Kategorisierung der Collaborative Filtering Methoden

Collaborative Filtering (CF)

Interaktives (aktives) CF Automatisches (passives) CF

User-based CF Item-based CF

Memory-based CF Model-based CF

Abb. 2 Kategorisierung der Collaborative Filtering Methoden - Quelle: [ÖS02]

Interaktives (aktives) CF:

Aktives Collaborative Filtering baut darauf auf, dass sich Gruppenteilnehmer interessante

Informationen gegenseitig, zum Beispiel durch Senden von URL’s usw., mitteilen. Dieser

Ansatz unterstützt die Divergenz von Information, da er Empfehlungen von hoher Qualität

generiert, welche auch subjektive Einschätzungen enthalten können.

Automatisches (passives) CF:

„Diese Methode stützt sich auf die Annahme, dass Personen die in der Vergangenheit gleicher

Meinung waren, voraussichtlich auch zukünftig gleicher Meinung sein werden.“ [SSU01]

Jeder Benutzer ist dabei durch sein Profil gekennzeichnet. Bei der Betrachtung eines Objekts

gibt der Nutzer eine Bewertung ab, aus der das System ableitet, wie interessant dieses Objekt

für andere ist. Es geht also darum, Nutzer zu vergleichen, um ähnliche Nutzer zu finden.

Item-based CF:

Da die Nutzer-Item Tabelle eine niedrige Informationsdichte aufweist, erhöht sich der

Aufwand zu Errechnung von Empfehlungen mit wachsender Anzahl von Nutzern. Die Item-

based Methode analysiert nun die Nutzer-Item Tabelle um Ähnlichkeiten oder

Ähnlichkeitswerte zwischen Items zu errechnen. Danach werden Vorhersagen für ein Item

erzeugt, also wie sehr der aktive Nutzer das Item mögen wird.

Recommendersysteme in digitalen Bibliotheken - 18 -

User-based CF:

User-based Collaborative Filtering geht nach folgendem Schema vor:

1. Suche nach Personen mit gleicher Meinung.

2. Suche nach Dokument, die diese Personen für relevant befunden haben.

3. Schlage diese Dokumente dem aktiven User vor.

Hier geht es also darum, Nutzer zu vergleichen, um „ähnliche“ Nutzer zu finden.

Memory-based CF:

In diesem Ansatz werden alle Daten aus der Nutzer-Item Tabelle ausgewertet, um

Vorhersagen zu machen. Statistische Techniken werden dann genutzt, um eine Gruppe von

Nachbarn zu finden, welche bis jetzt die gleichen Präferenzen hatten wie der aktive User, dem

eine Empfehlung gemacht werden soll. Verschiedene Algorithmen fassen die Bewertungen

zusammen und erstellen eine Top-Liste für den Nutzer. Dieses Verfahren wird auch nearest-

neightbour CF genannt.

Model-based CF:

Hier werden nur Teile der zugrunde liegenden Daten aus der User-Item Tabelle genutzt, um

Vorhersagen zu machen. Modelle auf Bewertungen anhand denen Empfehlungen gemacht

werden, werden durch lernende Algorithmen wie Bayesianische Netzwerke oder Clustering

Methoden erzeugt. [ÖS02]

3.3.3 Probleme Folgende Probleme können jedoch beim Collaborative Filtering auftreten: [ÖS02]

1. cold start Problem: In der Startphase eines Systems liegen noch nicht genügend Daten

über Benutzer vor, um diese miteinander sinnvoll zu vergleichen. Kommt ein neuer

Benutzer hinzu, benötigt das System ebenfalls einige Zeit, bis es die genauen

Vorlieben des neuen Nutzers kennt.

2. sparsity Problem: Die User-Item-Rating Matrix ist im Allgemeinen nur sehr spärlich

gefüllt, da Recommender Systeme hauptsächlich in Bereichen zum Einsatz kommen,

in denen eine große Auswahl an Items existieren. Dieser Umstand macht es daher sehr

schwierig hoch korrelierte Benutzer zu finden

3. first rater Problem: Wird ein neues Item in ein System eingefügt, so kann es solange

nicht empfohlen werden, bis es von Usern bewertet wurde.

Recommendersysteme in digitalen Bibliotheken - 19 -

4. Black-Box-Charakter: Das System ist für die Betreiber eines Recommender Systems

nicht transparent genug; die Ausgabe des Systems kann nicht wie bei Content-Based

Filtering gesteuert werden.

3.4 Kombination von Content-Based und Collaborative Filtering

3.4.1 Vorteile eines Hybrid-Systems Sowohl Content Based als auch Collaborative Filtering Systeme haben neben ihren Vorteilen

auch nicht zu vernachlässigende Nachteile, die in den Abschnitten 3.2.3 und 3.3.3 bereits

besprochen wurden.

Beim Content-Based System wird das cold start Problem nur dann zum Problem, wenn sich

der aktive Benutzer in der Startphase der Benützung befindet. Das sparsity und first rater

Problem des Collaborative Filtering sind hingegen keine Probleme für ein Content-Based

System, da diese nicht versuchen, Ähnlichkeiten zwischen Benutzern zu finden.

Sind für Objekte keine Inhaltsbeschreibungen oder Metadaten verfügbar, stellt dies für

Content-Based Systeme ein Problem dar, für Collaborative Filtering Systeme jedoch nicht, da

diese nicht auf die Inhalte von Dokumenten achten. Das zweite angesprochene Problem von

Content-Based Systemen wird durch Collaborative Filtering teilweise gelöst, indem

Ansprüche wie Geschmack und Qualität durch Ratings der Benutzer gut wiedergegeben

werden können. Collaborative Filtering löst auch das dritte Problem von Content Based

Systemen, nämlich dass nur Items empfohlen werden können, deren Beschreibung mit dem

Benutzerprofil übereinstimmen, indem es auch Items findet, die zwar mit dem Profil des

aktiven Benutzers nicht übereinstimmen, die aber auf Profile der „benachbarten“ Benutzer

zutreffen. Man kann also sehen, dass die Nachteile der jeweiligen Systeme sich durch die

Vorteile des jeweils anderen Systems ergänzen. [JA04]

3.4.2 System „Fab“ Eine mögliche Kombinationsform für ein hybrides System ist das System „Fab“, welches im

Rahmen des Digital Library Project an der Stanford University entwickelt wurde. Fab

kombiniert das Collaborative Filtering mit den Inhaltsanalysen des Conent-Based Filterings,

um so Webseiten zu filtern. [GNT04] Dabei sollen die Vorteile beider Ansätze genutzt und

die Nachteile ausgeschlossen werden. Dokumente beurteilt das System zum einen indem es

auf Informationen und Beurteilungen von Dokumenten durch die betrachtende Person in der

Vergangenheit zurückgreift, und zum anderen indem es Bewertungen anderer Personen mit

Recommendersysteme in digitalen Bibliotheken - 20 -

einem ähnlichen Profil zu Rate zieht. [BS97] Es werden danach nur noch Dokumente

empfohlen, die in beiden Beurteilungsvorgängen einen hohen Relevanzwert aufweisen.

Das Benutzerprofil besteht in Fab aus einem gewichteten Termvektor. Verwaltet werden die

Profile mit Hilfe von selection agents, welche die Benutzerprofile speichern, und aufgrund

von Relevanzbewertungen anpassen. Der für diese Anpassung verwendete Algorithmus ist

der Rocchios Algorithmus [ROC71]. Alle Relevanzkategorien werden in Fab

natürlichsprachlich repräsentiert und intern dann auf ganzzahlige Werte von 3 bis -3

abgebildet. Jeweils in der Nacht werden alle Gewichte der Benutzerprofile mit 0,97

multipliziert, um den Verfall bzw. die Veränderung der Benutzerinteressen abzubilden.

Die Dokumente werden ebenfalls durch einen gewichteten Termvektor dargestellt, der die

Dimension 100 besitzt. Um die Dokumente zu repräsentieren wird zunächst eine

Wortstammreduktion durchgeführt und anschließend werden alle Stoppwörter entfernt. Die

Gewichte der Terme werden danach mit Hilfe der bereits erwähnten TFIDF-Formel errechnet.

Jeweils die 100 Terme mit den größten Gewichten werden für die Beschreibung eines

Dokuments berücksichtigt. Experimente hatten gezeigt, dass eine optimale Performanz mit 30

bis 100 Termen erzielt werden kann, und dass mehr als 100 Terme ein System mit

überwachten Lernmethoden übertrainiert. [BAL97]

Das Suchen und Indexieren von Dokumenten erfolgt in Fab durch die so genannten collection

agents, welche permanent die besten Seiten zu den gegebenen Profilen ermitteln und diese

dem System an zentraler Stelle (central repository) bekannt geben. Die Agenten aktualisieren

ihr Suchprofil kontinuierlich gemäß den Bewertungen der Benutzer, wodurch sie die

Interessensprofile der Nutzer stets abdecken. Agenten, die Dokumente liefern, die von den

Benutzern als eher schlecht bewertet werden, werden kontinuierlich durch Agenten ersetzt,

die für den Benutzer bessere Dokumente liefern. Jeder Suchagent spezialisiert sich dadurch

zunehmend auf einen Themenbereich.

Die Ähnlichkeit zwischen den Benutzerprofilen und den Dokumenten wird mit Hilfe des

Kosinus-Maßes berechnet. Es fließen aber auch gleichzeitig die am besten bewerteten

Dokumente der nächsten Nachbarn in die Empfehlungen mit ein. Damit wird zum einen der

Content-Based Ansatz und zum anderen auch der Ansatz des Collaborative Filterings

umgesetzt.

Der Empfehlungsprozess im System Fab lässt sich, wie aus obiger Beschreibung bereits

überblicksmäßig hervorgeht, in drei Phasen einteilen: [BS97]

Recommendersysteme in digitalen Bibliotheken - 21 -

1. Sammlung der Daten: Diese Phase beinhaltet das Sammeln von Informationen um

eine entsprechende Datengrundlage zu erhalten. Der „collection agent“ hat dabei, wie

schon oben beschrieben, die Aufgabe, Dokumente für bestimmte Interessensfelder zu

suchen. Diese sollen wenn möglich alle Interessensgebiete der User abdecken.

2. Auswahl der Daten: Der „selection agent“ sucht aus den Dokumenten die passenden

für einen spezifischen User heraus. Weiters wird überprüft, ob der entsprechende User

dieses Dokument schon einmal gelesen hat. Ist dies der Fall, wird es aus der Auswahl

entfernt.

3. Ausgabe der Informationen: Der „central router“ erhält vom „selection agent“ die

ausgewählten Dokumente und leitet diese mit weiteren spezifischen Informationen,

wie zum Beispiel Anzahl der gefundenen Dokumente usw. an den jeweiligen User

weiter.

3.4.3 System „LIBRA“ Ein für digitale Bibliotheken entwickeltes Recommender System ist das System LIBRA. Es

ist dies ein System für die personalisierte Suche nach Büchern. Die Abkürzung steht für

„Learning Intelligent Book Recommending Agent“ [MR00]. LIBRA ist für Anfragen

geeignet, die große Ergebnismengen zurückliefern, von denen der Benutzer die ersten zehn

Treffer bewertet, woraufhin die gesamte Ergebnismenge gemäß den Vorlieben des Benutzers

umsortiert werden.

LIBRA besitzt als Datenbasis Informationen zu Büchern, die zuvor aus amazon.com

extrahiert. Es wurden dabei nur Bücher berücksichtigt, von denen Zusatzinformationen wie

zum Beispiel eine Zusammenfassung, eine Rezension oder ein Kundenkommentar vorlagen.

Folgende Beschreibungsmerkmale wurden daraufhin für jedes Buch extrahiert: Titel, Autor,

Zusammenfassung, Rezensionen, Kundenkommentare, verwandte Autoren, verwandte Titel

und Schlagworte. Weiters wurden auch Angaben zu ISBN, Datum, Preis, Verlag usw.

extrahiert, welche aber nicht zu Generierung von Empfehlungen verwendet wurden. Während

der Extraktion der Daten wurde für jedes Buch eine Menge von so genannten Slots befüllt.

Diese Slots enthalten alle oben genannten Informationen, außer Angaben zu ISBN, Datum,

Preis und Verlag. Der Text in jedem Slot wird dann in eine ungeordnete Liste von Wörtern

(bag of words) umgewandelt, und jeder Buchtitel wird dann durch einen Vektor von „bag of

words“ repräsentiert. Die dadurch aufgebaute Datenbasis enthält 3061 Bücher aus dem

Bereich Erzählungen, 3813 Science Fiction Bücher, 7285 Krimis und 6177 wissenschaftliche

Bücher.

Recommendersysteme in digitalen Bibliotheken - 22 -

Zur Erstellung seines Benutzerprofils muss der User zehn Bücher mit Werten von 1 (schlecht)

bis 10 (gut) bewerten. Aus diesen Angaben und den Informationen zu den Büchern lernt

LIBRA dann das jeweilige Benutzerprofil. Um die Benutzerprofile zu erstellen, verwendet

LIBRA die Technik der Bayes’schen Textkategorisierung, die allerdings für diesen Ansatz

speziell vom Umgang mit Wortmengen auf den Umgang mit Vektoren und Wortmengen

erweitert wurde. Als Benutzerprofil erhält man dann eine Liste von denjenigen

Beschreibungsmerkmalen, die am ehesten auf eine positive oder negative Bewertung

hindeuten. Dazu gibt ein Wert an, um wie viel wahrscheinlicher es ist, dass ein bestimmtes

Wort in der Beschreibung eines positiv bewerteten Buches auftaucht. Die absoluten Werte

dieser Wahrscheinlichkeiten sind weniger bedeutend, da LIBRA nicht den absoluten

Interessantheitswert eines Buches berechnet, sondern lediglich eine Reihenfolge erzeugt.

Durch zusätzliche Bewertungen im laufenden Betrieb kann das Benutzerprofil jederzeit

weiter angepasst und präzisiert werden.

LIBRA erlaubt es seinen Benutzern außerdem sein Profil einzusehen. Des Weiteren kann sich

jeder Benutzer auch erklären lassen, wie das System zu den konkreten Empfehlungen kommt.

Dies geschieht dadurch, dass LIBRA jene früheren Bewertungen des Benutzers anzeigt, die

diese Wahrscheinlichkeit am meisten beeinflusst haben. Generell waren die Benutzer nach 20

Bewertungen mit den Top-3 und Top-10 Empfehlungen von LIBRA sehr zufrieden

(Bewertungen von über 0,8). Weiters wurde in Experimenten versucht, inwieweit die

kollaborative Ausrichtung der Merkmale „verwandte Title“ und „verwandte Autoren“ zur

Qualität der Empfehlungen beigetragen haben. Es wurden dazu die gleichen Experimente

ohne Berücksichtigung dieser beiden Merkmale durchgeführt. Diese lieferten zwar keine

deutlich schlechteren, aber dennoch statistisch signifikant schlechtere Ergebnisse. Damit

wurde das Potential der kollaborativen Ansätze klarer und es drängt sich zugleicht die

Vermutung auf, dass eine Kombination der beiden eingangs beschriebenen Filterverfahren

eine Verbesserung gegenüber den Einzelverfahren bringt. [SB03]

3.4.3.1 Lernen des Benutzerprofils in LIBRA

Wie schon oben erwähnt bewertet der Benutzer eine Menge von Trainingsbeispielen mittels

einer Punktvergabe von 1 bis 10 für jedes Buch. Der Lernalgorithmus Naiv-Bayes

Textklassifizierer, [MCN98] welcher LIBRA verwendet, wurde um die Möglichkeit erweitert

auch Vektoren von „bag of words“ verarbeiten zu können. Wie schon beschrieben, soll jedoch

nicht ein exaktes Rating eines Titels vorhergesagt, sonder lediglich ein Ranking erstellt

Recommendersysteme in digitalen Bibliotheken - 23 -

werden. Durch weitere Reduzierung auf ein binäres Klassifikationssystem wird vorhergesagt,

ob ein Buch als positiv oder als negativ bewertet werden würde.

In dem multinomialen Textmodell, welches LIBRA verwendet, wird ein Dokument als eine

geordnete Sequenz von Wörtern über ein Vokabular V repräsentiert. Die „naive Bayes“

Annahme besagt nun, dass die Wahrscheinlichkeit für jedes Wortvorkommen abhängig von

der Klasse, aber unabhängig vom Kontext und der Position ist. Es werden nun die

Wahrscheinlichkeiten ( )jcP und ( )jk cwP | für jede Klasse und jedes Wort jc Vwk ∈

anhand der Trainingsbeispiele geschätzt. Nun kann die Posteriori Wahrscheinlichkeit jeder

Klasse gegeben ein Dokument D mittels der Bayes’schen Formel berechnet werden.

( ) ( )( ) ( )∏

=

=D

iji

jj caP

DPcP

DcP1

||

Wobei das i-te Wort im Dokument und ia D die Länge des Dokuments in Wörtern ist. Da

der Prior P(D) ein konstanter Faktor ist, kann er bei der Berechnung vernachlässigt werden,

wenn es allein darum geht, ein Ranking zu berechnen. Das Ranking wird abgebildet, indem

alle Dokumente nach ihren OddsRatio sortiert werden.

( )( )DcP

DcPDOddsRatio||)(

0

1=

1c repräsentiert eine positive Klasse und die negative Klasse. Dabei wird ein Beispiel als

positiv klassifiziert, wenn der OddsRatio größer 1 ist.

0c

Im Falle von LIBRA handelt es sich um Bücher, welche als ein Vektor von Dokumenten ,

eines für jeden Slot, repräsentiert wird. Nun müssen die Wahrscheinlichkeiten für jedes Wort

gegeben die Klasse und den Slot

md

( )mjk scwP ,| geschätzt werden. Danach wird die Posterior

Wahrscheinlichkeit jeder Klasse gegeben ein Buch B berechnet.

( ) ( )( ) ( )∏∏

= =

=S

m

d

imjmi

jj

m

scaPBPcP

BcP1 1

,||

S ist dabei die Anzahl der Slots und das i-te Wort im m-ten Slot. mia

Nun werden die Parameter des Modells wie folgt aus den Trainingsbeispielen geschätzt. Jedes

der N Trainingsbücher erhält zwei relative Gewichte ( NeBe ≤≤1 ) 10 ≤≤ ejα basierend auf

den Benutzerbewertungen : ein positives Gewicht ( 101 ≤≤ rr ) ( ) 9/11 −= reα und ein

Recommendersysteme in digitalen Bibliotheken - 24 -

negatives Gewicht 10 1 ee αα −= . In einem Beispiel wird ein Wort, welches n-mal in einem

Dokument vorkommt, mit

eB

ne1α mal als Vorkommen in einem positiven Beispiel und ne0α

mal als Vorkommen in einem negativem Beispiel gezählt. Die Modellparameter werden nun

wie folgt ermittelt:

( ) ∑=

=N

eejj NcP

1/α

( ) (∑=

=N

emjkemejmjk scLnscwP

1

,/,| α )

Wobei die Anzahl der Vorkommnisse des Wortes im Beispiel im Slot ist. Die

gewichtete Länge der Dokumente in der Klasse und Slot wird folgendermaßen

berechnet:

kemn kw eB ms

jc ms

( ) ∑=

=N

emejmj dscL

1||, α

Diese Normierung hebt den Effekt von verschieden langen Sloteinträgen auf.

Um nullwertigen Wahrscheinlichkeiten vorzubeugen, werden die Parameter zusätzlich mittels

Laplaceglättung geglättet. Die Komplexität der Berechnung ist dabei linear zur Größe der

Trainingsmenge. [MCN98]

Ein Benutzerprofil kann sehr gut veranschaulicht werden, indem man die Features auflistet,

die den stärksten negativen bzw. positiven Einfluss (strength) auf eine Bewertung haben. Der

Strength-Wert gibt an, um wie viel mehr ein Wort in einem Slot dazu beiträgt eine positive

Bewertung für ein Buch zu erhalten, als eine negative. Dieser Wert wird wie folgt errechnet:

( ) ( )( )⎟

⎟⎠

⎞⎜⎜⎝

⎛=

mk

mkmk scwP

scwPswStrength

,|,|

log,0

1

Mit Hilfe eines solchen Benutzerprofils ist es nun möglich, ein Ranking über alle Bücher zu

berechnen und dem Benutzer die positiv klassifizierten Bücher mit einem hohen OddsRatio

zu empfehlen. Darüber hinaus kann LIBRA dem Benutzer auf eine sehr einfache Art und

Weise erklären, warum gerade diese Empfehlung zustande gekommen ist. Dies ist kein

unwichtiger Aspekt eines Recommender Systems, da es sich gezeigt hat, dass der Erfolg

solcher Systeme oft stark davon abhängt, wie weit der Benutzer dem System vertraut, und die

Empfehlungen nachvollziehen kann. [JA04]

Recommendersysteme in digitalen Bibliotheken - 25 -

3.4.3.2 Aufbau des Systems

Das System LIBRA gliedert sich in drei Hauptkomponenten, deren Funktionsweise im

Folgenden näher erläutert wird. [JA04]

Content Based Ranker

Nachdem der aktive Benutzer einige Trainingsbeispiele bewertet hat, kann aus dieser User

Ratings Matrix ein Ranking der Items berechnet werden. Die so genannte Ranked Items

Tabelle ergibt sich aus der Sortierung der Items nach deren OddsRatio.

Rating Translator

Aufgabe des Rating Translators ist es, die Tabelle mit den Ranked Items in eine Tabelle mit

Ratings der Items zu überführen. Diese Rated Items Tabelle nutzt der Collaborative Filterer

sodann, um unterschiedliche Benutzer anhand ihrer Ratings zu vergleichen.

Für jeden aktiven Benutzer wird mittels einer Rating Percentage Tabelle ermittelt, wie dessen

Ratings verteilt sind. Da Benutzer jedoch eher dazu neigen, Titel zu bewerten, die sie mögen,

anstatt eine zufällige Anzahl an Titeln zu bewerten, wird die Rating Percentage Tabelle noch

geglättet. Dazu verwendet man eine empirisch gefundene Smoother Rating Percentage

Tabelle, welche die Ratingverteilungen von Testpersonen auf zufällig gezogene Items enthält.

Die Glättung wird wie folgt berechnet:

51,1

][][][ ≤≤+

∗+= ifür

wismootherwientagesratingpercismoothed

Wobei w die Glättungskonstante ist. Die Ratings der Items werden dann wie folgt berechnet:

Bei angenommenen x Items werden nun gemäß der Smoothed Verteilung die Items auf die

Intervalle aufgeteilt. Also x * smoothed[i]/100 der Items fallen in das Intervall [i,i-1). Das

genaue Rating für das y-te Item im Intervall [i,i-1) ergibt sich dann wie folgt:

100/][1),(

ismoothedxyiiyRating

∗−

−=

Recommendersysteme in digitalen Bibliotheken - 26 -

Collaborative Filterer

In LIBRA wird ein Collaborative Filterer benutzt, welcher ursprünglich von Herlocker

[HKBR99] für Nachrichten Recommender Systeme implementiert wurde. Das Collaborative

Filtering setzt sich aus den folgenden drei Schritten zusammen:

1. Berechnung der Korrelation zwischen dem aktiven Benutzer und den anderen

Benutzern des Systems

2. Auswahl der besten n Benutzer (Nachbarn), welche am stärksten mit dem aktiven

Nutzer korrelieren. Um die Ähnlichkeit von Benutzern zu ermitteln, wird der Pearsche

Produkt-Moment Korrelationskoeffizient verwendet:

( ) ( )

( ) ( )∑ ∑

= =

=

−×−

−×−=

m

i

m

iuiuaia

m

iuiuaia

ua

rrrr

rrrrP

1 1

2,

2,

1,,

,

In diesem Fall ist m die Anzahl der Items, ist das Rating des aktiven Benutzers für

das Item i und

iar ,

ar ist das arithmetische Mittel über allen Ratings des aktiven

Benutzers. Für und iur , ur gilt das Gleich jeweils für die anderen Benutzer.

3. Berechnung der Vorhersagen für Items mit Hilfe der Ratings der Nachbarn. Die

Vorhersage der Items berechnet sich wie folgt:

( )

=

=

×−+= n

uua

n

uuauiu

aia

P

PrrrP

1,

1,,

,

Hierbei ist n die Anzahl an Nachbarn und ist die Pearson Korrelation. Die Items

werden nun nach den vorhergesagten Ratings geordnet und dem Benutzer ausgegeben.

uaP ,

3.4.4 Hierarchical Bayesian Recommender System Einen Schritt weiter geht das Hierarchical Bayesian Recommender System. Es verwendet

anstatt der bei den beiden traditionellen Filtermethoden genutzten zwei Arten von

Informationen, fünf verschiedene Informationsquellen:

1. die von einem Nutzer geäußerte Präferenz oder Auswahl alternativer Items

2. die vom Nutzer geäußerte Präferenz bezüglich der Itemeigenschaften

Recommendersysteme in digitalen Bibliotheken - 27 -

3. die Präferenz anderer Nutzer

4. Expertenurteile

5. andere individuelle Itemeigenschaften, die Präferenzen ausdrücken können.

Anhand dieser Informationen wird versucht, den Empfehlungsprozess noch präziser zu

gestalten. Mit Hilfe einer Funktion, die Itemeigenschaften, Benutzerratings und

Expertenevaluationen als Parameter enthält, wird eine Möglichkeit geschaffen, gute

Empfehlungsergebnisse zu erhalten, ohne vom Nutzer übermäßig viele Informationen zu

benötigen. [AEK00]

3.5 Probleme - Datenschutz Wie eben beschrieben schließen Recommender Systeme auf ihre Empfehlungen mit Hilfe von

aufgezeichneten Benutzerprofilen. Viele User wissen aber oft gar nicht, welche Daten ein

Webserver alles aufzeichnet und welche Informationen sich daraus generieren lassen. Die

Möglichkeit, des Schutzes vor solchen Überwachungen und Informationsaufzeichnungen

benötigt heute schon einiges an Fachwissen von den Usern. Abschalten bzw. Selektive

Ablehnung von Cookies, Verwendung von Proxies, oder absichtliche Desinformation des

Anbieters sind Möglichkeiten der User diesen Datenaufzeichnungen zu entgehen.

Professionelle Anbieter von Recommender Systemen sollten aber den User zumindest

aufklären, was mit seinen Nutzungsdaten geschieht, und wie diese verarbeitet werden.

Außerdem sollte dem Benutzer ein gewisser Grad an Kontrolle über seine aufgezeichneten

Daten ermöglicht werden. [NTP97]

Der vom W3C-Konsortium entwickelte Vorschlag „Platform for Privacy Preferences“ (P3P)

soll dem Benutzer mehr Kontrolle über die Nutzung seiner persönlichen Informationen geben.

Die persönlichen Daten werden auf dem Computer des Users gespeichert und definierte

Regeln bestimmen, welche Daten preisgegeben werden dürfen und welche nicht. Meldet zum

Beispiel eine Website, dass sie Informationen aus den Log-Dateien sammeln und auswerten

möchte, überprüft der P3P-Agent, ob dies mit den Regeln des Benutzers im Einklang steht

oder nicht. Sowohl die vom Benutzer eingegebenen Regeln, als auch die Anforderungen einer

Website werden als Klartext in XML gespeichert und können daher vom Anwender jederzeit

gelesen werden. [KM03]

Recommendersysteme in digitalen Bibliotheken - 28 -

3.6 Fazit Es reicht also keineswegs, neue Medien in das alte Tätigkeitsspektrum von Bibliotheken zu

inkludieren. Wenn wissenschaftliche Bibliotheken in der Informationsgesellschaft keinen

Bedeutungsverlust erlangen wollen, müssen sie neue Konzeptionen entwickeln und ihr

Tätigkeitsprofil und Dienstleistungsangebot deutlich erweitern, um dem technischen,

medialen wie kulturellen Wandel gerecht werden zu können. So lautete etwa das Motto des

deutschen Bibliothekartages im April 2001 in Bielefeld: „Bibliotheken – Portale zum

globalen Wissen“. [RH02]

Recommendersysteme in digitalen Bibliotheken - 29 -

Literaturverzeichnis

[AEK00] Ansari A./Essegaier S./Kohli R. (2000): Internet Recommendation Systems. In: Journal of Marketing Research, Vol. 37, S. 363-375

[BAL97] Balabanovic M. (1997): An Adaptive Web Page Recommendation Service. In: Procceedings of the 1st International Conference on Autonomous Agents, S. 378-385

[BS97] Balabanovic M./Shoham Y. (1997): Fab: Content-based, collaborative recommendation. In: Communications of the ACM, March 1997, Volume 40, No. 3, S. 66-72

[CK02] Cruz J.M.B./Krichel T. (2002): Co-usage of documents in a large digital library

[FS02] Fabrizek S. (2002): Personalisierung und Recommender Systeme – Einführung und Überblick, Seminararbeit, TU-München

[FD92] Foltz P./Dumais S. T. (1992): Personalized Information Delivery: An Analysis of Information Filtering Methods. In: Communications of the ACM, Dezember 1992, Vol. 35, No. 12, S. 51-60.

[GHJ] Geyer-Schulz A./Hahsler M./Jahn M.: Educational and Scientific Recommender Systems: Designing the Information Channels of the Virtual University.

[GHJ01] Geyer-Schulz A./Hahsler M./Jahn M.: Wissenschaftliche Recommendersysteme in Virtuellen Universitäten

[GNT04] Geyer-Schulz A./Neumann A./Thede A. (2004): An Architecture for Behavior Based Library Recommender Systems

[GP99] Glotz P. (1999): Die beschleunigte Gesellschaft. Kulturkämpfe im digitalen Kapitalismus.

[HKBR99] Herlocker L. J./Konstan A. J./Borchers A./Riedl J. (1999): An algorithmic framework for performing collaborative filtering. In: Proceedings of the 22nd Annual International ACM SIGIR Conference. S. 230-237

[JA04] Janz A. (2004): Text Mining und Anwendungen - Recommender Systems, Seminararbeit, Humbold-Universität, Berlin

[JK00] Jostock K (2000): Personalisierung auf Basis von Content-Based Filtering: Theoretische Grundlage, Seminararbeit, Johann Wolfgang Goethe-Universität, Frankfurt am Main

Recommendersysteme in digitalen Bibliotheken - 30 -

[KPB00] Kantor P. B. (2000): Capturing Human Intelligence in the Net, In: Communications of the ACM, August 2000, Vol. 42, No. 8, S. 112-115

[KGL00] Klein S./Güler S./Lederbogen K. (2000): Personalisierung im elektronische Handel. WISU 29 (2000) 1, S. 88-94

[KH04] Kristen H. (2004): Auf dem Weg zur Digitalen Bibliothek URL: http://www.ubka.uni-karlsruhe.de/vvv/2004/zentral/digibib/02-Kristen/02-Kristen.pdf

[KM03] Krueger M. (2003): Personalisierung und Recommender Systeme – Modellierung von Benutzerprofilen in der KI und im E-Commerce.

[MK00] Maus K. (2000): Funktionsweisen und Schwächen von Textfiltern in Internetanwendungen. Seminararbeit, Johann Wolfgang Goethe-Universität

[MCN98] McCallum A./Nigam K. (1998): A comparison of event models for naive Bayes text classification.

[MR00] Mooney R. J./Roy L. (2000): Content-Based Book Recommending Using Learning for Text Categorization. In: Proceedings of the 5th ACM Conference on Digital Libraries, S. 195-204

[NTP97] Nichols D.M./Twidale M.B./Paice C.D. (1997): Recommendation and Usage in the Digital Library

[OWDJK] Oard W.D./Jinmook K.: Implicit Feedback for Recommender Systems. URL:http://citeseer.ist.psu.edu/cache/papers/cs/728/http:zSzzSzwww.clis.umd.eduzSzdlrgzSzfilterzSzpaperszSzrecommender.pdf/oard98implicit.pdf

[OWM97] Oard W.D./Marchionini G. (1997): A Conceptual Framework for Text Filtering. URL: http://www.ee.umd.edu/medlab/filter/papers/filter/filter.html

[ÖS02] Ökmen S. (2002): Personalisierung und Recommender Systeme - Kollaborative Filterverfahren

[OA95] Oßwald A. (1995): Die virtuelle Bibliothek: Konzeptionelle Grundlagen und praktischer Nutzen.

[PF01] Pilgrim F: Personalisierung auf der Basis von Benutzerprofilen, Seminararbeit, Universität Münster, URL: http://www.wi.uni-muenster.de/wi/lehre/sel/ws00-01/Referate/Pilgrim.pdf

Recommendersysteme in digitalen Bibliotheken - 31 -

[PR02] Pregernig R./Rappold A. (2002): Personalisierung. Seminararbeit, Universität Wien

[RV97] Resnick P./Varian H. R. (1997): Recommender Systems. In: Communications of the ACM, Vol. 40(3), S. 56-58.

[RBF03] Riethmayer B. F. (2003): Gewinnen von Profilinformationen und damit verbundene Probleme

[ROC71] Rocchio J. J. (1971): Relevance feedback in information retrieval in the SMART system. Prentice Hall, S. 313-323

[RH02] Rösch H. (2002): Wissenschaftsportal – bibliothekarische Konzeption in der Informationsgesellschaft

[RM00] Runte M (2000): Personalisierung im Internet – Individualisierte Angebote mit Collaborative Filtering. Dissertation, Universität Kiel, URL: http://www.runte.de/matthias/publications/personalisierung im internet.pdf

[RC98] Rusbridge C. (1998): Towards the Hybrid Library. In: D-Lib Magazine. Vol 4, July/August 1998.

[RFD99] Rusch-Feja D. (1999): Digital Libraries. Informationsform der Zukunft für die Informationsversorgung und Informationsbereitstellung?

[SB03] Schmitt B. (2003): Benutzerprofile für die Anfrageverarbeitung in verteilten Digitalen Bibliotheken, Dissertation, Universität Fridericiana zu Karlsruhe

[SSU01] Schwabe G./Streitz N./Unland R. (2001): CSCW-Kompendium, Springer Verlag

[SAPN98] Stephanidis, C./Akoumianakis D./Paramythis A./Nikolau C. (1998): User interaction in digital libraries: coping with diversity through adaption

[TLH01] Terveen L./Hill W. (2001): Beyond Recommender Systems: Helping People Help Each Other, In: HCI in the New Millennium, Jack Carroll, ed., Addison-Wesley, 2001

[TF97] Teuteberg F. (1997): Effektives Suchen im World Wide Web: Suchdienste und Suchmethoden

[WG02] Weng G. (2002): Personalisierung und Recommender Systeme – Probleme verschiedener Filterverfahren und Lösungsideen