heidrun wiesenmüller: anreichern, abgleichen, verknüpfen - anwendungsideen für das...
DESCRIPTION
Vortrag "Anreichern, abgleichen, verknüpfen" von Heidrun Wiesenmüller auf dem Workshop "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" (gemeinsam mit Magnus Pfeffer) beim Leipziger Bibliothekskongress 2013.TRANSCRIPT
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 1
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
Anreichern, abgleichen,
verknüpfen
Anwendungsideen
für das Werk-Clustering
(Beitrag im Workshop „Anwendung von
Clustering-Verfahren zur Verbesserung und
Analyse von Katalogdaten“)
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 2
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
1. Individualisierung
2. Differenzierung von Normsätzen
3. Maschinell erstellte Werk-Normsätze
4. Optimierungspotenziale für das Clustering
Agenda
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 3
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
1. Individualisierung
2. Differenzierung von Normsätzen
3. Maschinell erstellte Werk-Normsätze
4. Optimierungspotenziale für das Clustering
Agenda
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 4
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nIndividualisierung von Personen
• in angloamerikanischer Welt schon immer üblich
Lebensdaten sind sogar Teil der Ansetzungsform
• von RAK ursprünglich nicht vorgesehen
in deutschsprachigem Raum erst seit einigen Jahren
praktiziert
• erheblicher Aufwand für die Erschließung
Differenzieren von Autoren, Erfassen zusätzlicher
Informationen, Bearbeiten von Altdaten (z.B. Auflösen
von „Sammeltöpfen“)
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 5
Beispiel für Individualisierung
dreimal „Heiner Müller“
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 6
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nProbleme bei Individualisierung
• Altdaten
bisher nur zum Teil aufgearbeitet
• Informationen nicht ausreichend bzw. gesichert
Individualisierung z.T. anhand der vorliegenden Angaben
nicht möglich, Zuordnen zu vorhandenen Datensätzen oft
schwierig, keine Zeit für zusätzliche Recherchen
• Verzicht auf Individualisierung
aus unterschiedlichen Gründen (z.B. keine Zeit,
mangelnde Erfahrung mit GND bei kleinen Bibliotheken)
• ohne manuelle Bearbeitung eingespielte Fremddaten
z.B. E-Book-Pakete, Daten für Nationallizenzen
(oft ganz ohne Verknüpfung zu Personensätzen)
bisher noch sehr unvollkommen umgesetzt
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 7
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nChance für Werk-Clustering
• Verfasser auf Werk-Ebene angesiedelt
auch bei Herausgebern von Aufsatzbänden u.ä. möglich
• ein einziger Datensatz aus dem Cluster genügt
wenn in irgendeinem Verbund eine Ausgabe mit einem
individualisierten Satz verknüpft ist, kann dies für alle
anderen Mitglieder im Cluster übernommen werden
• kann auch zum Auffinden von Fehlern dienen
z.B. könnte nach Fällen gesucht werden, in denen zwei
Mitglieder desselben Clusters mit unterschiedlichen
individualisierten Personensätzen verknüpft sind
• Einbezug angloamerikanischer Daten
könnte die Ergebnisse weiter verbessern
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 8
SWB
GBV
• SWB: nicht individualisiert
• GBV: individualisiert
(ebenso DNB und HBZ)
GND-Satz
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 9
GBV
• SWB: individualisiert
• GBV: nicht indiv. (so
auch HBZ und OBV)
SWB
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 10
SWB
• SWB: nur Online-Ausgabe, dort nicht individualisiert
(so auch im GBV und OBV)
• Daten von E-Book-Paketen
werden häufig eingekauft und ohne intellektuelle Nach-
bearbeitung eingespielt
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 11
• HBZ: nur Druck-Ausgabe,
dort Tp-Satz
HBZ
• HBZ:
nur Druck-Ausg.,
dort individualisiert
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 12
GBV
im selben Verbund:
E-Book-Ausgabe ohne
Individualisierung,
Druckausgabe mit!
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 13
GBV
Variante:
E-Book-Ausgabe steht
nicht unter Ansetzungs-
form, sondern unter
einer Verweisungsform
(im Tp-Satz enthalten)
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 14
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
SWB:
Titel dieser Person sind
auf nicht weniger als
drei Normsätze verteilt
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 15
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
• bisher manuelle Bearbeitung
sehr aufwendig, im laufenden Betrieb kaum zu leisten
• Clustering könnte helfen
könnte künftig ein weitgehend automatisches
„Auseinandernehmen“ solcher Sammeltöpfe ermöglichen
SWB:
Beispiel für einen „Sammeltopf“ (Tn-
Satz für einen gängigen Namen), mit
dem über 600 Titel verknüpft sind
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 16
bei DNB individualisiert:
Kunsthistoriker, geb. 1936
bei DNB individualisiert:
Theologe, geb. 1950
bei DNB individualisiert:
Historiker, geb. 1956
Ausschnitt aus Trefferliste
zum „Sammeltopf“
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 17
HBZ
SWB
dasselbe Werk:
einmal verknüpft mit Kunsthistoriker, geb. 1947, einmal
verknüpft mit Kunsthistoriker, geb. 1936 (so auch DNB).
Hier kann etwas nicht stimmen!
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 18
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
Recherche ergibt:
beide Zuordnungen sind falsch, der Richtige ist
ein Dritter (für den es ebenfalls Datensatz gibt)
Wikipedia
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 19
SWB
Zwei Ausgaben von Middlemarch:
E-Book-Ausgabe aus Nationallizenz-Daten,
dort ist nur der Name als Text eingetragen
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 20
SWB
LoC
Alleinbesitz im SWB:
individualisierende Informationen könnten aus
angloamerikanischen Daten übernommen werden
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 21
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nKataloge
Individualisierungsinfos bisher kaum genutzt:
• in manchen Katalogen zumindest Anzeige beim Titel
z.B. über Klick auf spezielles Icon
• in Trefferlisten i.d.R. bisher nicht genutzt
Titel aller gleichnamigen Autoren zusammengeworfen
(Ausnahme: Freiburger Katalog plus)
• Suche vom Titel aus: unterschiedlich realisiert
entweder nur Anzeige der mit dieser Person verknüpften
Titel (Problem: ergibt evtl. nur Teil der relevanten Titel)
oder Recherche nach Titeln aller gleichnamigen Personen
bei besserer Qualität der Daten wären auch
verbesserte Katalog-Funktionen möglich
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 22
Beispiel für Individualisierung
dreimal „Heiner Müller“
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 23
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nSuche nach Heiner Müller: Personen werden
in der Trefferliste „zusammengeworfen“
SWB
der Schriftsteller
der Verfasser von
Unterrichtsmaterialien
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 24
reales Beispiel:
http://www.viaf.org
Müller, Heiner1925-1995 / Schriftsteller
Müller, Heiner1970- / Arzt
Müller, Heiner1982- / Publizist von Unterrichts-materialien für die Schule
Müller, Heinerweitere Personen dieses Namens
Müller, Heinrich1873-1956 / Lehrer
Müller, Heinrich1845-1910 / Apotheker
fiktiv (Designstudie),
Basis: HEIDI-Katalog
der UB Heidelberg
Lösungsweg 1:
Vorschläge bei
der Eingabe
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 25
fiktiv (Designstudie), Basis: SWB
Treffer einschränken auf:
Müller, Heiner1925-1995 / Schriftsteller
Müller, Heiner1970- / Arzt
Müller, Heiner1982- / Publizist von Unterrichtsmaterialienfür die Schule
Müller, Heinerweitere Personendieses Namens
Lösungsweg 2: Drill-down
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 26
umgesetzt im Katalog
plus der UB Freiburg
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 27
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
1. Individualisierung
2. Differenzierung von Normsätzen
3. Maschinell erstellte Werk-Normsätze
4. Optimierungspotenziale für das Clustering
Agenda
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 28
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nAngloamerikanische Tradition
Stärkere Differenzierung bei Normdaten, z.B.:
• Pseudonyme
schreibt jemand teils unter einem Pseudonym, teils unter
seinem wirklichen Namen (oder unter mehreren Pseudo-
nymen), so werden unterschiedliche „bibliographische
Identitäten“ angenommen
• Person in offizieller Funktion
Unterscheidung zwischen einer Person als Amtsträger
und derselben Person als „Privatmann/-frau“
Aufspaltung in mehrere Normdatensätze
mit Siehe-auch-Verweisung (5XX)
dagegen bei uns jeweils nur ein Normsatz
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 29
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
Normdatensatz 1 (Personensatz, stark gekürzt):
100 1# |a Hobb, Robin
500 1# |a Lindholm, Megan
• Autorin veröffentlicht teils unter dem Pseudonym „Robin
Hobb“, teils unter „Megan Lindholm“
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 30
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
Normdatensatz 2 (Personensatz, stark gekürzt):
100 1# |a Lindholm, Megan
500 1# |a Hobb, Robin
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 31
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
Beispiel für Titel
am Normsatz 1
Beispiel für Titel
am Normsatz 2
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 32
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n GND
GND: nur ein Datensatz, der für alle Titel verwendet
wird; Pseudonym ist eine normale Verweisung (400)
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 33
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
Normdatensatz 1 (Personensatz, stark gekürzt):
100 0# |a Benedict |b XVI, |c Pope, |d 1927-
400 1# |a Ratzinger, Joseph, |d 1927-
510 2# |a Catholic Church |b Pope (2005-2013 :
Benedict XVI)
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 34
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nBeispiel für einen Titel
am Normsatz 1
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 35
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
Normdatensatz 2 (Körperschaftssatz, stark gekürzt):
110 2# |a Catholic Church. |b Pope (2005-2013 :
Benedict XVI)
500 0# |a Benedict |b XVI, |c Pope, |d 1927-
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 36
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nBeispiel für einen Titel
am Normsatz 2
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 37
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nRDA-Umstieg
• Wenn entschieden wird, RDA voll zu implementieren
Aufspaltung der betroffenen Normsätze sowie neue
Zuordnung nötig
• Clustering könnte Zuordnungsprozess unterstützen
alle Ausgaben eines Werkes sollten am selben Normsatz
hängen
• Einbezug angloamerikanischer Daten ins Clustering
könnte bei korrekter Zuordnung helfen
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 38
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
1. Individualisierung
2. Differenzierung von Normsätzen
3. Maschinell erstellte Werk-Normsätze
4. Optimierungspotenziale für das Clustering
Agenda
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 39
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nClustering von Ausgaben
• bisher nur als Funktion von Recherchesystemen
nicht „fest verdrahtet“, sondern durch Algorithmen erzeugt
Primo Mannheim
funktioniert jeweils nur in bestimmten System
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 40
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nDatentechnische Verknüpfung
bisher nur in wenigen Fällen praktiziert:
• Verknüpfung von Ausgaben nur in besonderen Fällen
z.B. parallele Druck- und Online-Ausgabe
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 41
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nWerknormsätze
• in Formalerschließung bisher nur für Musik-Werke
werden manuell erstellt und verknüpft
nicht nur Text, sondern
echte Verknüpfung
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 42
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nzugehöriger Normsatz
für das Werk in der GND
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 43
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nRDA
• basiert auf FRBR
Abbildung der Primärbeziehungen zwischen einem Werk,
seinen Expressionen, Manifestationen und Exemplaren ist
grundsätzlich angestrebt
• wichtig ist insbesondere die Beziehung zum Werk
das „manifestierte Werk“ ist ein Kern-Element
(d.h. muss stets erfasst werden)
• RDA erlaubt zwar ein Weitermachen wie bisher
in der sog. „composite description“ kann die Beschreibung
der Manifestation mit Informationen der Werk- und
Expressionsebene kombiniert werden
• aber: wünschenswert wären Werk-Verknüpfungen
jedoch: manuelle Erstellung und Verknüpfung wäre zu
aufwendig, nötig ist maschinelle Lösung
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 44
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nAutomatische Werkverknüpfung
Grundidee für den Ablauf:
1. Erstellen von Werkclustern
gemäß Pfeffer-Algorithmus (evtl. noch optimiert)
2. Extrahieren werkrelevanter Informationen
jeweils aus dem Gesamtcluster
3. maschinelles Erzeugen eines Werknormsatzes
gemäß festgelegter Ableitungsregeln (z.B. könnte das
Jahr der frühesten Manifestation im Cluster als Jahr des
Werkes behandelt werden)
4. maschinelles Eintragen der Identnummer des Werks
bei allen Titelsätzen, die zum Cluster gehören
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 45
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n1100 1972
1500 ger
2000 3-7940-2607-1
3000 !PPN!Hacker, Rupert*1935-*
4000 Bibliothekarisches Grundwissen$hRupert Hacker
4030 München-Pullach [u.a.]$nVerl. Dokumentation
4060 368 S.
1100 2008
1500 ger
2000 978-3-598-11771-8
3000 !PPN!Gantert, Klaus*1968-*
3001 !PPN!Hacker, Rupert*1935-*
4000 Bibliothekarisches Grundwissen$hKlaus Gantert;
Rupert Hacker
4020 8., vollst. neu bearb. und erw. Aufl.
4030 München$nSaur
4060 414 S.
Beispiel 1:
zwei Mitglieder desselben
Clusters (SWB, gekürzt)
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 46
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
005 Tu7
006 http://d-nb.info/gnd/xyz
008 wit
011 f
012 q
035 gnd/xyz
130 Bibliothekarisches Grundwissen
377 ger
500 !PPN!Hacker, Rupert*1935-* $4aut1
500 !PPN!Gantert, Klaus*1968-* $4auta
548 $c1972$4datj
neuer Code „7“: maschinell
erstellt aus Clustering
neues Nutzungskennzeichen „q“:
für maschinelle Verknüpfungen
aus dem Cluster erzeugter Werknormsatz
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 47
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
005 Tu7
006 http://d-nb.info/gnd/xyz
008 wit
011 f
012 q
035 gnd/xyz
130 Bibliothekarisches Grundwissen
377 ger
500 !PPN!Hacker, Rupert*1935-* $4aut1
500 !PPN!Gantert, Klaus*1968-* $4auta
548 $c1972$4datj
aus dem Cluster erzeugter Werknormsatz
Werktitel: Sachtitel der
frühesten Manifestation
mutmaßliche Sprache des Werks
(nur deutsche Manifestationen)
Jahr der frühesten Manifestation
als mutmaßliches Jahr des Werks
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 48
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
005 Tu7
006 http://d-nb.info/gnd/xyz
008 wit
011 f
012 q
035 gnd/xyz
130 Bibliothekarisches Grundwissen
377 ger
500 !PPN!Hacker, Rupert*1935-* $4aut1
500 !PPN!Gantert, Klaus*1968-* $4auta
548 $c1972$4datj
aus dem Cluster erzeugter Werknormsatz
erster Verfasser der
frühesten Manifestation
weiterer Verfasser (aus
späterer Manifestation)
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 49
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
1100 2008
1500 ger
2000 978-3-598-11771-8
3000 !PPN!Gantert, Klaus*1968-*
3001 !PPN!Hacker, Rupert*1935-*
3012 !PPN!Bibliothekarisches Grundwissen / Hacker,
Rupert*1935-*
4000 Bibliothekarisches Grundwissen$hKlaus Gantert;
Rupert Hacker
4020 8., vollst. neu bearb. und erw. Aufl.
4030 München$nSaur
4060 414 S.
alle Mitglieder des Clusters werden
mit Werknormsatz verknüpft
Verknüpfung zum Werk-
normsatz über Identnummer
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 50
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n1100 2012
1500 eng
2000 978-1-4087-0420-2
3000 !PPN!Rowling, Joanne K.*1965-*
4000 The @casual vacancy$hJ. K. Rowling
4030 London$nLittle, Brown
4060 503 S.
1100 2012
1500 ger$ceng
2000 978-3-551-58888-3
3000 !PPN!Rowling, Joanne K.*1965-*
3010 !PPN!Aeckerle, Susanne*1942-*[Übers.]
3211 The @casual vacancy <dt.>
4000 Ein @plötzlicher Todesfall$dRoman$hJ. K.
Rowling. Aus dem Engl. von Susanne Aeckerle ...
4030 Hamburg$nCarlsen
4060 574 S.
Beispiel 2:
zwei Mitglieder desselben
Clusters (SWB, gekürzt)
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 51
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
005 Tu7
006 http://d-nb.info/gnd/xyz
008 wit
011 f
012 q
035 gnd/xyz
130 The @casual vacancy
377 eng
430 Ein @plötzlicher Todesfall$vger
500 !PPN!Rowling, Joanne K.*1965-* $4aut1
548 $c2012$4datj
aus dem Cluster erzeugter Werknormsatz
Werktitel: Einheitssachtitel
Sachtitel einer Manifestation, der
nicht mit Werktitel übereinstimmt
(mit Sprachcode)
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 52
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
1100 2012
1500 ger$ceng
2000 978-3-551-58888-3
3000 !PPN!Rowling, Joanne K.*1965-*
3010 !PPN!Aeckerle, Susanne*1942-*[Übers.]
3211 The @casual vacancy <dt.>
3212 !PPN!The @casual vacancy / Rowling,
Joanne K.*1965-*
4000 Ein @plötzlicher Todesfall$dRoman$hJ. K.
Rowling. Aus dem Engl. von Susanne Aeckerle ...
4030 Hamburg$nCarlsen
4060 574 S.
alle Mitglieder des Clusters werden
mit Werknormsatz verknüpft
Verknüpfung zum Werk-
normsatz über Identnummer
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 53
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
noffene Fragen
• intellektuell erstellter Werknormsatz vorhanden
(z.B. aus Sacherschließung), Feststellen durch Abgleich
der maschinell erstellten Werknormätze mit GND;
Merging oder Verknüpfung der beiden Normsätze?
• Werke mit nur einer Manifestation (Einer-Cluster)
sollte auch in diesen Fällen ein Werknormsatz angelegt
werden?
• technische Umsetzbarkeit
lässt sich das geschilderte Szenario unter den derzeitigen
technischen Rahmenbedingungen (mehreren Verbund-
kataloge) umsetzen?
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 54
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
1. Individualisierung
2. Differenzierung von Normsätzen
3. Maschinell erstellte Werk-Normsätze
4. Optimierungspotenziale für das Clustering
Agenda
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 55
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nOptimierungsmöglichkeiten
• bisher sehr scharfes Clustern
z.B. exakte Übereinstimmung von Sachtitel und Zusätzen
notwendig
vermeidet Fehl-Zusammenführungen
umgekehrt: nicht alles wird zusammengeführt
Verbesserungsansätze:
• Einbezug von Verweisungsformen
z.B. Person einmal „Hills, John“, einmal „Hills, John R.“
• Auswertung von Fußnoten
insbes. bei Titeländerungen
• keine 100%-ige Übereinstimmung bei Zusätzen
diese ändern sich vergleichsweise oft
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 56
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nFußnote bei Titeländerung
als Text oder mit Verknüpfung
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 57
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
nUnterschiede bei Zusätzen
Zusatz fehlt in manchen Ausgaben
SWB
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 58
Unterschiede bei Zusätzen
vier deutsche Ausgaben, drei Varianten
SWB
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 59
Unterschiede bei Zusätzen
drei Ausgaben, drei Varianten
(z.T. auch erfassungsbedingt)
SWB
Verfeinerung des Algorithmus sinnvoll
evtl. mit intellektueller Überprüfung, wenn
das System sich nicht sicher ist
13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 60
Heid
run W
iesenm
ülle
r
H
ochschule
der
Medie
n
Vielen Dank für
Ihre Aufmerksamkeit!
Kontakt: [email protected]