metadane w polskich bibliotekach cyfrowych
DESCRIPTION
Metadane w polskich bibliotekach cyfrowych. Joanna Potęga Biblioteka Narodowa. „Cyfrowość bibliotek i archiwów”. Warszawa, 26-27 listopada 2009. Polskie biblioteki cyfrowe. 42 w Federacji Bibliotek Cyfrowych - PowerPoint PPT PresentationTRANSCRIPT
1
Metadane w polskich
bibliotekach cyfrowych
Joanna Potęga
Biblioteka Narodowa
„Cyfrowość bibliotek i archiwów”. Warszawa, 26-27
listopada 2009
2
Polskie biblioteki cyfrowe
• 42 w Federacji Bibliotek Cyfrowych
– FBC – „serwis ten jest zbiorem zaawansowanych usług sieciowych opartych na zasobach cyfrowych dostępnych w polskich bibliotekach cyfrowych i repozytoriach uruchomionych w sieci PIONIER”.
• inne (biblioteki cyfrowe (PGd, ABI), prezentacje internetowe zdigitalizowanych obiektów (BUJ, KUL))
• zasoby:
– FBC – dostępnych ponad 300 tysięcy obiektów cyfrowych
– zdigitalizowane zbiory bibliotek, archiwów, muzeów, ośrodków badawczych oraz kolekcje prywatne
– dokumenty „born digital”
3
Metadane - dlaczego analiza?• jedno miejsce dostępu do metadanych
(FBC)
• przekazywanie metadanych do zagranicznych serwisów (m.in. Europeana)
• dostęp do informacji (użytkownicy)
• środowisko / warsztat pracy bibliotekarzy cyfrowych (w kontekście tworzenia metadanych):
– standardy
– schematy
– praktyka
4
Metadane - analiza
• Biblioteki cyfrowe dostępne w FBC*
– 40 bibliotek cyfrowych (pominięto PBI oraz planowaną Morską Bibliotekę Cyfrową)
• Analiza: wrzesień – październik 2009 r.
• Wykonanie: Agnieszka Wróbel (BUW), Joanna Potęga (BN)
* pobieranie metadanych przy pomocy protokołu OAI-PMH w wersji 2.0. - niezależne od stosowanych standardów tworzenia metadanych
5
Metadane - analiza• Podstawa opisu (dla materiałów
digitalizowanych):
– Kopia cyfrowa dokumentu oryginalnego (cechy formalne dok. analogowego wraz z informacjami chrakterystycznymi dla dokumentu cyfrowego) - 36
– Rozróżnienie wydawcy i dat wyd. (dok. oryg., dok. cyfrowego) - 3
– Nowy dokument elektroniczny - 1
• Standardy:
– Dublin Core - 38*
– MARC 21 - 1
– Własny - 1* Oprogramowanie: 37 – dLibra 2 – własne
1 – VTLS/Virtua
6
The Dublin Core Metadata Element Set, Ver. 1.1
ZawartośćContent
Własność intelektualnaIntellectual property
DookreślenieInstantiation
Tytuł (Title) Twórca (Creator) Data (Date)
Temat (Subject) Wydawca (Publisher)
Typ (Type)
Opis (Description) Współtwórca (Contributor)
Format (Format) –
Źródło (Source) Prawa (Right) Identyfikator (Identifer)
Język (Language)
Relacja (Relation)
Miejsce i czas (Zakres / zasięg Coverage)
7
Element Nazwa elementu Dodatkowe wystąpienie (nazwa elementu)
Wartości
Title Tytuł - 37Tytuł(y) - 1
Tytuły - 1Inny tutuł - 2Wariant tytułu - 2Tytuł oryginału- 1Podtytuł - 2Gatunek sceniczny -
1Miejsce powstania -
1Data powstania - 1
Tytuły właściwe (z podtytułami lub bez zapisywanymi w róznych konwencjach); tytuły czasopism (numeracja) ;cBN Polona tutył właściw i ozn. wyd. i/lub aders wydaw.
Creator Autor - 35Twórca - 3
Konsekwencja w składni: nazwisko, imie, ale braki w dopowiedzeniach (daty biograficzne) dla tej samej osoby
Subject Temat i słowa kluczowe - 31
Słowa kluczowe - 2Hasło przedmiotowe - 2Hasło przedmiotowe KABA
- 1Dziedzina – 1Brak - 1
Hasło przedmiotowe - 4Słowa kluczowe - 1Słowa kluczowe użytkowników - 1
8
Element Nazwa elementu Dodatkowe wystąpienie (nazwa elementu)
Wartości
Description
Opis - 33Adnotacje [uwagi] -
2Uwagi – 2Brak - 1
Wymiary - 1Abstrakt - 1Komentarz - 1
Informacje o innych tytułach, oznaczenie wydania, opis fizyczny, informacje o streszczeniu, defektach, liczbie skanów
Publisher Wydawca - 36Wydawca/Drukarz -
1Wydanie oryginalne
- 1
Miejsce wydania - 20Drukarz - 2
W elemencie nazwanym „Wydawca” też informacje o miejscu wyd. (część adresu wydawniczego)
Contributor
Współtwórca - 38 Instytucja sprawcza - 1
Różne sposoby zapisu dopowiedzeń (Wyd., Wydaw. lub ich brak)
Date Data wydania - 37Data wydania oryg. - 1
Data druku - 1Miejsce wydania - 1
Spotykany zapis: 1999 (wyd. oryg.) ; 2008 (wyd. cyfrowe)
Type Typ zasobu - 32 Typ dokumentu - 2Typ źródła - 1Rodzaj dokumentu - 1Typ publikacji – 1Brak - 1
Określenie typu dokumentu oryginalnego ; 631 różnych określeń – rekordowa liczba ; czasopismo - czasopisma
9
Element Nazwa elementu Dodatkowe wystąpienie (nazwa elementu)
Wartości
Format Format 36Format elektroniczny –
1Brak - 1
Format pliku cyfrowego zamieszczonego w BC
Identifier
Identyfikator zasobu - 34Identyfikator - 1Identyfikator dokumentu cyfrowego - 1Identyfikator publikacji – 1URL - 1
ISBN - 2ISSN - 2Sygnatura oryginału - 1Identyfikator obiektu cyfrowego - 2Identyfikator oryginału - 3
Nadawany automatycznie identyfikator OAI, ale też: sygnatura obiektu oryginalnego, przekierowania do opisu katalogowego, numery ISBN, ISSN
Source Źródło (32)Źródło- sygn. oryginału (1)Sygnatura (1)Sygnatura oryginału (1) ; Dokument oryg. (1)Brak – 2
Uwagi ; Współoprawny z ; Powiązania ; Prowieniencja ; Linki (wszystkie wystąpienia w 1 BC)
Instytucja przechowujca obiekt oryginalny,
Language
Język – 37Brak - 1
Różne sposoby zapisu informacji o jezyku treści (pol ; polski
10
Element Nazwa elementu Dodatkowe wystąpienie (nazwa elementu)
Wartości
Relation Powiązania - 36Seria [cykl] - 1Brak - 1
Katalog GAIK - 1OPAC WWW kat. online
- 1Seria - 1
Informacje o serii, związki z innymi tytułami, ale też: sygnatury wersji MF, płyt DVD
Coverage
Zakres - 37Brak – 1
Element choć wystepuje w schemacie, to jest praktycznie niewykorzystywany – pojawiają się pojedyncze wartości, np. informacje o zastosowanej skali mapy ; w jednej z BC informacja o trybie dostępu
Rights Prawa - 36Prawa do dysponowania publikacją - 1Brak - 1
Prawa do dysponowania publikacją - 1Licencja - 2Treść licencji- 1Tekst - 1Lokalizacja - 1 Lokalizacja oryginału - 2Konatakt - 1Digitalizacja - 2Sygnatura - 1Zespół archiwalny - 1Sygn. - 1
Informacje o miejscu przechowywania oryginału, informacja o właścicielu autorskich praw majątkowych, warunkach udostępniania (przekierowania do treści licencji, regulaminów), informacje o tyrbie dostępu (o ograniczeniach w dostępie do obiektu)
11
Elementy poza DC (rożne nazwy, ale równoważne informacje)
Interpretacja / Wartości
Wariant tytułu - 1Tytuł w języku angielskim - 1
Tłumaczenie tytułu przez BC
Wydanie - 1 Informacja o oznaczeniu wydania
Miejsce wydania - 4
Opis fizyczny - 1
Seria (1)
Tagi - 27Słowa kluczowe użytkowników - 1
Wyrażenia w języku naturalnym opisujące tematykę zasobu nadawane przez użytkowników
Uwagi - 5Adnotacje - 1Inf. tech. - 1
Dotyczące oryginału (braki, defekty), dotyczące obiektu cyfrowego (jakości), informacje o powiązaniach (tytuł poprzedni)
12
Elementy poza DC (rożne nazwy, ale równoważne informacje)
Interpretacja / Wartości
Numer zespołu archiwalnego - 2
Nazwa zespołu archiwalnego - 1
Uwagi archiwistów - 1
Identyfikator obiektu cyfrowego - 2
Numer identyfikacyjny nośnika? (płyty?)
Identyfikator oryginału - 1Sygnatura BCPW - 1Sygnatura oryginalna – 1
Sygnatury obiektu analogowego
Lokalizacja oryginału- 5Lokalizacja źródła - 2
Informacja o instytucji
przechowującej obiekt
OPAC - 1WebOPAC BN - 1
Przekierowanie do opisu w
katalogu komputerowym
Pełny opis katalogowy - 1 Link do publikacji w innej BC
13
Elementy poza DC (rożne nazwy, ale równoważne informacje)
Interpretacja / Wartości
Digitalizacja - 6Reprodukcja cyfrowa - 1
Informacje o wykonawcy digitalizacji
Sponsor digitalizacji - 2WWW - 1
WWW – przekierowanie do strony www sponsora digitalizacji
Publikacja - 1 Informacja o instytucji umieszczającej obiekt w BC (informacja głownie wykorzystywana do celów statystycznych w danej BC – tam, gdzie BC jest współtworzona przez wiele instytucji
Tryb dostępu - 1 Informacja o ograniczeniu w dostepie do siedziby jednostki
Strona wydawcy - 1 Przekierowanie do strony internetowej wydawcy
15
Metadane w polskich BC
• BC nie jest katalogiem bibliotecznym
• znaczna dowolność przy wpisywaniu danych
– większa elastyczność i intuicyjność danych (dla użytkownika, ale w konsekwencji: szum informacyjny)
– brak wsparcia takiego jakie daje KHW w katalogach
• brak słowników kontrolowanych dla poszczególnych atrybutów (Indeks autorów/twórców, Indeks słów kluczowych)
16
Metadane w polskich BC
• różnice w interpretacji poszczególnych elementów DC (przy zachowaniu jednorodengo nazewnictwa elementów)
• nierównoważne informacje w tym samym elemencie
• informacja tego samego typu w wielu różnych elementach
• przypadki umieszczania wielu wartości w jednym elemencie jako ciągłego tekstu (brak powtórzeń elementu – brak możliwości wyszukiwania po wartości)
• umieszczanie wielu informacji poza DC – lokalność informacji
17
Metadane w polskich BCCzynniki wpływające na jakość:
• różnorodność zasobów i ich specyfika
• różnorodność praktyk katalogowych instytucji współtworzących BC (także w BC konsorcyjnych)
• mechanizmy tworzenia metadanych przez bibliotekarzy / redaktorów cyfrowych
(ankieta październik/listopad 2009): 41 bibliotek – 29 odpowiedzi):
- tylko import bez ingerencji w dane – 1
- tylko import z ingerencją w dane – 3
- import i też samodzielne tworzenie opisów – 10
- samodzielne tworzenie opisów - 14
18
Metadane w polskich BC• Import – dane wyjściowe:
– MARC21 – 12 (+1 w przygotowaniu)
– MARC – 1
– MARC BN – 1
– MASTER – 1 (plany)
• Zalecenia do tworzenia opisów:
– TAK – 27
– NIE – 2
• Tylko zalecenia ogóle – 15
• Tylko zalecenia szczegółowe – 8
• Ogólne ze wskazówkami opisu dla poszczególnych typów dokumentów - 4
19
Federacja Bibliotek Cyfrowych• Wyszukiwanie – dane wyłącznie z 15 elementów DC
• Możliwość rozszerzenia protokołu OAI o dodatkowe elementy (pod warunkiem ujednoliconego schematu)
FBC:
„Zróżnicowanie tych opisów jest dla nas przeszkodą:
- w realizowaniu nowych zaawansowanych funkcji dla czytelników
- realizowaniu nowych zaawansowanych funkcji dla twórców bibliotek cyfrowych
- przekazywaniu metadanych obiektów z polskich bibliotek cyfrowych do zagranicznych serwisów”*
* Adam Dudczak, Marcin Werla Warsztaty nt. Opracowania zasobów bibliotek cyfrowych, Gniezno 6-8 września 2009 r.
20
Europeana – poziomy wymagań• Absolutne minimum:
– Unikalny i trwały identyfikator obiektu cyfrowego (URL, link do obiektu - isShwonBy i/lub isShownAt)
• Minimum (z wykorzystaniem uszczegółowień)
– KTO (dc:creator, dc:contributor itp.)
– CO (dc:title, europeana:type, dc:language itp.)
– KIEDY (dc:date itp.)
– GDZIE (dcterms:spatial itp.)
• Zwiększenie możliwości dostępu do obiektu:
- Rights, Provenance, Format, Relation itp…
21
Europeana Semantic Elements (ESE) 1. Elementy Dublin Core • Title
• Alternative
• Creator • Subject• Description
• TableofContents
• Publisher• Contributor • Date
• Created
• Issued
• Type• Format
• Extent• Medium
• Identifier • Source• Language• Relation
• isVersionOf; hasVersion;• isReplacedBy;replaces;• isRequiredBy; requires;• isPartOf; hasPart;• isReferencedBy;references;• isFormatOf; hasFormat;• conformsTo
• Coverage • Spatial • Temporal
• Rights• Provenance (dcterms)
Elementy DC: rekomendowane ; zalecane ; dodatkowe
22
•Language – język kraju dostawcy obiektu
•Country – kraj dostawcy treści
•Provider – dostawca obiektu
•Year – rok związany z obiektem (Time Line)
•Type – typ obiektu (wg Europeana: Text, Image, Video, Sound)
•HasObject – czy jest dostępna „miniaturka”
•Object – link do „miniaturki”
•Unstored – wszystko czego nie udało się przemapować
•Usertag – tagi użytkowników
•URI – unikalny identyfikator obiektu
• isShownAt – link do obiektu w pełnym kontekście informacji
• isShownBy – link do obiektu w najlepszej jakości
Europeana Semantic Elements (ESE) 2. Elementy Europeana
23
Metadane w polskich
bibliotekach cyfrowych
„Cyfrowość bibliotek i archiwów”. Warszawa, 26-27
listopada 2009
24
Dziękuję za uwagę
Joanna Potęga
Biblioteka Narodowa
„Cyfrowość bibliotek i archiwów”. Warszawa, 26-27
listopada 2009