riproduzione digitale di fonti manoscritte (metadati descrittivi e reperimento delle risorse...
TRANSCRIPT
Riproduzione digitaledi fonti manoscritte
(metadati descrittivi e reperimento delle risorse elettroniche)
CORSO DI PERFEZIONAMENTO SAPERI STORICI E NUOVE TECNOLOGIE
(Napoli, 6 giugno 2006) --------
Paul Gabriele [email protected]
Argomenti
Breve introduzione ai metadati Standard per la codifica Interoperabilità Funzioni dei service provider Conclusioni
Cosa sono i metadati?
Informazione strutturata sulle risorse termine di nuovo conio utilizzato per indicare informazioni di
tipo referenziale applicate a risorse elettroniche, simili per funzione alle notizie create nel tempo per rappresentare risorse tradizionali schede di catalogo, citazioni bibliografiche, registri
inventariali, ecc.
Descrivono specifici file, singoli oggetti o collezioni complesse
Archiviati a parte o facenti parte integrante della risorsa alla quale si riferiscono
In particolare, i metadati sono …
informazioni elettroniche
utilizzabili direttamente dal computer
dotate di una struttura e di una semantica definite
che descrivono una risorsa
I metadati agevolano … l’identificazione delle risorse elettroniche la loro autenticazione la conservazione del contesto di origine
la ricerca delle risorse l’accesso alle risorse raggiungibili via web la raccolta delle informazioni (metadata harvesting)
utili all’allestimento di dispositivi di mediazione e di conservazione
I metadati costituiscono il valore aggiunto della risorsa elettronica
Metadati nativi e aggiuntivi
I metadati nativi si trovano in un documento fin dal momento della sua creazione, in quanto vengono creati dall’autore del documento o dal software in modo automatico supportano il reperimento della risorsa comprendono il nome del creatore del documento, il titolo, la
data
I metadati aggiuntivi vengono creati da soggetti terzi per incrementare il valore della risorsa supportano la selezione della risorsa comprendono termini di vocabolario controllato, la
descrizione, informazioni sui diritti
Metadati differenti per funzioni diverse
descrittivi descrizione della risorsa – autore, titolo, soggetto
amministrativi gestione e amministrazione della risorsa – versione, fonti degli originali,
date di creazione, modifica, ecc. strutturali
organizzazione interna della risorsa – identificativi univoci, numeri di pagina, caratteristiche peculiari (indice dei contenuti, indici, ecc.)
tecnici conservazione della risorsa nel medio e nel lungo periodo – formati dei
file, apparecchiature per il trattamento digitale, formato di compressione, componenti hardware e software
relativi ai diritti (rights management) fruizione e controllo della risorsa e dei suoi contenuti – proprietà
intellettuale e commerciale, restrizione all’uso, ecc.
La documentazione del contesto
contenuto identifica la natura della risorsa e ne rappresenta il
contenuto
relazioni evidenzia le relazioni con altri oggetti
struttura comprende concetti quali inizio e fine del documento,
capitoli, articoli, ecc. ai fini di comunicarne la gerarchia e l’organizzazione dei dati e delle componenti della risorsa
I metadati supportano ….
la gestione delle risorse digitali
l’interoperabilità delle risorse digitali
la conservazione delle risorse digitali
la reperibilità delle risorse digitali
la gestione dei diritti
l’integrità e l’autenticazione
la sostenibilità
Standard per la codifica
informazione globale applicazioni generaliste e specialistiche soggetti promotori e siti istituzionali standard de iure e de facto
Standard internazionali
il conseguimento della standardizzazione è la conseguenza dell’esistenza di accordi e protocolli internazionali pubblicati come standard internazionali
Il formato MARC
MAchine-Readable Cataloging notizia catalografica che viene automaticamente
elaborata dal computer, il quale è in grado di riconoscere l’identità delle diverse componenti della notizia e di trattarle di conseguenza
notizia catalografica = record bibliografico = metadati criteri di compilazione determinati dalle normative
catalografiche (ISBD, RICA, AACR2, ecc.) permette a ricerca elettronica del catalogo (opac)
Il formato MARC nel tempo
Personalizzazioni: USMARC, LCMARC, UKMARC, INTERMARC, ecc.
Scambio internazionale dei dati: UNIMARC Evoluzioni del formato:
da LCMARC a MARC 21 MARCXML (ambiente XML, sviluppato da LC) MODS (semplificazione e razionalizzazione, finalizzato alla
realizzazione delle biblioteche digitali)
Struttura del record MARC
campi (autore, titolo, pubblicazione, ecc.) identificati da un codice numerico di tre cifre (tag)
100 1# $a Guerrini, Mauro [responsabilità principale, persona fisica]
alcuni campi sono suddivisi in sottocampi campo [area] della pubblicazione, distribuzione, ecc.
(identificato dal codice 260) include i sottocampi [elementi] luogo, nome dell’editore, data di pubblicazione)
260 ## $a Milano : $b Editrice Bibliografica, $c 2005
Esempio di record MARC21
100 1# $a 245 10 $a
$c250## $a260## $a
$b$c
300## $a$b$c
490## $a$v
650#1 $a
Guerrini, Mauro.
Catalogazione /
Mauro Guerrini.
1 ed.Roma :Associazione Italiana Biblioteche,c1999141 p. : ill. ;17 cmEnciclopedia tascabile ;16Catalogazione bibliografica
MARCXML
il Network Development and MARC Standards Office della Library of Congress ha sviluppato una struttura utile ad utilizzare dati MARC in ambiente XML
la struttura è flessibile ed estensibile per ampliare il numero e la varietà delle applicazioni, ma non vengono meno i caratteri di specificità del MARC
l’elaborazione ha incluso lo sviluppo di schemi, fogli di stile e dispositivi software, accessibili e scaricabili attraverso il sito
record MARCXML
Conversione tra schemi di metadati
è il risultato di una mappatura, cioè del procedimento con il quale vengono individuate le corrispondenze sintattiche e semantiche tra singoli elementi di due schemi di metadati
l’ambiente XML in funzione del quale è stato sviluppato MARCXML si presta bene alla conversione tra schemi di metadati
sono stati sviluppati dei dispositivi software per semplificare le procedure
Conversione a Dublin Core
Presentazione dei dati
presentazione è la visualizzazione e/o la marcatura dei dati MARC in una forma leggibile
presentazione HTML …
Record visualizzati in HTML
XML per la codifica dei metadati
eXtensible Markup Language XML serve per attribuire una struttura ai dati
esempi di dati strutturati sono i fogli di calcolo, le transazioni fininziarie, I disegni tecnici
si definisce con XML un insieme di regole per produrre formati di testo che diano una struttura ai dati
XML non è un linguaggio di programmazione e non richiede particolari competenze informatiche
XML agevola la produzione e la lettura di dati da parte del computer e assicura che la struttura di tali dati sia non ambigua
XML si presenta non dissimile da HTML è comune l’uso di marcatori (tags, termini racchiusi tra parentesi
uncinate) e di attributi in HTML viene specificato il significato di ogni marcatore e attributo
e talvolta anche la resa grafica in XML i marcatori servono solo a segmentare i dati, la cui
interpretazione è affidata all’applicazione
XML per la codifica dei metadati
XML consiste di testo, ma non è finalizzato alla lettura i dati sono archiviati in formato testo, per cui possono essere
letti mediante un text editor in caso di compilazioni errate, l’applicazione si ferma e
genera un messaggio di errore XML è modulare
il formato di un nuovo documento può essere prodotto combinando e riutilizzando altri formati
per evitare di assegnare lo stesso nome ad elementi o attributi diversi, XML fornisce meccanismi di namespace
XML non pone problemi di licenze ed è indipendente da qualunque piattaforma ci si può avvalere del lavoro e dei dispositivi prodotti dalla
comunità di utilizzatori XML
Tecnologie XML
XML comprende una famiglia di tecnologie correlate XLink – modalità standard di aggiungere link
ipertestuali ad un file XML XPointer – sintassi per puntare a porzioni di dati
interni a un documento XML (il ruolo dell’URL nel web)
XSL – linguaggio per la produzione di fogli di stile XSLT – linguaggio di trasformazione utile a
riorganizzare, aggiungere e rimuovere tag e attributi
XML per le biblioteche digitali
strutturazione del contenuto per trasferimenti di dati in tempo reale (online delivery)
integrazione di informazioni interne ed esterne
gestione dei dati bibliografici – creazione, archiviazione, condivisione ed utilizzazione
cattura di metadati
“Occorre trovare il modo per trasferire dati e informazioni in modo efficiente ed efficace. Dati in XML condivisi tra computer ed applicativi differenti rappresentano un passo in direzione dell’agevolare questa condivisione”
Schemi di metadati descrittivi
Dublin Core (DC) descrizione semplice di risorse di ogni genere per la prima ricerca
Encoded Archival Description (EAD)
codifica di strumenti di corredo archivistici
Text Encoding Initiative (TEI)
marcatura di testi letterari
Music Encoding Initiative (MEI)
marcatura di documenti musicali
Synchronized Multimedia Integration Language (SMIL)
sincronizzazione ed integrazione di documenti multimediali
Dublin Core
elementi semplici da comprendere e adoperare opzionali e ripetibili internazionali e trasversali tra le discipline
non qualificato finalizzato ad una sommaria descrizione della risorsa per
agevolare la prima ricerca qualificato
per descrizioni più ricche che permettano raffinamenti nella ricerca e un loro uso professionale nell’ambito degli strumenti di mediazione propri delle diverse discipline
Applicazioni di Dublin Core
oggetti
fotografie diapositive
Implementazione
formato di descrizione di una risorsa informativa mira ad agevolare il reperimento delle risorse
elettroniche funge da base per l’interoperabilità semantica adottata da numerose comunità utenziali (biblioteche,
musei, agenzie governative, organizzazioni commerciali)
beneficia dell’attiva partecipazione e promozione in oltre 20 Paesi in Nord America, Europa, Asia ed Oceania
Dublin Core Metadata Element Set
Title Creator
Subject Description
Publisher Contributor
Date Type
Format Identifier
Source Language
Reference Coverage
Rights
Encoded Archival Description (EAD)
Basato sullo standard ISAD(G) per la descrizione di complessi archivistici
schema di codifica (marcatura, markup) non-proprietario finalizzato alla produzione di strumenti di corredo elettronici mediante l’impiego di linguaggi di marcatura (SGML e poi
XML) per agevolare la ricerca all’interno dell’archivio e l’accessio
via web
http://www.loc.gov/ead/
EAD e la struttura degli strumenti di corredo
Descrizionedell’archivio
Descrizione di serie archivistiche
Descrizione di sottoserie archivistiche
Descrizione dell’unità documentaria
LIVELLO ALTO
LIVELLO BASSO
Principi ispiratori di EAD
obiettivo è rendere le risorse archivistiche provenienti da istituzioni diverse accessibili agli utenti del web
nomi di elementi ed attributi definiti in modo tale da favorire lo scambio internazionale di dati – l’interoperabilità
è un formato di struttura, non uno standard per i dati di contenuto
Linee guida e migliori pratiche di EAD
facilitare il reperimento della risorsa attraverso l’interoperabilità
normalizzare la creazione di documenti correttamente codificati in EAD all’interno o tra più istituzioni incoraggiare l’inclusione di specifici elementi sviluppare un insieme di dati essenziali (core data
elements)
Text Encoding Initiative (TEI)
schema per la codifica di testi in fase di creazione di nuovi documenti testuali o per lo scambio di documenti esistenti
basato su XML non richiede l’utilizzo di specifico software consente la rigorosa partizione del testo agevola il trattamento scientifico dei testi
Elementi
rappresentano le caratteristiche del testo ai fini di un suo trattamento elettronico (titolo, indici, ecc.)
marcatori (tags) per indicare la struttura del testo ed altre caratteristiche di interesse (<title>, <index>)
TEI comprende circa 450 elementi un sottoinsieme è TEI Lite che include circa
150 elementi
Struttura TEI
TEI header (intestazione, elemento <teiHeader>) element)
trascrizione del testo (elemento <text>)
<TEI.2> <teiHeader> [ TEI Header information ] </teiHeader> <text>
<front> [ front matter ... ] </front> <body> [ body of text ... ] </body> <back> [ back matter ... ] </back>
</text> </TEI.2>
TEI header
l’elemento teiHeader non fa parte del documento codificato, ma fornisce informazioni sul documento
si comporta come una scheda di catalogo (o il frontespizio) nei confronti di un libro a stampa
fornisce i metadati relativi alla versione elettronica del libro
è obbligatorio per ogni documento TEI
Music Encoding Initiative (MEI)
definito specificamente per testi musicali, partiture, annotazioni del musicista, ecc.
tiene separati I dati dai metadati può ospitare raccolte, parti, varianti struttura simile a TEI ancora in corso di sviluppo http://dl.lib.virginia.edu/bin/dtd/mei/
Synchronised Multimedia Integration Language (SMIL)
pronunzia "smile" utilizzato per presentazioni multimediali integra e sincronizza audio e video con
immagini, testo e altre tipologie documentarie
animazione struttura
controllo dei contenuti gestione tempi e sincronizzazione
struttura di presentazione effetti transizione
collegamenti manipolazione tempi
integrazione di oggetti mediatici
Scelta di uno schema di metadati
tipologie documentarie oggetto della conversione al digitale
finalità del progetto di digitalizzazione – accesso o conservazione
utilizzatore potenziale competenze e capacità del personale del progetto infrastruttura tecnica disponibile presso l’istituzione livello di dettaglio (varia da un’istituzione all’altra)
Condivisione degli standard e collaborazione
partenariato soluzioni comuni condivisione di infrastrutture, specie
tecnologiche condivisione di competenze interoperabilità
Interoperabilità
“occorrerebbe garantire che … i sistemi, le procedure e la cultura di un’organizzazione siano gestiti … in modo tale da massimizzare le opportunità di scambio e di riutilizzazione dell’informazione, sia internamente, sia all’esterno della struttura”
Paul Miller. Interoperability: what is it and why should I want it? «Ariadne» Issue 24
Diversi livelli di interoperabilità
tecnologicasemanticanazionale e internazionale
Livello tecnologico
qual è l’oggetto dello scambio – elementi dei dati
in che modo strutturarli ai fini dello scambio – schemi
in che modo effettuare lo scambio – transazioni e messaggi di protocollo, profili
Livello semantico
utilizzo coerente dei termini di soggetto migliori descrizioni delle risorse reperimento delle risorse più efficace accesso al contenuto intellettuale
“Le biblioteche digitali si occupano sempre meno di libri e sempre più delle idee e dei concetti espressi nei libri”
Ricerca full text e vocabolari controllati
ricerca full text ampia e non specifica termini fuori contesto risultati erronei indicizzazione
automatica Amazoogle
vocabolari controllati definizione dei termini precisione nei risultati soggetti correlati comprensione condivisa
da persone e computer thesauri multilingua
Accesso – ricerca e recupero
termini di un vocabolario controllato thesaurus acronimi archivi di authority
Thesauri
lista di termini interrelati, nell’ambito di uno specifico dominio disciplinare, provvista di collegamenti semantici predefiniti ed eventualmente anche della definizione dei termini Library of Congress Subject Headings MESH The International Thesaurus of Refugee
Terminology
Livello nazionale ed internazionale
scambio universale dei dati raccolta (harvesting) dei metadati cooperazione internazionale gateway informativi (portali, virtual reference
desk)
Requisiti
attitudini – volontà di condividere, partecipare cambiamenti – nuove procedure, nuove
abilità e competenze, nuovi criteri gestionali condivisione degli standard per la codifica dei
dati protocolli per la condivisione dei metadati
Z39.50
protocollo che consente la ricerca e il recupero di record da più archivi elettronici in contemporanea, mediante un’unica interfaccia sul lato utilizzatore
protocollo: un insieme di regole che governa lo scambio di informazioni tra dispositivi e computer diversi
trova ampia applicazione nella ricerca bibliografica all’interno degli opac e dei metaopac
Schema di colloquio tra un opac, un cliente Z e un server Z
Perchè è importante?
consente la ricerca trasversale su più cataloghi di biblioteca
permette all’utilizzatore di servirsi di un’interfaccia di ricerca con la quale ha già familiarità
favorisce il recupero di dati in forma strutturata
rende possibile l’attivazione di applicazioni in forma distribuita
Limiti di Z39.50
mancanza di semantica condivisa differenze tra i servizi esposti dal client e dal server
esempio: il sistema di ricerca locale effettua la ricerca di nomi personali e di enti nel medesimo indice; nel sistema remoto invece la ricerca di un nome di persona viene effettuata soltanto all’interno dell’indice di persone
più versioni rilasciate con caratteristiche differenti non è compreso all’interno dei browser standard e
dei più comuni motori di ricerca
Open Archives Initiative
Open Archives Initiative sviluppa e promuove dispositivi per l’interoperabilità che mirano ad agevolare l’efficacia della disseminazione dei contenuti sul web
i documenti sono depositati in archivi (repository) ai fini di consentire la condivisione dei metadati, la pubblicazione dei contentui e l’archiviazione delle risorse
la descrizione dei documenti avviente mediante Dublin Core non qualificato
http://www.openarchives.org
OAI Protocol for Metadata Harvesting
OAI-PMH Protocol for Metadata Harvesting si basa su uno Schema W3C XML
“L’obiettivo è “l’apertura", favorita attraverso l’esposizione e la raccolta dei metadati attraverso un protocollo http semplice e appositamente definito” NELSON, M. OAI and OAIS: What’s in a name. D-Lib
Magazine, 7(5), May 2001
Linee guida per l’implementazione
Harvesting mediante OAI-PMH
Data Providers (open archives, repositories) forniscono libero accesso ai metadati ed, eventualmente ma non necessariamente, anche ai testi (full text) o ad altre risorse
Service Providers utilizzano le interfacce OAI dei Data Providers per raccogliere e archiviare metadati le sessioni di ricerca non avvengono direttamente sulla
repository del Data Provider i servizi si basano sui dati raccolti mediante harvesting
Funzionamento di OAI-PMH
Carpenter. L. 2003. OA-Forum Tutorial. University of Bath, Bath
Risorsa che non espone metadati descrittivi
Produttore / distributore
utenti
punto di accesso unico
Produttore / distributore
Aggregatoridi metadati
Varie fasce
di utenti
punti di accesso multipliRisorsa che espone metadati descrittivi
sito del produttore
sito del produttore
motori, portali, aggregatori
Data providerrepository
Data providerdatabase
Service providerArchiviazione metadati
Service providerInterfacciadi ricerca standard
OAI-PMH
Z39.50SRU/SRW
harvesting di metadati
ricerca
risultati(compresi metadati)
Data providers
metadati Dublin Core convertiti dinamicamente mediante mappatura da
un altro schema di metadati a DC oppure archiviati direttamente come DC
sono disponibili mappature tra DC, EAD e MARC 21
i dati sono codificati in XML tutti i record vengono contrassegnati da un
elemento cronologico (datestamp)
Service providers
dispongono di dispositivi per l’harvesting software per l’harvesting automatico web robots, cioè programmi che scandiscono lo
spazio web automaticamente (crawlers, spiders) i web robot fanno uso di protocolli HTTP forniscono servizi relativi a tutti i dati raccolti
interfaccia di ricerca sistemi di peer-review
Architettura
gestione dell’archivio selezione delle repository sulle quali effettuare l’harvesting lista delle repository immessa manualmente o facendo uso del
registro ufficiale richieste HTTP ai data providers
uso della sintassi di OAI-PMH harvesting selettivo mediante parametrazione
calendario raccolta periodica e programmata dei metadati
normalizzazione armonizzazione dei diversi formati di metadati in una struttura
omogenea (data, nomi, codici di lingua e paese) mediante mappatura e/o traduzione
Servizi a valore aggiunto
OAI permette l’erogazione di servizi basati sulla raccolta dei metadati, nel quale il valore dei dati può crescere in seguito alla normalizzazione e all’arricchimento dei metadati stessi
esempi di servizi sono ricerche collegamenti per citazionie peer-review
RSS feeds tre diverse denominazioni
Really Simple Syndication: distribuzione mediante condivisione a procedura semplice
Rich Site Summary: indice ricco delle informazioni presenti su un sito web
RDF Site Summary: come il precedente, con riferimento alle sue origini RDF Resource Description Framework
usato nella produzione, distribuzione, fruizione di contenuti da: siti di informazione fornitori di contenuti periodici scientifici quotidiani online weblog CMS (Content Management System), sistemi per la gestione di
contenuto
Definizioni
termini derivati dalla pratica e dal linguaggio dei dispositivi di mediazione tradizionali syndication: distribuzione di contenuti attraverso
appositi canali, rappresentati da feed Atom o RSS feed, file contenente segmenti di contenuti
veicolati all’interno di un canale channel (canale): percorso attraverso il quale
l’informazione viene veicolata o trasmessa
Wikipedia: RSS
Wikipedia definisce RSS uno “standard de facto”, ovvero uno standard che, benché non riconosciuto ufficialmente come ISO è talmente diffuso da essere comunque un elemento di riferimento “Oggi RSS è lo standard de facto per l'esportazione di
contenuti Web. I principali siti di informazione, i quotidiani online, i fornitori di contenuti, i blog più popolari: tutti sembrano aver adottato il formato RSS. Gli utenti possono oggi accedere a migliaia di feed RSS: alcuni siti (directory) raccolgono i riferimenti agli innumerevoli feed RSS disponibili sul Web.”
http://en.wikipedia.org/wiki/RSS_(protocol) http://it.wikipedia.org/wiki/RSS
Dialetti RSS
RSS 0.92: il più vecchio tra gli standard oggi in uso, evoluzione del formato usato originariamente da Netscape
RSS 2.0: rilasciato da UserLand nel 2002, è l'evoluzione del formato 0.92, di cui eredita la semplicità, ma a cui aggiunge il supporto per moduli aggiuntivi
RSS 1.0: è il formato ufficiale del W3C, conforme ad RDF, estensibile e modulare
Dialetti e uso
RSS 2.0 (Really Simple Syndication di Userland) più orientata alle implementazioni XML : servizi di distribuzione di contenuto effimero come notizie o
contenuti provenienti dai blog
RSS 1.0 (del W3C) adotta e implementa il modello di dati RDF Resource Description Framework più focalizzata su un generico strumento di scambio di
metadati strutturati, offre un semplice meccanismo di estensione modulare per accogliere nuovi vocabolari
Come funziona basato su XML: semplice, estensibile, flessibile documenti disponibili su un web server e recuperabili
da qualsiasi aggregatore RSS preferenze stabilite dagli utenti (personalizzazioni) si usa un programma detto news aggregator per leggere un feed RSS basta un lettore
scaricare un software adatto cliccare sull’icona RSS sul sito da cui si vogliono ricevere i
feed copiare l’indirizzo del feed RSS.xml che si apre nell’apposita
finestra del news aggregator http://www.alesti.org/
è possibile dirottare le novità pubblicate su un periodico elettronico verso un palmare
Applicazioni al mondo delle biblioteche
promozione e marketing dei servizi bibliotecari: attività, nuove risorse, eventi, annunci su novità e promozione di nuovi servizi
elenchi di nuove acquisizioni della biblioteca / rete elenchi di novità librarie da siti di librerie virtuali come
Amazon http://www.amazon.com/exec/obidos/subst/xs/syndicate.html/102-
1715106-4224135 Table of Contents (ToC) di periodici (CAS: Current
Awareness Service) miglioramento dei servizi di reference: aggiunta di
nuove risorse su un determinato ambito disciplinare / soggetto
Opportunità
aggiornamento costante in tempo reale, con cadenze personalizzabili e risparmio di tempo
riduzione dello spamming nell’e-mail in quanto i canali vengono attivati in modalità opt-in
recupero di notizie ad intervalli stabiliti da siti di interesse, attraverso l’uso di aggregatori, che evitano di visionare individualmente centinaia di siti
attivazione di forme nuove di marketing e promozione per argomento per settore o per categorie di utenti
Conclusioni
i metadati aggiungono valore ai dati gli standard di codifica determinano la
standardizzazione la standardizzazione facilita l’interoperabilità i protocolli consentono lo scambio dei dati