fondamenti di informaticafondamenti di informatica la ricerca dell’informazione cazzaniga paolo...
TRANSCRIPT
La ricerca dell’informazioneLe biblioteche
L’OPAC
Fondamenti di InformaticaLa ricerca dell’informazione
Cazzaniga Paolo
Dip. di Scienze Umane e [email protected]
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
Outline
1 La ricerca dell’informazione
2 Le biblioteche
3 L’OPAC
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
Outline
1 La ricerca dell’informazione
2 Le biblioteche
3 L’OPAC
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
I documenti
Documenti o risorse informative sono memorizzati su supporti fisici
Prima...tipo analogico
supporto cartaceomicrofiches, slideconsultazione immediata e diretta
...poitipo digitale
documento multimediale leggibile tramite l’uso di calcolatorisupporto locale: CD, DVD, HDsupporto remoto: server webl’accesso remoto richiede autorizzazione
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
Aggiornare i documenti
documenti analogiciproduzione di una nuova versione (edizione)risorse continuative: opere multivolume
documenti digitaliaggiunta e modifica sono di facile e veloce realizzazionerisorse integrative
- Nel web è possibile trovare più versioni dello stesso documento,è quindi necessario identificare la più recente
- Diversi tipi di documenti hanno un diverso ciclo di vita- Quando si cerca un’informazione bisogna sempre valutare il
grado di aggiornamento di un documento.- Le informazioni vanno contestualizzate
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
Information Retrieval
L’utente ha diverse possibilità per cercare informazioni:consultare un esperto (tacit knowledge retrieval)ricerca nel catalogo di una biblioteca o motore di ricerca(information retrieval)consultare direttamente un documento (full text retrieval)consultare un documento pertinente (reference linking)
Grazie alle nuove tecnologie e al web esiste una sovrapposizione trala ricerca di/tra/nei documenti
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
Information Retrieval
E’ un processo iterativo che coinvolge un utente che esegue unarichiesta o query e che si conclude con una risposta o result fornitadal sistema
Le informazioni devono essere indicizzate per essere reperite
Un sistema di Information Retrieval non fornisce direttamenteall’utente l’informazione richiesta ma lo informa sull’esistenza dipossibili fonti di informazione
Il risultato è una selezione (pertinente alla query) fatta tra leinformazioni disponibili (ovvero quelle indicizzate)
I risultati di una query vengono valutati secondo la loro rilevanza equindi ordinati (relevance ranking)
L’information retrieval non è un processo semantico
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La query
Una query è una stringa di testo che specifica le caratteristiche deldocumento che deve essere cercato
Esempio: cercare il libro di Umberto Eco sulla stesura di tesi- usando google- usando google libri- usando la ricerca avanzata di google libri
Attenzione a come viene impostata la ricerca! Ci vuole un certogrado di conoscenza per impostare parametri specifici!
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
I metadati
I metadati sono delle informazioni sull’informazione che nefavoriscono il reperimento
I metadati vengono prodotti da catalogatoridati salienti di un documento trascritti a manol’autore di un articolo è un catalogatore
abstract, keywords
social tagging (catalogazione da parte di utenti)
Grazie ai sistemi di Information Retrieval la catalogazione è stataautomatizzata
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
I metadati
Solitamente il catalogatore indicizza solo alcune parti del documento(paratesto)
I sistemi di indicizzazione automatica analizzano in maniera efficientel’intero testo
rappresentazione a testo pieno (full text indexing)
Un metadato rappresenta una singola informazione. Più metadativengono raggruppati in record per avere una descrizionesufficientemente articolata per permettere il reperimento
Schema di metadati: insieme di elementi di metadato, ovvero coppieetichetta:valore con regole di utilizzo e formati per lo scambio
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
I tipi di metadati
descrittivi (informazioni generali)semantici (contenuto intellettuale)localizzazione (posizione copia fisica o url)
Tra i metadati descrittivi, il più importante è l’identificatoreISBN codice costituito da 13 cifreURL (prima) indirizzo web della risorsaDOI (adesso)
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
I tipi di metadati: ISBN
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
I tipi di metadati: DOI
Digital Object IdentifierIdentifica univocamente gli oggetti digitali pubblicati in InternetRisolve il problema della non persistenza degli URL
Esempio: doi:10.1016/j.biotechadv.2011.06.014
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
I tipi di metadati
Metadati di legamerelazioni tra documenti diversi, versioni o parti logichesolitamente il tipo di relazione viene specificato in sottocategoriedi questo metadato
Metadati specialisticiutile per la precisione dei risultati di ricercapenalizza le ricerche effettuate contemporaneamente su piùsistemi di Information Retrieval
Il problema dell’interoperabilità dei metadati può rivelarsi secondodifferenti aspetti:
sintassisemanticauso di etichette differenti
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
I tipi di metadati
Metadati gestionali e strutturaliconservazione e gestione delle risorsedescrizione interna del documento per una correttavisualizzazione di risorse composte da più file
Metadati per la gestione dei dirittidiritti d’uso delle risorseinformano l’utente in che misura i contenuti possono essereduplicati e diffusi
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
I tipi di metadati
I metadati vengono memorizzati nel documento digitale stesso
I classici formati HTML, XML, TEI, TIFF, MP3, ecc. hanno dei tagappositi che vengono messi nell’header del file
I metadati non vengono visualizzati ma possono essere raccolti daiweb crawler per indicizzare le risorse
In realtà i motori di ricerca generalisti non raccolgono i metadati acausa del fenomeno di spamming
gli autori delle risorse web ripetono centinaia di volte le keywordper influenzare il ranking dei motori di ricerca
Solo i motori specialistici raccolgono metadati di tipologie specifichedi documenti
articoli scientifici
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
Outline
1 La ricerca dell’informazione
2 Le biblioteche
3 L’OPAC
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
Le biblioteche
La biblioteca rende libero l’accesso alle informazioni, l’interazione trautenti e risorse viene gestita secondo le seguenti funzioni:
selezione e acquisizione dei documentilocazione nella collezionesegnalazione agli utenti (tramite cataloghi)ricerca e accesso vengono facilitatigestione della circolazione delle risorse (prestito o download)conservazione delle risorse (riordino e pulizia)rimozione al termine del ciclo di vita
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
Le biblioteche
Con l’avvento del web:le biblioteche hanno cominciato a raccogliere anche formatidigitali di documenti
ebooksejournalbanche dati
consentono l’accesso anche a risorse esterne freeanche l’utente è cambiato perchè è consapevole della presenzadi sistemi di Information Retrieval
assenza di mediazione da parte di operatori specializzatiimmediatezza dell’accesso e del reperimento
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
Le biblioteche
Quali sistemi di Information Retrieval sono presenti nelle biblioteche?indici o elenchi ordinati
disposizione fisica dei documentiindici di registrazioni bibliografichecataloghi
biblioteche a scaffale apertoordinamento per argomentocodici alfanumericicodice Dewey (001.302 85 INF UMA)
Il browsing a scaffale ha alcuni vantaggipermette di accedere a documenti che trattano simili argomentipermette di valutare altre caratteristiche delle risorse (usura,ecc.)
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
Le biblioteche
Ci sono diversi problemi legati all’accesso alle risorse a scaffaleaperto (e non)
un documento manca perchè non presente nella collezione operchè in prestito?qual è il criterio di ordinamento?qual è il codice di un particolare argomento?
Per ovviare a questi problemi ogni biblioteca dispone di cataloghi incui ogni risorsa viene rappresentata con una scheda catalografica
intestazione o punto di accesso (criterio di ordinamento)indicazione della collocazione fisicadescrizione (serie di metadati aggiuntivi)alcuni metadati possono diventare intestazioni per schedesecondarie
La descrizione è fondamentale per l’information retrieval
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
Le biblioteche
Esistono due tipi principali di catalogazioneper autore/titolo (ordinamento alfabetico)per soggetto (stringhe di testo che identificano l’argomento)
Come il browsing a scaffale anche questi cataloghi vengonoconsultati per scorrimento e hanno diversi problemi
l’utente potrebbe non conoscere i metadati usati perl’intestazionetipi di documenti diversi in cataloghi diversi
Per questi motivi si è passati all’OPAC (Online Public AccessCatalogue), database di accesso pubblico consultabili dagli utentianche all’esterno delle biblioteche
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La catalogazione bibliotecaria
Si basa su principi concordati a livello internazionalefunzioni di catalogocreazione di record bibliografici
Anche i metadati sono regolamentati a livello internazionalemetadati semantici testualimetadati semantici codificati (classificazione decimale Dewey)
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La catalogazione bibliotecaria
La catalogazione deve servire l’interesse dell’utente, le descrizionidevono:
essere accurate ma non ridondanti
utilizzare il più possibile il lessico di uso comune
applicarsi in modo uniforme a tutti i tipi di risorsa
essere sostenibili (economici e semplici)
Il catalogo OPAC deve quindi consentire all’utente:trovare uno o più documenti attraverso una ricerca (condotta sugliattributi)
identificare un documento (tra un elenco di documenti simili)
selezionare i documenti più adatti e appropriati
ottenere il documento (prestito, visualizzazione via web, download, ecc.)
navigare nel catalogo (utilizzando le relazioni tra documenti)
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La catalogazione bibliotecaria
Il catalogatore deve collezionare tutte le informazioni, sotto forma dimetadati, necessarie ad una corretta catalogazione del documento eper permettere la ricerca del documento stesso.
Esempio:OPAC: http://servizibibliotecari.unibg.it/
Le catalogazioni tramite OPAC vengono registrate in formato MARC
Il formato MARC permette lo scambio di informazioni tra sistemibibliotecari, ma non via web
Per questo motivo è stata proposta una versione XML di MARC
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La catalogazione bibliotecaria
Il catalogatore deve specificare i punti di accesso dei recordbibliografici
scegliere i termini indicizzati che possono essere usati perreperire il recordspecificare i punti di accesso indispensabili (titolo, autore,soggetto, anno)specificare i punti di accesso aggiuntivi (paese, lingua, ecc.)
Alcuni punti di accesso indispensabili possono non essere univoci(titolo, autore)
E’ necessario raggruppare le forme varianti per permettere all’utentedi reperire tutti i documenti
E’ necessario disambiguare le situazione di omonimia
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La catalogazione bibliotecaria
Il catalogatore specifica il controllo di autoritàcreazione di una registrazione di autoritàraggruppamento delle varianti in punti di accesso autorizzatospecifica di rinvii, legami alla forma autorizzataspecifica informazioni aggiuntive in caso di omonimia
Esempi:
Lista: Autori
Ronald James Padavona - [Record di Authority]
Vedi: Ronnie James Dio
Forma Autorizzata Ronnie James DioForma Variante Ronald James PadavonaForma Variante Ronnie James Padovani
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La catalogazione bibliotecaria
I record di autorità sono memorizzati in un authority file esternoal catalogoHanno una struttura standard espressa in formatoMARC/AuthorityOgni biblioteca possiede un proprio authority file
Si sta cercando di definire un controllo di autorità internazionale deinomi
Il VIAF crea registrazioni di autorità “rafforzate” che combinano leinformazioni prese dai record di autorità di diversi pasei
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La catalogazione bibliotecaria
Il catalogo permette di navigare tra documenti correlati tra lorovengono definite delle relazioni a prioriraggruppamento dei documenti in base a esigenze informativei metadati usati per definire queste relazioni sono detti di legame
In generale un documento consiste di:componente astratta
opera (contenuto intellettuale)espressione (il modo: testo, immagini, ecc.)
componente fisicamanifestazione (supporto fisico)esemplare (l’oggetto particolare)
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La catalogazione bibliotecaria
Possiamo quindi avere diversi tipi di relazionedi equivalenza (cambia il supporto)derivativa (cambia l’espressione: traduzioni, revisioni, ecc.)descrittiva (cambia il contenuto intellettuale: critica, commenti,ecc.)sequenziale (es. il sequel di un film)di accompagnamento (es. supplemento di una rivista)
Le relazioni vengono specificate nei record catalografici, con deicampi di legame attivabili come link verso il documento correlato
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La catalogazione semantica
Per esigenze informative riguardanti un determinato soggetto(semantica del documento)
si cercano i metadati portatori di semantica (es. titolo)questi rappresentano il punto di accesso semantico aldocumentospesso titolo o sottotitolo non sono sufficientisi usano quindi due metadati specifici: soggetto e classificazionela soggettazione consiste nella creazione di stringhe strutturate osoggetti
Il processo di soggettazione è standardizzato, il catalogatore procedecon l’analisi concettuale o la ricostruzione dell’argomento
Genera quindi la stringa di soggetto basata su criteri logico-linguistici
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La catalogazione semantica
Soggettazione, esempio: I rag@zzi del web: i preadolescenti einternet: una ricerca
Oggetto: InternetInternet – Diffusione
Internet – Diffusione – AdolescenzaInternet – Diffusione – Adolescenza – Inchieste
Le ricerche vengono fatte tramite la post-coordinazione: i motoriindicizzano i singoli termini e l’utente li ordina quando costruisce laquery
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La catalogazione semantica
Come viene creato il linguaggio di indicizzazione usato dalcatalogatore?
linguaggi di indicizzazione non controllati: derivano i termini daldocumento stesso (keywords)linguaggi di indicizzazione controllati: assegnano ai concetti deitermini appositamente scelti (i descrittori)il vocabolario controllato è una lista di descrittori (enon-descrittori)il thesaurus è un vocabolario controllato che indica anche lerelazioni tra descrittori
relazione gerarchica: descrittori dello stesso ambito ma con diversilivelli di specificitàrelazione associativa: descrittori con concetti coordinati
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La catalogazione semantica
I documenti possono anche essere classificati secondo uno schemadi classificazione bibliografica
la più usata è la classificazione decimale Dewey (CDD)prevede uno schema enumerativo con 10 aree principali o classirispetto alla soggettazione, l’argomento è rappresentato da uncodice di classificazionevengono usate 3 cifre: una per le classi, una per le suddivisionidi classe, una per le sezioni delle suddivisioniè possibile aggiungere altre cifre per specificare megliol’argomento
600 Scienze applicate610 Medicina616 Malattie616.1 Specifiche malattie616.12 Malattie del cuore
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La catalogazione semantica
I problemi della classificazione CDDdislocazione: quando vengono prodotte nuove versioni e alcuniargomenti cambiano numeroricollocazione: nuove edizioni prevedono la ricollocazione didocumenti sugli scaffaliè difficile assegnare un numero a documenti che trattanoargomenti multidisciplinari
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
Outline
1 La ricerca dell’informazione
2 Le biblioteche
3 L’OPAC
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La ricerca nell’OPAC
Il navigatore DeweyI tipi di materialeLe liste di browsing (autore, titolo, soggetto)
navigazione interna tra i record
La ricerca di basei filtri
La ricerca avanzatagli operatori booleanigli operatori di prossimitàgli operatori di troncamento e mascheramento
Le risorse elettroniche remote sono ancora in fase diintegrazione
gli standard usati nelle biblioteche sono poco adatti
Attenzione! Il modello booleano prevede l’esclusione dei risultatiparzialmente corretti
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La ricerca nell’OPAC
Per ottenere più risultati vengono quindi rilassati i termini della query
si ottiene una lista di risultati difficilmente consultabilealcuni OPAC permettono di
ordinare i risultati (anche per rilevanza o popolarità)raffinare i risultaticlusterizzare i risultatidare più peso a documenti con particolari parole chiave
ricerche usando operatori fuzzymisurano il grado di prossimità dei risultati ai termini della ricerca
salvare il set di risultati e lo storico delle ricerche
Esempio: NCSU Libraries
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
La ricerca nell’OPAC
Nei risultati dell’OPAC è possibile trovare collegamenti ipertestuali arisorse esterne
spesso le risorse elettroniche remote non sono catalogate ma sitrovano in altri punti del sito webdiverse risorse hanno diversi gradi di accessibilità
credenziali di accessoip range
risorse online della biblioteca UniBgil vantaggio delle risorse remote è che permettono di ottenere piùinformazioni rispetto a quelle del catalogolo svantaggio è che si rischia di decontestualizzare la risorsascostandosi dall’obiettivo principale della ricerca
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
Oltre l’OPAC
motori specialisticiGoogle LibriGoogle Scholar
banche dati bibliografiche (a pagamento)servizi di abstracting (ERIC – Education Resources InformationCenter)indici citazionali – impact factor (Arts and Umanitaria CitationIndex)
le directory (liste di link compilate da persone)The WWW Virtual LibraryBULB LINK
social cataloguing (metadati di giudizio)LibraryThingConnotea
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
L’accesso alle risorse
In fase di accesso ad alcuni documenti, l’utente si trova di fronte adiversi tipi di barriera
economica (abbonamento)legale (copyright)tecnica (software a pagamento)
Molto spesso i documenti vengono pubblicati senza scopo di lucro daparte dell’autore, ma l’editore richiede il pagamento per accedere allarisorsa
Recentemente sono nati archivi ad accesso aperto e con documentiprotetti da licenze Creative Commons
Dott. Cazzaniga Paolo Fondamenti di Informatica
La ricerca dell’informazioneLe biblioteche
L’OPAC
L’accesso alle risorse
Gli archivi aperti prevedono la catalogazione da parte degli autoristessi
archivi istituzionaliAisberg (UniBg)BOA (UniMiB)
archivi disciplinariArXivPubMed Central
Esistono anche riviste scientifiche Open Accessi contenuti sono pubblicati solo in formato elettronicosono gli autori che pagano per pubblicare. Perchè? Qual è ilvantaggio?
Dott. Cazzaniga Paolo Fondamenti di Informatica