dati della ricerca e bibliotecari
TRANSCRIPT
Paola Gargiulo [email protected]
Presentazione al Ciclo di Conferenze «Biblioteche,Libri e Documenti :dallaInformazione alla conoscenza2012-2013 SezioneScienze del Libro edel Documento del Dipt di Scienze DocumentarieLinguisitico-filologiche eGeografiche- Univ .La Sapienza - Roma
19 aprile 2013
Assistiamo alla produzione in costante crescita di dati della ricerca in formato digitale in moltissime discipline, non solo nelle scienze (astronomia, fisica, climatologia, vulcanologia, medicina, chimica, matematica ecc) ma anche nelle scienze sociali e umane (statistica, economia, psicologia, archeologia, storia dell’arte ecc.)
La ricerca diventa, pertanto, sempre più data-intensive
La ricerca utilizza pertanto sempre di più tecnologie avanzate di comunicazione, di informazione e di calcolo, incrementando le forme di collaborazione tra ricercatori facilitate dalla costituzione di network di macchine sempre più potenti e performanti
Parliamo di E-Research/eResearch e di E-Science/eScience e anche di Science 2.0
Che cosa si intende per eResearch• Collaborazione tra ricercatori che avviene tramite
la rete indipendentemente dalla distanza tramite l’uso• risorse di calcolo/computer distribuite per la produzione,
elaborazione dati condivisi• strumenti di collaborazione via web dai sw di social bookmarking
per condividere bibliografie, report, testi completi, immagini alle video-conference e qualsiasi altra tecnologia di condivisione
• Gestione dei dati e condivisione/Data management and sharing• Facilitare l’archiviazione (storage) e la catalogazione di
dati della ricerca (data sets) al fine di permettere ai ricercatori di continuare ad accedere a questi dati (conservazione a lungo termine) e poterli riutilizzare
• High Performing Computing• sistemi di calcolo molto potenti e performanti
distribuiti in rete che grazie alla loro potenza e alla memoria sono in grado di analizzare grandi quantità di dati (large data sets) di creare modelli di sistemi complessi, di ricercare enormi database e di trovare soluzioni a grossi problemi (in ambiti di applicazione: modelli per i cambiamenti climatici, allo studio dei social network, ecc)
• Visualizzazione • Tecnologie che permettono di visualizzare i
dati in modo da comprendere data set complessi e concetti astratti
• E-Science is about global collaboration in key areas of science,and the next generatiion of infrastructure that will enable it• John Taylor- Director General Research Councils- Office
of Science and Technology (2000)
• La scienza basata su sistemi di calcolo molto potenti e performanti distribuiti in rete che grazie alla loro potenza e alla memoria sono in grado di analizzare grandi quantità di dati (large data sets)
• L’infrastruttura che sostiene questi sistemi di calcolo è condivisa tra scienziati delle varie discipline nel mondo, nessun scienziato, nessun gruppo, nessuna istituzione sarebbe in grado di mantenere/gestire una tale infrastruttura
• Esempi di E-Science :• Large Hadron Collider (CERN);• European Grid infrastructure
• si intendono i dati raccolti, osservati, o creati per essere analizzati e produrre i risultati originali di una ricerca
• questi dati, che vengono generati per scopi diversi e attraverso procedure diverse sono divisi in categorie:• Dati risultati da osservazioni (dati catturati in tempo
reale,non riproducibili, per es. dati dei sensori, di indagini, immagine neurologiche ecc)
• Dati sperimentali (dati di laboratorio, riproducibili ma costosi , per es. le sequenze dei geni, ecc)
• Dati generati da simulazioni (per es. modelli climatici, modelli economici)
• Dati derivati o compilati (dati riproducibili ma costosi, per es. i test e i dati estratti/text and data mining, modelli 3D
• Dati di riferimento o dati di canone (statici e organici) per es. le banche dati di sequenze di geni, le strutture chimiche, i portali con dati spaziali
MA NON SOLO
I documenti in word o i fogli excel Appunti di laboratorio, diari Questionari, le trascrizioni, Le registrazioni audio e video Fotografie e i film Le risposte ai test Le presentazioni in ppt, artifatti, Collezioni di oggetti digitali acquisiti e
generati durante un processo di ricerca I file di programmi (data files)
Database che contengono video, audio, testi, immagini
Modelli, algoritmi, programmi sw
File di log per l’analisi di sw, sw per la simulazione, schemi
Metodologie e flussi di lavoro
Procedure operative standard e protocolli
Database che contengono video, audio, testi, immagini
Modelli, algoritmi, programmi sw
File di log per l’analisi di sw, sw per la simulazione, schemi
Metodologie e flussi di lavoro
Procedure operative standard e protocolli
I dati raccolti durante la vita di un progetto /Research Records
i file elettronici di un progetto il bando del progetto I rapporti tecnici I rapporti sulla ricerca
Dati strutturati• Matrici di dati• Dati transazionali
Grafi • Web e Social network • Strutture molecolari
Dati Ordinati • Dati spaziali • Serie storiche • Sequenze • Sequenze genetiche
Dati non strutturati• Documenti testuali• Immagini• Audio e Video
Cortesy: Roberta Turra – [email protected]
I dati quando vengono processati, organizzati, strutturati o presentati in un contesto che li renda utili diventano informazione
I metadati sono dati strutturati sui dati per renderne possibile la consultazione, il discovery, il ri-uso, la conservazione a medio e lungo termine, ecc
• La selezione
• La gestione
• L ’integrità, la sicurezza
• Descrizione/metadatazione • I formati
• L’archiviazione/storage
• L’accesso ai dati
• La condivisione, il riuso,
• La ridistribuzione
• La conservazione a medio lungo termine/preservation
• Problematiche connesse con la conservazione a lungo termine dei dati
• Definizione del periodo della durata dei dati
• Migrazione dei dati nei formati più adatti
• Migrazioni dei dati sui supporti più adatti
• Creazione di metadati per la conservazione e documentazione
• La conservazione dei dati
Oggi si sta affermando sempre di più una nuova figura professionale in UK,negli USA, nei paesi del Nord Europa chiamata il liaison librarian
Si tratta di un bibliotecario che lavora a stretto contatto con i ricercatori e i gruppi di ricerca di un’università o di un ente di ricerca
e che svolge delle attività attinenti al loro lavoro e ai loro bisogni
Fornire suggerimenti su fonti di finanziamento per i progetti
Fornire un servizio di aggiornamento di notizie di interesse al ricercatore e/o gruppo di ricerca /literature reviews or current awareness alerts
Fornire assistenza durante i processi di valutazione dei ricercatori/ su aspetti bibliometrici, misura dell’impatto
Consulenza sul diritto d’autore
Addestramento nell’uso dei sw per la creazione di bibliografie (bibliographic software per es. ReferenceWork, Zotero, Mendeley etc
Promozione della disseminazione dei risultati della ricerca (pubblicazioni e anche i dati della ricerca) attraverso le strategie dell’Accesso Aperto: 1. auto-archiviazione degli articoli e dei dati della ricerca nell’archivio istituzionale o archivi disciplinari o archivi dati aperti 2. pubblicazione degli articoli in riviste ad Accesso Aperto, deposito dei dati della ricerca in archivi di dati aperti
Aumentare la consapevolezza dei ricercatori sulle problematiche connesse alla gestione dei dati della ricerca
Assistere i ricercatori nella elaborazione del piano di gestione dei dati Data Management Plan che oggi viene richiesto in diversi paesi dagli enti finanziatori della ricerca Il piano deve documentare in modo articolato come i dati della ricerca saranno descritti,
archiviati, condivisi, resi accessibili, ri-utilizzabili durante la durata del progetto e successivamente
Consigliare la scelta dei formati da adottare Consigliare sugli aspetti relativi alla proprietà intellettuale, all’accesso aperto
dei dati, al riuso de dati Fornire supporto per la citazione dei dati e per l’uso di identificatori persistenti Fornire consulenza su aspetti etici e di privacy Fornire informazioni sugli aspetti relativi all’archiviazione/storage e alla
sicurezza dei dati / back-up Offrire consulenza sugli aspetti relativi alla conservazione a lungo tempo Occuparsi della metadatazione dei dati in collaborazione con l’esperto/a di
dominio/data scientist Occuparsi della gestione del repository/catalogo dei dati o suggerire soluzioni
in cloud computing
Fonte: DDI Structural Reform Group. “DDI Version 3.0 Conceptual Model." DDI Alliance. 2004.
Fonte: Boston Universities Libraries – Research Data Management – Data Life Cycle
http://www.libereurope.eu/news/ten-recommendations-for-libraries-to-get-started-with-research-data-management
1. Offrire assistenza nella gestione dei dati
2. Contribuire allo sviluppo dei metadati e standard dei dati e fornire servizi di metadatazione
3. Creare le figure professionali dei data librarian
4. Partecipare attivamente nelle creazione di policy sui dati della ricerca delle istituzioni
5. Collaborare con i ricercatori e gruppi di ricerca per la creazione di infrastruttrure interoperabili per l’accesso ai dati e alla condivisione dei dati
6. Sostenere il ciclo di vita dei dati fornendo servizi di archiviazione, discovery e accesso permanente
7. Promuovere l’utilizzo di identificatori persistenti per l’accesso permanente ai dati
8. Fornire un catalogo dei dati9. Familiarità con la gestione di dati
nelle varie discipline10.Offrire o mediare l’archiviazione
sicura in collaborazione con le strutture IT o con servizi di cloud-computing
2012
http://www.jisc.ac.uk/media/documents/programmes/digitalrepositories/dataskillscareersfinalreport.pdf
• Sono diverse le università al mondo che stanno organizzando all’interno del sistema bibliotecario un servizio a supporto della gestione dei dati della ricerca
Ne portiamo 3 esempi
Università della California, San DiegoUniversità di MinnesotaUniversità di Cambridge, (UK)
http://libraries.ucsd.edu/services/data-curation/
https://www.lib.umn.edu/datamanagement
http://www.lib.cam.ac.uk/dataman/
OpenAIRE e OpenAIRE plus un portale per
l’accesso ai risultatie ai dati dellaricerca finanziatanel 7° ProgrammaQuadro
questionari/follow up
http://www.openaire.eu/it
EUDAT: progetto collaborativo europeo per un’infrastruttura comune per i dati
evitare un nuovodigital divide:l’Europa deveprocedere allostesso passo
http://www.eudat.eu/
smartData: progetto finanziato dal CINECA per gestire le nuove problematiche “BigData” ed HPC fornendo, accanto all'infrastruttura per la
produzione, l'archiviazione e la fruizione dei dati, un servizio di analisi avanzata sui dati prodotti dagli utenti che ne favorisce il riuso anche da parte di altre comunità scientifiche
MAPPA - Metodologia Applicate alla Predittività del Potenziale Archeologico
•Il primo open digital archaeological archive italiano, che rende accessibili tutti i dati pubblici delle indagini archeologiche
•Uso di sistemi e procedure standardizzate per la redazione e la gestione dei dati archeologici
http://mappaproject.arch.unipi.it/
DATACite, progettocollaborativo per ladescrizione standarddei datasets e la lorocitabilità via DOI
Per l’Italia: CRUI altri riferimenti
tecnici: CODATA, http://www.codata.org/ Open Data Commons,
http://opendatacommons.org/
http://www.datacite.org/
http://www.datacite.org/repolist
http://wiki.openarchives.it/index.php/Bibliografia_e_sitografia_sugli_open_research_data
Per approfondimenti sui temi della Digital Curation in italiano
Laura Testoni . Digital curation e content curation: due risposte alla complessità dell'infosfera digitale che ci circonda, due sfide per i bibliotecari, Bibliotime,,v. 16 numero 1 (Marzo 2013)http://www.aib.it/aib/sezioni/emr/bibtime/num-xvi-1/testoni.htm