Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander
Rodrigo TorrénsJosé Alejandro Torres Niño
Luis Nuñez
Noviembre, 2011
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Large Aperture Gamma Ray Burst Observatory
Contenido
• El problema de la ubicación, preservación y uso de colecciones de datos científicas
• Tendencias en la colaboración científica• Herramientas que pueden ayudar a solucionar
algunos de los problemas
Hablaremos sobre:
Large Aperture Gamma Ray Burst Observatory
Partamos de las preguntas básicas:
• Los datos que yo necesito… existen?
• Donde están?
• Como los obtengo?
La mayoria de los científicos se han planteado estas preguntas alguna vez
Los datos producto de una investigación científica
Large Aperture Gamma Ray Burst Observatory
4 axiomas para la ciencia intensiva en datosAcceso
• Global y abierto• Colecciones completas• Reservorios distribuidos (BD, repositorios de datos, datos en “la nube” )• PreservaciónInteracción• Metadata• Servicios web de herramientas• ReutilizaciónFlujo• Procesos• Curaduría• Gerencia y mantenimiento• PublicaciónCompartir• Estándares, XML esquemas, ontologías• Redes sociales• Minería de datos
Claudio Mendoza. http://cevale2.uis.edu.co/~cevale2/wiki/images/Data_intensive_science.pdf
Large Aperture Gamma Ray Burst Observatory
Tenemos que tener capacidades para…
• Manejar volumen de datos generados actualmente
• Preservarlos
• Encontrarlos
• Compartirlos, distribuirlos
• Usarlos, reusarlos
Problemas-retos a los que nos enfrentamos
Large Aperture Gamma Ray Burst Observatory
Ejemplo de degradación normal de los contenidos de información asociados con datos y metadatos a través del tiempo
…Problemas a los que nos enfrentamos
Momento de publicación
Detalles específicos acerca de la recolección de los datos se pierden al pasar el tiempo
Retiro o cambio de carrera del científico recolector
Accidente puede destruir datos y documentación Muerte del investigador y subsecuente perdida
de registros restantes
Co
nte
nid
os
de
Info
rmac
ión
Tiempo (Michener, 1997)
Large Aperture Gamma Ray Burst Observatory
Volumen de datos…
El problema del “diluvio” de datos. La era del Petabyte
www.wired.com
Large Aperture Gamma Ray Burst Observatory
Ante estos retos, tenemos posibilidades y nuevas maneras de…
• Producir datos,
• de compartirlos (publicarlos), y…
• de trabajar colaborativamente
Nuevas formas de colaboración científica
Large Aperture Gamma Ray Burst Observatory
Frecuentemente o cada vez más escuchamos y hablamos de…
• “ciberinfraestructura”
• “e-ciencia”
• “e-investigación”
• “colaboracion ubicua”
• “data-driven Science”
• “computación grid”
• “computación social”
• “acceso abierto al conocimiento”
…refiriendose a nuevas formas de producción y diseminación del conocimiento
Nuevas formas de colaboración científica
Large Aperture Gamma Ray Burst Observatory
e-ciencia• El termino e-ciencia es usado para representar
la creciente colaboración global de personas y uso de recursos compartidos, que serán (son) necesarias para resolver nuevos problemas de la ciencia y la ingeniería
Tony Hey, Anne Trefethen. The Data Deluge: An e-Science Perspectivehttp://www.cct.lsu.edu/~kosar/csc7700/papers/Hey03.pdf
Large Aperture Gamma Ray Burst Observatory
Datos generados por redes nacionales y mundiales de investigación (biología, medicina, física, etc.):
• Datos del LHC generados en el CERN
• Datos generados por las redes mundiales de sensores sísmicos
• Estudios sobre cambios globales (GCMD-NASA)
• Astronomía, los “telescopios virtuales” (Global Internet Telescope)
• Banco de datos de Proteinas (PDB, Protein Data Bank)
• Datos del genoma humano y de otras especies
Ejemplos de colecciones de datos:
Large Aperture Gamma Ray Burst Observatory
A esto se unen las iniciativas por el uso sin
restricciones de la información y datos:
• Iniciativas de Acceso Abierto al Conocimiento (OA, Open Access Initiatives)
• Movimiento Datos Libres (OD, Open Data)
• Repositorios Institucionales y por disciplina (temáticos)
Iniciativas de Acceso Abierto
Large Aperture Gamma Ray Burst Observatory
-Ejemplos:CERN LHC
Necesidad de usar tecnologías de información (TICs)
• Ubicar• Accesar• Recuperar• Compartir
…datos
La mayoría usa LA RED (la Web) para
satisfacer estas necesidades
Para…
Large Aperture Gamma Ray Burst Observatory
Un objetivo importante
Qué debemos hacer para lograr el…
Uso secundario y a largo plazo de colecciones de
datos científicos
Se debe…
Garantizar permanencia de los datos en el tiempo
Poder ubicar y recuperar la información
Large Aperture Gamma Ray Burst Observatory
Herramientas
Herramientas organizativas y tecnológicas que pueden hacer esto posible:
Uso de metadatos y estándares de intercambio de información
Tecnologías de Información y Comunicaciones
Formación de Redes de colaboración entre científicos y entre usuarios de información
Creación y mantenimiento de repositorios de datos
Large Aperture Gamma Ray Burst Observatory
¿Qué significa la palabra “metadatos”?• " Datos sobre los datos " .
• "Nivel superior de la información, o instrucciones que describen el contenido, contexto, calidad, estructura, y accesibilidad de una colección de datos específica" (J.K. Michener 1997).
D
M
D
M1
D
M2
Mc
D
M
a) b) c)
Metadatos como parte de los datos
Metadatos externos al recurso de información
Meta-metadatos (colecciones de metadatos)
Large Aperture Gamma Ray Burst Observatory
¿Para qué “metadatos”?
Preguntas que se deberían poder responder usando metadatos:
•Que datos describe una coleccion de datos científicos?
•Quien produjo la colección?
•Porqué fue creada la colección?
•Como fue creada la colección?
•Que datos componen la colección?
•Cuan confiables son los datos. Que problemas persisten en la colección?
•Como alguien puede obtener una copia de la colección?
•Quien escribio los metadatos?
Large Aperture Gamma Ray Burst Observatory
¿Para qué “metadatos”?• El valor científico y económico de las colecciones de
datos es muy grande• Para asegurar su uso posterior, la comunidad
científica necesita acceso eficiente a estos datos• Los datos tienen que ser confiables y persistentes en
el tiempo• La calidad de los datos debe poder probarse
Large Aperture Gamma Ray Burst Observatory
¿Que hacer?• Tratar a los datos como si fueran una publicación
científica tradicional– Edición– Agregación (documentación con metadatos)– Análisis– Revisión por pares– Publicación
…para que sean útiles a los usuarios finales
Large Aperture Gamma Ray Burst Observatory
Ejemplos de metadatos y de comunidades
que usan metadatos
Muestra datos NBIIhttp://www.nbii.gov/
Documentación de datos geoespaciales (estándar FGDC) http://cndg.clearinghouse.gub.uy
Large Aperture Gamma Ray Burst Observatory
Ejemplos de metadatos y de comunidades
que usan metadatosDocumentación de datos geoespaciales (Interfaz a Clearinghouse FGDC y GCMD Data Documenter)
Large Aperture Gamma Ray Burst Observatory
Algunos de los estándares para metadatos geoespaciales, biológicos, científicos y
ambientales más usados
•FGDC-CSDGM. Content Standard for Digital Geospatial Metadata. Federal
Geographic Data Committe (1994): Datos geoespaciales. [www.fgdc.gov]
•FGDC-NBII. Perfil Biológico de FGDC. Biología y ciencias naturales. [www.nbii.gov].
•Global Change Master Directory Interchange Format – DIF. (1993) Ciencias de la
Tierra. [gcmd.gsfc.nasa.gov]
•Darwin Core (DwC). Colecciones de Historia Natural.
•Descriptores para Metadatos no-geoespaciales. NCEAS-LTER (1997) Datos
ecológicos. Base del estándar EML. [lternet.washington.edu]
•Dublin Core. Estandar general de identificacion de objetos de información en Internet.
[www.dublincore.org]
•CCLRC Scientific metadata model (CSMD). study-data set orientated model
Large Aperture Gamma Ray Burst Observatory
Repositorios• Almacenan y preservan la producción de una
institución o de una disciplina científica. • Contienen información académica y científica. -
Artículos de revista, tesis, congresos, informes, colecciones de datos, etc.
• Compuestos de Metadatos + documentos. • Libre acceso a sus contenidos (open access), es la
tendencia actual.
Large Aperture Gamma Ray Burst Observatory
Repositorios institucionales• Incluyen los contenidos académicos de una
institución (universidad, centro de investigación, etc.).
Ejemplos:• CERN Document Server: http://cdsweb.cern.ch/• Repositorio SABER-ULA: http://www.saber.ula.ve• Dspace@MIT: http://dspace.mit.edu
Large Aperture Gamma Ray Burst Observatory
Repositorios temáticos• Incluyen los contenidos académicos de una disciplina
o ámbito temático.
Ejemplos: – E-LIS (biblioteconomía y documentación), – ArXiv (física), – Cogprints (psicología),– Repec (economía).
Large Aperture Gamma Ray Burst Observatory
Repositorios temáticosLarge Aperture Gamma Ray Burst Observatory
Repositorios de datos• Publican y preservan colecciones de datos• Organizados frecuentemente por disciplinas
científicas como por ejemplo:– HEP, – Genómica– Datos geoespaciales,– Datos biológicos– Datos astronómicos– Datos gubernamentales
Large Aperture Gamma Ray Burst Observatory
Plataforma Dspace• DSpace es una plataforma de software de Código
Abierto que provee herramientas de administración de repositorios para gestionar muchos tipos de contenidos digitales, incluyendo colecciones de datos.
www.dspace.org
Large Aperture Gamma Ray Burst Observatory
¿Donde usan Dspace?
www.dspace.org
Large Aperture Gamma Ray Burst Observatory
Repositorios de datos con Dspace
Large Aperture Gamma Ray Burst Observatory
Dificultades comunes
• Escaso conocimiento de la importancia de la preservación y posibilidades de uso secundario de los datos• Poca disposición de los científicos para compartir los datos.• Poca receptividad o disposición para aportar metadatos que
documenten las colecciones de datos.• Confusiones y reservas que tienen que ver con los derechos de
propiedad, publicación y uso de los datos.• Dificultades (aún) con la conexión a internet (conectividad,
velocidad)• Costos de los instrumentos de captura de datos• No existe la figura de “gerente local de información”, o es muy
costoso tenerlos
Large Aperture Gamma Ray Burst Observatory
El Futuro
• Redes de gestión de conocimientos basadas en datos y metadatos
• Herramientas analíticas "en-línea" con acceso a datos de red de científicos
• Herramientas que facilitan la creación de diferentes formas de metadatos
• Creación de más bancos de datos internacionales o federados perteneciantes a multiples dominios y organizaciones
• Puesta en marcha de la “infraestructura Grid”. Acceso a “Grid de datos” (Datagrids)
• Por último…Comunidades y sociedades del conocimiento
Large Aperture Gamma Ray Burst Observatory
A manera de conclusión para esta parte
• El reto para la infraestructura de investigación actual es facilitar la más amplia diseminación posible de los descubrimientos científicos
• Estas infraestructuras allanaran el camino para la e-ciencia, donde los investigadores serán capaces de producir, gestionar, diseminar y comparar grandes conjuntos de datos, magnificando las posibilidaded de nuevos descubrimientos
Conferencia Berlin 7 http://www.berlin7.org/spip.php?article46
Large Aperture Gamma Ray Burst Observatory
Large Aperture Gamma Ray Burst Observatory
LAGODSpace
Large Aperture Gamma Ray Burst Observatory
LAGODSpace
Large Aperture Gamma Ray Burst Observatory
LAGODSpace
Recolector de datos y Metadatos
SAI
Large Aperture Gamma Ray Burst Observatory
LAGODSpace
Large Aperture Gamma Ray Burst Observatory
LAGOVirtual
Large Aperture Gamma Ray Burst Observatory
LAGOVirtual
Large Aperture Gamma Ray Burst Observatory
Large Aperture Gamma Ray Burst Observatory
• LAGODSpace (metadatos)
Datos que describen Datos ???
¿Donde esta?
Large Aperture Gamma Ray Burst Observatory
LAGODSpace (metadatos)
Large Aperture Gamma Ray Burst Observatory
• USO DE LAGODSpace
Large Aperture Gamma Ray Burst Observatory
RedCLARABeneficios, servicios ofrecidos, etc.
• Financiación ?????????• Servicios Red de Alta Velocidad
• Videoconferencias H.323• Asociaciones• Capacitación• Visibilidad
Necesidad