repositorios de datos para comunidades científicas

35
1 Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Parte 1 Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Rodrigo Torréns José Alejandro Torres Niño Luis Nuñez Noviembre, 2011 Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Upload: rodrigo-torrens

Post on 30-Jun-2015

530 views

Category:

Documents


1 download

DESCRIPTION

Uso de repositorios para preservación y difusión de datos recolectados por comunidades científicas. Se incluye: El problema de la ubicación, preservación y uso de colecciones de datos científicas Tendencias en la colaboración científica Herramientas que pueden ayudar a solucionar algunos de los problemas

TRANSCRIPT

Page 1: Repositorios de Datos para comunidades científicas

1

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Repositorios de Datos para comunidades científicas.

Caso Comunidad LAGO Parte 1

Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander

Rodrigo TorrénsJosé Alejandro Torres Niño

Luis Nuñez

Noviembre, 2011

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Page 2: Repositorios de Datos para comunidades científicas

2

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Contenido

• El problema de la ubicación, preservación y uso de colecciones de datos científicas

• Tendencias en la colaboración científica• Herramientas que pueden ayudar a

solucionar algunos de los problemas

Hablaremos sobre:

Page 3: Repositorios de Datos para comunidades científicas

3

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Partamos de las preguntas básicas:

• Los datos que yo necesito… existen?

• Donde están?

• Como los obtengo?

La mayoria de los científicos se han planteado estas preguntas alguna vez

Los datos producto de una investigación científica

Page 4: Repositorios de Datos para comunidades científicas

4

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

4 axiomas para la ciencia intensiva en datos

Acceso• Global y abierto• Colecciones completas• Reservorios distribuidos (BD,

repositorios de datos, datos en “la nube” )

• PreservaciónInteracción• Metadata• Servicios web de herramientas• Reutilización

Flujo• Procesos• Curaduría• Gerencia y mantenimiento• Publicación

Compartir• Estándares, XML

esquemas, ontologías• Redes sociales• Minería de datos

Claudio Mendoza. http://cevale2.uis.edu.co/~cevale2/wiki/images/Data_intensive_science.pdf

Page 5: Repositorios de Datos para comunidades científicas

5

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Tenemos que tener capacidades para…

• Manejar volumen de datos generados actualmente

• Preservarlos

• Encontrarlos

• Compartirlos, distribuirlos

• Usarlos, reusarlos

Problemas-retos a los que nos enfrentamos

Page 6: Repositorios de Datos para comunidades científicas

6

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Ejemplo de degradación normal de los contenidos de información asociados con datos y metadatos a través del tiempo

…Problemas a los que nos enfrentamos

Momento de publicación

Detalles específicos acerca de la recolección de los datos se pierden al pasar el tiempo

Retiro o cambio de carrera del científico recolector

Accidente puede destruir datos y documentación Muerte del investigador y subsecuente perdida

de registros restantes

Co

nte

nid

os

de

Info

rmac

ión

Tiempo (Michener, 1997)

Page 7: Repositorios de Datos para comunidades científicas

7

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Volumen de datos…

El problema del “diluvio” de datos. La era del Petabyte

www.wired.com

Page 8: Repositorios de Datos para comunidades científicas

8

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Ante estos retos, tenemos posibilidades y nuevas maneras de…

• Producir datos,

• de compartirlos (publicarlos), y…

• de trabajar colaborativamente

Nuevas formas de colaboración científica

Page 9: Repositorios de Datos para comunidades científicas

9

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Frecuentemente o cada vez más escuchamos y hablamos de…

• “ciberinfraestructura” • “e-ciencia” • “e-investigación” • “colaboracion ubicua” • “data-driven Science” • “computación grid”• “computación social”

• “acceso abierto al conocimiento”…refiriendose a nuevas formas de producción y diseminación del conocimiento

Nuevas formas de colaboración científica

Page 10: Repositorios de Datos para comunidades científicas

10

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

e-ciencia

• El termino e-ciencia es usado para representar la creciente colaboración global de personas y uso de recursos compartidos, que serán (son) necesarias para resolver nuevos problemas de la ciencia y la ingeniería

Tony Hey, Anne Trefethen. The Data Deluge: An e-Science Perspective

http://www.cct.lsu.edu/~kosar/csc7700/papers/Hey03.pdf

Page 11: Repositorios de Datos para comunidades científicas

11

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Datos generados por redes nacionales y mundiales de investigación (biología, medicina, física, etc.):

• Datos del LHC generados en el CERN

• Datos generados por las redes mundiales de sensores

sísmicos

• Estudios sobre cambios globales (GCMD-NASA)

• Astronomía, los “telescopios virtuales” (Global Internet

Telescope)

• Banco de datos de Proteinas (PDB, Protein Data Bank)

• Datos del genoma humano y de otras especies

Ejemplos de colecciones de datos:

Page 12: Repositorios de Datos para comunidades científicas

12

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

A esto se unen las iniciativas por el uso sin

restricciones de la información y datos:

• Iniciativas de Acceso Abierto al Conocimiento (OA, Open Access Initiatives)

• Movimiento Datos Libres (OD, Open Data)

• Repositorios Institucionales y por disciplina (temáticos)

Iniciativas de Acceso Abierto

Page 13: Repositorios de Datos para comunidades científicas

13

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

-Ejemplos: CERN LHC

Page 14: Repositorios de Datos para comunidades científicas

14

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Necesidad de usar tecnologías de información (TICs)

• Ubicar• Accesar• Recuperar• Compartir

…datos

La mayoría usa LA RED (la Web) para

satisfacer estas necesidades

Para…

Page 15: Repositorios de Datos para comunidades científicas

15

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Un objetivo importante

Qué debemos hacer para lograr el…

Uso secundario y a largo plazo de colecciones de

datos científicos

Se debe…

Garantizar permanencia de los datos en el tiempo

Poder ubicar y recuperar la información

Page 16: Repositorios de Datos para comunidades científicas

16

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Herramientas

Herramientas organizativas y tecnológicas que pueden hacer esto posible:

Uso de metadatos y estándares de intercambio de información

Tecnologías de Información y Comunicaciones

Formación de Redes de colaboración entre científicos y entre usuarios de información

Creación y mantenimiento de repositorios de datos

Page 17: Repositorios de Datos para comunidades científicas

17

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

¿Qué significa la palabra “metadatos”?

• " Datos sobre los datos " .

• "Nivel superior de la información, o instrucciones que describen el contenido, contexto, calidad, estructura, y accesibilidad de una colección de datos específica" (J.K. Michener 1997).

D

M

D

M1

D

M2

Mc

D

M

a) b) c)

Metadatos como parte de los datos

Metadatos externos al recurso de información

Meta-metadatos (colecciones de metadatos)

Page 18: Repositorios de Datos para comunidades científicas

18

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

¿Para qué “metadatos”?Preguntas que se deberían poder responder usando metadatos:

•Qué datos describe una coleccion de datos científicos?

•Quién produjo la colección?

•Porqué fue creada la colección?

•Cómo fue creada la colección?

•Qué datos componen la colección?

•Cuan confiables son los datos. Que problemas persisten en la colección?

•Cómo alguien puede obtener una copia de la colección?

•Quién escribio los metadatos?

Page 19: Repositorios de Datos para comunidades científicas

19

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

¿Para qué “metadatos”?

• El valor científico y económico de las colecciones de datos es muy grande

• Para asegurar su uso posterior, la comunidad científica necesita acceso eficiente a estos datos

• Los datos tienen que ser confiables y persistentes en el tiempo

• La calidad de los datos debe poder probarse

Page 20: Repositorios de Datos para comunidades científicas

20

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

¿Que hacer?

• Tratar a los datos como si fueran una publicación científica tradicional– Edición– Agregación (documentación con metadatos)– Análisis– Revisión por pares– Publicación

…para que sean útiles a los usuarios finales

Page 21: Repositorios de Datos para comunidades científicas

21

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Ejemplos de metadatos y de comunidades

que usan metadatos

Muestra datos NBIIhttp://www.nbii.gov/

Documentación de datos geoespaciales (estándar FGDC) http://cndg.clearinghouse.gub.uy

Page 22: Repositorios de Datos para comunidades científicas

22

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Ejemplos de metadatos y de comunidades

que usan metadatosDocumentación de datos geoespaciales (Interfaz a Clearinghouse FGDC, GCMD Data Documenter, Data.gov)

Page 23: Repositorios de Datos para comunidades científicas

23

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Algunos de los estándares para metadatos geoespaciales, biológicos, científicos y

ambientales más usados 

•FGDC-CSDGM. Content Standard for Digital Geospatial Metadata. Federal

Geographic Data Committe (1994): Datos geoespaciales. [www.fgdc.gov]

•FGDC-NBII. Perfil Biológico de FGDC. Biología y ciencias naturales. [www.nbii.gov].

•Global Change Master Directory Interchange Format – DIF. (1993) Ciencias de la

Tierra. [gcmd.gsfc.nasa.gov]

•Darwin Core (DwC). Colecciones de Historia Natural.

•Descriptores para Metadatos no-geoespaciales. NCEAS-LTER (1997) Datos

ecológicos. Base del estándar EML. [lternet.washington.edu]

•Dublin Core. Estandar general de identificacion de objetos de información en Internet.

[www.dublincore.org]

•CCLRC Scientific metadata model (CSMD). study-data set orientated model

Page 24: Repositorios de Datos para comunidades científicas

24

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Repositorios

• Almacenan y preservan la producción de una institución o de una disciplina científica.

• Contienen información académica y científica. - Artículos de revista, tesis, congresos, informes, colecciones de datos, etc.

• Compuestos de Metadatos + documentos. • Libre acceso a sus contenidos (open access), es

la tendencia actual.

Page 25: Repositorios de Datos para comunidades científicas

25

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Repositorios institucionales

• Incluyen los contenidos académicos de una institución (universidad, centro de investigación, etc.).

Ejemplos:• CERN Document Server: http://cdsweb.cern.ch/

• Repositorio SABER-ULA: http://www.saber.ula.ve

• Dspace@MIT: http://dspace.mit.edu

Page 26: Repositorios de Datos para comunidades científicas

26

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Repositorios temáticos

• Incluyen los contenidos académicos de una disciplina o ámbito temático.

Ejemplos: – E-LIS (biblioteconomía y documentación), – ArXiv (física), – Cogprints (psicología),– Repec (economía).

Page 27: Repositorios de Datos para comunidades científicas

27

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Repositorios temáticos

Page 28: Repositorios de Datos para comunidades científicas

28

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Repositorios de datos

• Publican y preservan colecciones de datos• Organizados frecuentemente por disciplinas

científicas como por ejemplo:– HEP, – Genómica– Datos geoespaciales,– Datos biológicos– Datos astronómicos– Datos gubernamentales

Page 29: Repositorios de Datos para comunidades científicas

29

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Plataforma Dspace

• DSpace es una plataforma de software de Código Abierto que provee herramientas de administración de repositorios para gestionar muchos tipos de contenidos digitales, incluyendo colecciones de datos.

www.dspace.org

Page 30: Repositorios de Datos para comunidades científicas

30

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

¿Donde usan Dspace?

www.dspace.org

Page 31: Repositorios de Datos para comunidades científicas

31

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Repositorios de datos con Dspace

Page 32: Repositorios de Datos para comunidades científicas

32

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Dificultades comunes

• Escaso conocimiento de la importancia de la preservación y posibilidades de uso secundario de los datos

• Poca disposición de los científicos para compartir los datos.• Poca receptividad o disposición para aportar metadatos que

documenten las colecciones de datos.• Confusiones y reservas que tienen que ver con los derechos de

propiedad, publicación y uso de los datos.• Dificultades (aún) con la conexión a internet (conectividad,

velocidad)• Costos de los instrumentos de captura de datos• No existe la figura de “gerente local de información”, o es muy

costoso tenerlos

Page 33: Repositorios de Datos para comunidades científicas

33

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

El Futuro• Redes de gestión de conocimientos basadas en datos y metadatos

• Herramientas analíticas "en-línea" con acceso a datos de red de científicos

• Herramientas que facilitan la creación de diferentes formas de metadatos

• Creación de más bancos de datos internacionales o federados perteneciantes a multiples dominios y organizaciones

• Puesta en marcha de la “infraestructura Grid”. Acceso a “Grid de datos” (Datagrids)

• Por último…Comunidades y sociedades del conocimiento

Page 34: Repositorios de Datos para comunidades científicas

34

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

A manera de conclusión para esta parte

• El reto para la infraestructura de investigación actual es facilitar la más amplia diseminación posible de los descubrimientos científicos

• Estas infraestructuras allanaran el camino para la e-ciencia, donde los investigadores serán capaces de producir, gestionar, diseminar y comparar grandes conjuntos de datos, magnificando las posibilidaded de nuevos descubrimientos

Conferencia Berlin 7 http://www.berlin7.org/spip.php?article46

Page 35: Repositorios de Datos para comunidades científicas

35

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

[email protected]

Gracias por la atención!!