pkp datos abiertos gómez - bueno-de-la-fuente
TRANSCRIPT
Cerrando el círculo: requisitos de los datos abiertos como recursos para la
investigación abierta
Nancy Diana GómezGema Bueno de La Fuente
Universidad Carlos III de Madrid
PKP Scholarly Publishing Conference 2013Universidad Nacional Autónoma de México20 Agosto 2013
Contenido
Preguntas de investigación
Objetivos
Contexto
Propuesta de metodología
Datos de los repositorios de Ciencias Sociales
Observaciones preliminares.
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Preguntas de investigación
Métricas de datos abiertos: ¿Cuáles son las condiciones técnico/legales que se
deben cumplir para saber si un dato es abierto? ¿Es posible establecer métricas para medir el nivel de
apertura de los datos?
Set de datos en repositorios de Ciencias Sociales: ¿Qué datos se están publicando en los repositorios de
Ciencias Sociales como open data? ¿Qué nivel de apertura legal y técnico tienen los datos
de los repositorios de Ciencias Sociales?
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Objetivos
Diseño de la metodología para evaluar el grado de apertura de datos en repositorios de Ciencias Sociales de acuerdo a sus condiciones legales y técnicas.
Comprobación de la validez de la metodología con un conjunto seleccionado de datos abiertos del área de Ciencias Sociales.
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
CONTEXTO
¿Porqué Ciencia Abierta? (Stodden, 2011)
Facilita Reproductibilidad
Innovación académica e industria
Acceso al conocimiento
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Razones para compartir datos (Borgman, 2012)
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Ciclo del dato (ICPSR, 2012)
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Fondos de investigación (NSF, NIH, etc.)
Editoriales de revistas (PLOSone)
Promociones institucionales (premios, promociones, etc.)
Integridad científica
Incentivos que influencian la publicación y difusión de los datos (Stodden, 2011)
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Motivos que disuaden a los científicos en la publicación de datos abiertos (Stodden, 2010)
Tiempo en documentar y limpiar datos para publicar (54%)
Lidiar con preguntas de los usuarios de los datos (34%)
No recibir atribución o citación como autores de los datos (42%)
Barreras legales –copyright (41%)
Perdida potencial de futuras publicaciones (35%)
Ventaja que pueden obtener los competidores en el campo (33%)
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Las revistas y los datos (Stodden, 2013)
Estudio realizado sobre 170 revistas de computación ISI. 62% no menciona política de datos 79% no menciona política sobre el código/programa 66% tiene política para material suplementario Las revistas que incrementan demandas a sus
autores, como datos son aquellas que tienen alto factor de impacto.
La proporción de revistas de AA con política de datos abiertos es levemente superior a las de suscripción
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Formas de simplificar la reutilización de los datos (White et al., 2013)
Proveer metadatos
Usar formatos de datos estándar
Proveer el dato de forma no procesada o cruda
Uso de un repositorio establecido
Uso de una licencia abierta y establecida (usar la licencia más abierta posible) como CC0
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Recomendaciones (White et al. 2013)
Datos bien documentados son más fáciles de comprender para reutilizar
Datos con formatos apropiados son más fáciles de usar en una variedad de software.
Datos que han sido depositado en repositorios establecidos, más durables y citables.
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Datos abiertos y procesamiento
Estándares y buenas prácticas de citación para los datos (Datacite.org).
Uso de identificadores únicos de conjuntos de datos (DOI) y productores (ORCID).
Metadatos de calidad para la descripción de datasets en catálogos de datos (DCAT).
Integración de catálogos Open Data con otras herramientas (metabúsqueda).
Dataverse Network – 2006 - IQCSS (Guía para gestión de los datos-2012 5th edición) Permite a los autores subir código y datos con sus propios términos de uso.
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
PROPUESTA METODOLÓGICA
Combinación de métodos
1. Medición del nivel de apertura de datos a nivel legal y técnico: Diseño de matriz de priorización Convalidación de los pesos de la matriz:
crowdsourcing.
2. Recogida y tratamiento de datos abiertos.
3. Caracterización de los datos de repositorios en CCSS.
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Matriz de evaluación (BETA)
Matriz de priorización
Variables consideradas:
1. Instrumento legal (copyright, licencias, aviso legal).
Korn y Oppenheim (2011).
2. Formatos de ficheros de datos: Norma ISO 2145/2010. Clasificación de cinco estrellas LOD de T. Berners
Lee.
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Asignación de pesos a las variables
¿80%? ¿20%?
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Variable 1: Instrumento legal(Korn & Oppenheim, 2011)
Quién y bajo que términos se puede utilizar el datoCualquiera 10
Restricción para usos comerciales 5
Posibilidad de modificación del dato
Sin restricciones de ningún tipo 10
Sin restricciones pero con atribución 7
Compartir igual 3
No se modifican 04th Int. PKP Conference, México N. D. Gómez, G.
Bueno (2013)
Variable 2: Formatos
Escala LOD 5 estrellas (Berners Lee, 2010)
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Formula
(U x 0,3 + M x 0,5) + (pF x 0,2) = 0-1
Términos de uso: U
Posibilidad de modificación del dato: M
Valor promedio de formato: pF
Valor licencia Valor formatoGrado
apertura
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Selección de la muestra Conjuntos de datos en
CCSS.
Criterios de selección: Data Citation Index:http
://wokinfo.com//products_tools/multidisciplinary/dci/
Categoría CCSS.
>100 datasets
Volumen muestra: 13 repositorios
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Repositorio OrganismoArchaeological Data Service University of York
National ArchivesU.S. National Archives and Records Administration
IQSS Harvard UniversityThe Dataweb US Census BureauEurostat European Union
Australian Data ArchiveAustralian National University
UK Data Archive University of EssexFinnish Social Science Data Archive
University of Tampere
Inter University Consortium for Political and Social Research
University of Michigan
Odum InstituteOdum Insitute, University of North Carolina
Office for National Statistics UK Statistics Authority
Roper CenterRoper Center, University of Connecticut
South African Data ArchiveNational Research Foundation
Datos en Ciencias Sociales
Investigación en CCSS: diseño-recolección-análisis. Los datos son la materia prima.
Métodos de obtención de datos: observación, encuestas, documentación, experimentación.
Tipos de métodos tipos de datos formatos Cuantitativos: paquetes estadísticos, hojas de cálculo y texto
tabulado Datos estructurados. Cualitativos: amplio rango de contenidos y formatos (texto, imagen,
video, audio y otra documentación).
Retos para su publicación como datos abiertos: Normalización, integración, redundancia… Aspectos éticos y legales.
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Características de la muestra
Repositorios de organismos de la administración pública principalmente.
Datos estadísticos, censales y otros estudios.
Dataverse Network.
Registros metadatos datasets: DDI XML
Opciones descarga datos: API, FTP y descarga en lotes, exportar en XLS y otros formatos.
Niveles de acceso a los datos: abierto, especial y restringido. Licencias de descarga, solicitudes formales.
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
OBSERVACIONES PRELIMINARES
Variable 1: Instrumento legal
Escasez de licencias explícitas asociadas a los datasets Términos/condiciones generales de acceso y uso.
Repositorios admin. pública: los más abiertos, dominio público (Eurostat, US. Census Bureau, US NARA, US NASA…)
Repositorios de investigación (auto-depósito): condiciones establecidas por autores/propietarios datasets, financiadores (Australian Data Archive, UK Data Archive, ICPSR, IQSS, )
Licencias en relación con el nivel de acceso a los datasets.
Limitaciones de uso y reutilización (no comercial, sólo investigación y académicos), restricciones (confidencialidad, intimidad), condiciones (citación).
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Variable 2: Formatos
Formatos más comunes de los datos cuantitativos en CCSS :★★ SPSS, SAS, Stata…
Sistemas propietarios, posibilidad de exportar en otros formatos.
★★ .xls (MS Excel)★★★ R (open source)★★★ .csv, .tsv, xml★★★★ .sdmx-ml
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)
Próximos pasos…
Reformulación de la matriz teniendo en cuenta otras variables, como nivel de accesibilidad, interoperabilidad, documentación adicional o material explicativo.
Convalidación de la nueva matriz a través de crowdsourcing con infomediarios
Obtención de un grupo de datos en Ciencias Sociales para aplicar la nueva matriz.
Dimensiones de los datos: Grado de apertura. Grado de interoperabilidad. Grado de reutilización.
Bibliografía Berners-Lee, T. (2009). Putting government data online. Retrieved agosto/5, 2012,
from http://www.w3.org/DesignIssues/GovData.html
Borgman, C. L. (2012). The conundrum of sharing research data. Journal of the American Society for Information Science and Technology, 63(6), 1059; 1059-1078; 1078.
Inter-university Consortium for Political and Social Research (ICPSR). (2012). Guide to social science data preparation and archiving: Best practice throughout the data life cycle (5th ed.). Ann Arbor, M:
Korn, N., & Oppenheim, C. (2011). Licensing open data: A practical guide. Jisc, v. 2.0 Retrieved from http://discovery.ac.uk/files/pdf/Licensing_Open_Data_A_Practical_Guide.pdf
Stodden, V. C. (2011). Transparency in scientific discovery: Innovation and knowledge dissemination. Retrieved from http://hdl.handle.net/10022/AC:P:13496
Stodden, V., Guo, P., & Ma, Z. (2013). Toward reproducible computational research: An empirical analysis of data and code policy adoption by journals. PloS One, 8(6), e67111.
White, E. P., Baldridge, E., Brym, Z. T., Locey, K. J., McGlinn, D. J., & Supp, S. R. (2013). Nine simple ways to make it easier to (re) use your data. Peerj Preprints, 1, e7. Retrieved from https://peerj.com/preprints/7/
4th Int. PKP Conference, México N. D. Gómez, G. Bueno (2013)