mejoramiento de calidad en conjuntos de datos abiertos...
TRANSCRIPT
MEJORAMIENTO DE CALIDAD EN
CONJUNTOS DE DATOS ABIERTOS
BASADO EN LA APLICACIÓN DE
MÉTRICAS DE CONSISTENCIA LÓGICA
Autor
JORGE HERNANDO MENDEZ MATAMOROS
Tutor
GIOVANNY MAURICIO TARAZONA BERMUDEZ
PhD.
UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS
Maestría en Ciencias de la Información y las Comunicaciones
Énfasis en Sistemas de Información
Bogotá, Colombia
diciembre de 2017
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 2
MEJORAMIENTO DE CALIDAD EN CONJUNTOS DE
DATOS ABIERTOS BASADO EN LA APLICACIÓN DE
MÉTRICAS DE CONSISTENCIA LÓGICA
Autor
JORGE HERNANDO MENDEZ MATAMOROS
TESIS DE GRADO PARA OPTAR POR EL TITULO DE MAGISTER EN CIENCIAS DE
LA INFORMACIÓN Y LAS COMUNICACIONES
Tutor
PhD. GIOVANNY MAURICIO TARAZONA BERMUDEZ
UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS
Maestría en Ciencias de la Información y las Comunicaciones
Énfasis en Sistemas de Información
Bogotá, Colombia
diciembre de 2017
Nota de Aceptación
GIOVANNY TARAZONA
PAULO ALONSO GAONA
ALVARO ESPINEL
Bogotá D.C., diciembre 7 de 2017
Dedicado a mis padres, a mi esposa y mis hermanos que participaron en tan anhelado objetivo
AGRADECIMIENTOS
Debo agradecer a los profesores que me guiaron durante el transcurso de la maestría y
especialmente a mi director de tesis Giovanny Tarazona y a Andrea Rodríguez ya que con
su apoyo y conocimientos permitieron que esta investigación culminara de la mejor manera.
A mis revisores y jurados Álvaro Espinel y Paulo Gaona quienes con sus contribuciones
enriquecieron y dirigieron conceptualmente este libro.
Contenido
PARTE I FUNDAMENTO DE LA INVESTIGACIÓN, DATOS ABIERTOS
EN COLOMBIA, METRICAS DE CALIDAD ........................................................................ 20
CAPÍTULO I DESCRIPCIÓN DE LA INVESTIGACIÓN ................................. 21
Introducción ........................................................................................................................ 22
1. Problema de investigación .......................................................................................... 24
1.1 Planteamiento del problema ................................................................................. 24
1.2 Formulación del problema .................................................................................... 24
1.3 Sistematizacion del problema .............................................................................. 25
2. Justificacion ................................................................................................................. 26
3. Hipótesis ...................................................................................................................... 29
4. Objetivos ...................................................................................................................... 30
4.1 Objetivo General .................................................................................................. 30
4.2 Objetivos Específicos ........................................................................................... 30
5. Metodología ................................................................................................................. 31
5.1 Recopilación de la información ............................................................................ 31
5.2 Selección de las herramientas ............................................................................. 31
5.3 Selección del conjuntos de datos ......................................................................... 32
5.4 Diseño del prototipo funcional .............................................................................. 32
CAPÍTULO II DATOS ABIERTOS, CALIDAD EN CONJUNTOS DE DATOS 33
6. DATOS ABIERTOS ..................................................................................................... 34
6.1 Paradigma de datos abiertos ............................................................................... 34
6.2 Portales de datos abiertos en Colombia .............................................................. 36
6.3 Informe ODRA del Banco Mundial para Colombia ............................................... 37
6.3.1 Recomendaciones con respecto a algunas entidades .................................. 43
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 7
6.3.2 Conclusiones del informe ODRA con respecto a la calidad en datos abiertos
44
7. Calidad en conjuntos de datos .................................................................................... 46
7.1 Métricas de calidad .............................................................................................. 46
7.2 Calidad basada en Ontología ............................................................................... 51
PARTE II PLANTEAMIENTO DE LA PROPUESTA ............................... 53
CAPÍTULO III REGLAS DE CONSISTENCIA LÓGICA .................................. 54
1. Generalización de reglas de consistencia lógica ......................................................... 55
1.1 Estandarización de estructuras de datos en Colombia ........................................ 55
1.1.1 Lenguaje común de intercambio de información .......................................... 55
1.1.2 Directiva 22 de 2011 ..................................................................................... 58
1.2 Generalización de reglas de consistencia lógica ................................................. 59
1.2.1 Reglas basadas de valor a valor ................................................................... 60
1.2.2 Reglas basadas en un valor hacia expresiones regulares ............................ 60
1.2.3 Reglas de un valor hacia un rango de valores .............................................. 62
CAPÍTULO IV PROTOTIPO ........................................................................... 63
8. PROTOTIPO ............................................................................................................... 63
8.1 vista de anàlisis .................................................................................................... 64
8.2 Modelo de requerimientos .................................................................................... 65
8.3 Modelo de casos de uso ...................................................................................... 68
8.4 Modelo de dominio de datos ................................................................................ 70
8.5 Modelo estructural ................................................................................................ 71
8.6 Modelo dinàmico .................................................................................................. 79
8.7 Modelo de despliegue .......................................................................................... 83
8.8 Interfaz gráfica de usuario .................................................................................... 85
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 8
9. Resultados ................................................................................................................... 89
9.1 aplicación del prototipo en lA plataforma distrital de datos abiertos. ................... 89
PARTE III CONCLUSIONES, REFERENCIAS, ANEXOS ..................... 95
CAPÍTULO V CONCLUSIONES, RECOMENDACIONES, REFERENCIAS ... 96
1. Conclusiones ............................................................................................................... 97
1.1 Matriz de contrastación de objetivos .................................................................... 97
10. Recomendaciones ................................................................................................... 99
11. Referencias ............................................................................................................ 100
CAPÍTULO VI ANEXOS ............................................................................... 102
Anexo A: Arquitectura del prototipo .................................................................................. 103
Anexo B: MANUAL TÉCNICO .......................................................................................... 104
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 9
ÍNDICE DE TABLAS
Tabla 1. Descripción de los niveles de la categorización de estrellas ................................ 35
Tabla 2. Cantidad de conjuntos de datos por portal a diciembre 1 de 2017 ...................... 37
Tabla 3 Dimensiones metodología ODRA .......................................................................... 38
Tabla 4. Métricas de calidad para los datos (Pipino, Lee, & Wang, 2002) ......................... 47
Tabla 5. Campos a comparar para acceder a la coherencia .............................................. 50
Tabla 6. Extracción de la regla de consistencia lógica valor por valor ............................... 60
Tabla 7. Consistencia lógica a partir de longitud de las cadenas en el rango .................... 61
Tabla 8. Extracto de valores del conjunto de datos niveles del rio Bogotá ........................ 62
Tabla 9 Regla de consistencia de un valor hacia un rango de valores .............................. 62
Tabla 11. Valores de campos categoría y población ciclo vital .......................................... 91
ÍNDICE DE FIGURAS
Figura 1. Componentes de un modelo de negocio (Ahmadi Zeleti et al., 2016). ................ 28
Figura 2. Modelo de las 5 estrellas para los datos abiertos enlazados. ............................. 35
Figura 3. Búsqueda de elementos dato .............................................................................. 56
Figura 4. Descripción del elemento dato ............................................................................ 57
Figura 5. Formato y validación del dato .............................................................................. 57
Figura 6. Qué entidades usan el elemento dato buscado .................................................. 58
Figura 7. Estructura de la directiva 22 de 2011 .................................................................. 58
Figura 8. Extracción de regla de longitud de cadenas ........................................................ 61
Figura 9. Vista de Análisis .................................................................................................. 64
Figura 10. Modelo de requerimientos. ................................................................................ 65
Figura 11. Requerimientos funcionales .............................................................................. 65
Figura 12. Reglas del negocio ............................................................................................ 66
Figura 13. Requerimientos no funcionales ......................................................................... 66
Figura 14. Transporte ......................................................................................................... 67
Figura 15. Persistencia ....................................................................................................... 67
Figura 16. Modelo de Casos de Uso .................................................................................. 68
Figura 17. Actores .............................................................................................................. 68
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 10
Figura 18. Casos de Uso Primarios .................................................................................... 69
Figura 19. Modelo de Dominio ............................................................................................ 70
Figura 20. Modelo estructural ............................................................................................. 71
Figura 21. Modelo de Clases del Sistema .......................................................................... 72
Figura 22. Paquete Modelo ................................................................................................ 73
Figura 23. Paquete Controlador ......................................................................................... 74
Figura 24. Paquete inspector .............................................................................................. 75
Figura 25. Paquete Datos ................................................................................................... 76
Figura 26. Paquete Portales ............................................................................................... 76
Figura 27. Paquete Archivos .............................................................................................. 77
Figura 28. Excepciones ...................................................................................................... 77
Figura 29. Frameworks ....................................................................................................... 78
Figura 30. Diagrama secuencia (DS) Iniciar Aplicación ..................................................... 79
Figura 31. DS Conectar al portal de datos abiertos ............................................................ 80
Figura 32. DS Obtener listado de conjuntos de datos ........................................................ 81
Figura 33. DS Descargar conjuntos de datos ..................................................................... 82
Figura 34. DS Cargar datos de archivos al sistema ........................................................... 83
Figura 35. Modelo de despliegue ....................................................................................... 83
Figura 36. Despliegue ......................................................................................................... 84
Figura 37. Artefactos .......................................................................................................... 84
Figura 38. Vista de portal de datos ..................................................................................... 85
Figura 39. Vista de parametrización del sistema ................................................................ 86
Figura 40. Vista Acerca De ................................................................................................. 86
Figura 41. Vista de Conjunto de datos ............................................................................... 87
Figura 42. Vista para dominios, datos y reglas de consistencia ......................................... 88
Figura 43. Aplicación de métrica de consistencia lógica, Categoría -> Poblaciòn ciclo vital
basada en el valor Primera infancia ................................................................................... 92
Figura 44. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital
basada en el valor No aplica .............................................................................................. 92
Figura 45. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital
basada en el valor Todas ................................................................................................... 92
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 11
Figura 46. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital
basada en el valor Adultos ................................................................................................. 93
Figura 47. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital
basada en el valor Adultos mayores ................................................................................... 93
Figura 48. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital
basada en el valor Jóvenes ................................................................................................ 93
Figura 49. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital
basada en el valor Niñez .................................................................................................... 94
Figura 50 Crear nuevo usuario de Raspberry .................................................................. 105
GLOSARIO
Para enfatizar el marco conceptual de este proyecto se definirán algunos términos
relacionados con el área de estudio a continuación, que permitirán delimitarlo aún más.
Gran parte de éstos términos fueron obtenidos del Open Data Handbook (Open knowledge
international, 2016).
API (Application Programming Interface): Una manera en que los programas
informáticos se hablan entre ellos. Puede ser entendido en términos de cómo un
programador envía instrucciones entre los programas.
Anonimización (Anonymisation): El proceso de adaptación de datos de manera que los
individuos no pueden ser identificados a partir de ella.
Conectividad (Connectivity): se relaciona con la habilidad de las comunidades para
comunicarse a Internet, especialmente a la World Wide Web.
Conjunto de datos (Dataset): Cualquier colección de datos organizada. Conjunto de datos
es un término flexible y puede referirse a una base de datos completa, una hoja de cálculo
u otro archivo de datos, o una colección de recursos de datos relacionados.
Creative Commons: Es una organización sin ánimo de lucro fundada en 2001 que
promueve el contenido reusable publicando a número de licencias estándar, algunas de
ellas abiertas (aunque otras incluyen cláusulas no comerciales), que pueden ser usadas
para liberar el contenido para el reúso junto con explicaciones clara cobre su significado.
CSV (Comma-separated values): Valores-separados por comas (CSV) es un formato
estándar para datos de hojas de cálculo. Los datos son representados en un archivo de
texto plano donde cada fila de datos se encuentra en una nueva línea y comas separando
los valores en cada fila. Este formato es extremadamente simple y altamente legible por
máquinas (Machine readable).
Datos (Data): Los datos pueden ser pensados de hecho como declaraciones atómicas sin
procesar. Muy a menudo se refiere a colecciones de información numérica en tablas de
números como hojas de cálculo o bases de datos. Cuando el dato es estructurado y
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 13
presentado tal como será utilizado y relevante para un propósito particular, este se
transforma en información disponible para el entendimiento humano.
Datos abiertos (Open Data): Los datos abiertos pueden ser usados para cualquier
propósito. Son datos que son libres para acceder a ellos, usarlos, modificarlos y
compartirlos bajo condiciones que, como mucho, preserven su autoría y su apertura.
Datos abiertos gubernamentales (Open Government Data): “Abrir datos” producidos por
el gobierno. Esto es generalmente aceptado por ser datos recopilados durante el curso de
los negocios, como aquellas actividades habituales que no identifican a los individuos o
sensibilidad comercial. Abrir datos del gobierno es un subconjunto del término: “Información
del Sector público”, el cual es más amplio en su alcance.
Datos estructurados (Structured data): Todos los datos tienen cierta estructura, pero
datos estructurados se refiere a datos donde la relación estructural entre los elementos es
explícita en la forma en que los datos son almacenados en un disco de computadora. XML
y JSON son formatos comunes que permiten representar muchos tipos de estructuras. La
representación interna de, por ejemplo, documentos de procesamiento de texto o
documentos PDF reflejan el posicionamiento de los elementos en la página, pero la
estructura lógica es muy difícil o imposible de extraer automáticamente.
Datos primarios (Raw data): Los datos originales en un formato leíble por máquinas,
independiente de la aplicación, visualización, investigación publicada o interpretación, etc.
Derechos de autor (Copyright): El derecho de los creadores de las obras creativas para
restringir el uso de los demás de esas obras. Un dueño de los derechos de autor tiene
derecho a determinar cómo otros pueden usar ese trabajo.
Derechos de Propiedad Intelectual (Intellectual property rights, IP rights): Monopolios
otorgados a personas para las creaciones intelectuales
DOI (Digital Object Identifier): Es un identificador para un objeto digital (como un
documento o un conjunto de datos) que es asignado por un registro central y donde se
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 14
garantiza que es globalmente único: no hay dos objetos digitales en el mundo con el mismo
DOI.
Dominio público (Public domain): No existen derechos de autor sobre el trabajo. No
existen en todas las jurisdicciones.
Editor (Publisher): Quien distribuye y hace disponible los datos u otro contenido. Entre los
editores de Datos se incluyen las entidades gubernamentales y las agencias,
establecimientos de investigación, ONG’s, organizaciones de medios, compañías
comerciales, etc.
Estándar (Standard): Una especificación publicada por ejemplo la estructura de un formato
de archivo en particular, la nomenclatura recomendada para usar en dominio particular, un
conjunto común de los campos de metadatos, etc. Conformar estándares relevantes
incrementa el valor de los datos publicados mejorando el procesamiento por máquinas
(Machine readable) y facilitando la integración de datos.
Estándar abierto (Open standards): En general se entiende estándares técnicos libres de
restricciones de licencias. También puede ser interpretado en el sentido los estándares que
se desarrollan de manera independiente del proveedor.
Información del Sector Público (Public Sector Information): Información recolectada o
controlada por el sector público.
Integración de datos (Data integration): Casi cualquier uso de datos interesante
combinará datos de diferentes fuentes. Para hacer esto es necesario asegurar que las
diferentes fuentes de datos sean compatibles: Se deben usar los mismos nombres para los
mismos objetos, las mismas unidades o coordenadas, etc. Si la calidad de datos no está
bien este proceso de integración de datos podría ser arduo. Una ayuda clave de datos
enlazados (Linked data) es hacer la integración de datos completamente o casi
automatizada. Datos no abiertos son una barrera a la integración de datos, obtener los
datos y establecer los permisos necesarios para usarlos consume tiempo y debe hacerse
de nuevo por cada conjunto de datos.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 15
Procesable por máquinas (Machine-readable): Los formatos procesables por máquinas
son aquellos en que sus datos pueden ser extraídos por programas de computadoras
fácilmente. Los documentos PDF no son procesables por máquinas. Las computadoras
pueden leer el texto muy bien, pero tienen grandes dificultades entendiendo el contexto que
los rodea.
Licencia de atribución (Attribution License): Una licencia que requiere que la fuente
original del material autorizado sea citada (atribuida).
Licencia Share-alike (Share-alike License): Una licencia que requiere que los usuarios
de un trabajo provean el contenido bajo condiciones similares o iguales a las del trabajo
original.
Metadatos (Metadata): Información acerca de un conjunto de datos como su título y
descripción, método de recolección, autor o editor, área y periodo de tiempo cubierto,
licencia, fecha y frecuencia de liberación, etc. Es esencial publicar datos con metadatos
adecuados que ayuden tanto en el descubrimiento como en la usabilidad de los datos.
Métricas (Metrics): Arte que trata de la medida o estructura de los versos, de sus clases y
de las distintas combinaciones que con ellos pueden formarse. En ingeniería de software
son las medidas destinadas a conocer o estimar el tamaño u otra característica de un
software o un sistema de información.
Periodismo de datos (Data journalism): La habilidad de trabajar con los datos es una
parte importante de las armas de un periodista. La habilidad necesaria para investigar y
contar una buena historia basada en datos incluye encontrar datos relevantes, limpiar los
datos, explorar o extraer los datos para entender cuál es la historia es contada y crear
mercancías.
Portal de datos (Data portal): Una plataforma Web para publicación de datos. El fin de un
portal de datos es proveer un catálogo de datos, haciendo que los datos no sólo estén
disponibles sino también con la capacidad de descubrimiento para los usuarios de datos,
mientras ofrecen un conveniente flujo de publicación para organizaciones que publican.
Típicamente las características son interfaces Web para publicar, para buscar y disponer
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 16
del catálogo, APIs para habilitar la publicación automática desde otros sistemas y pre-
visualización de los datos.
Para el caso del portal de datos abiertos de Bogotá D.C. se utilizará una API relacionada
con la plataforma CKAN.
• CKAN (Comprehensive Knowledge Archive Network): Es una plataforma de
software open-source para la creación de portales de datos, creado y mantenido por
Open Knowledge. CKAN es usado como la plataforma oficial de publicación de
datos de cerca de 20 naciones y poderes locales, comunidades, científicas y otros
portales de datos. Características como metadatos configurables, interfaz de
usuario amigable para los editores y consumidores de datos, pre-visualización de
datos, niveles de autorización basados en la organización, y APIs que dan acceso
tanto a todas las características como a los datos.
Protección de datos (Data protection legislation): La legislación sobre protección de
datos, no se basa en proteger datos, pero sí en proteger el derecho de los ciudadanos de
poder vivir sin miedo en cuanto a que su información privada no se hará pública. La ley
protege la privacidad (ya sea información sobre el estado económico de una persona, su
salud o posición política), y otros derechos como el derecho a una libertad de circulación.
Por ejemplo, en Finlandia un sistema de tarjeta de transporte se utiliza para registrar todos
las veces que la tarjeta se muestra en la máquina lectora en diferentes líneas de transporte
público. Esto generó un debate desde la perspectiva de la libertad de circulación y la tarjeta
de viaje de recolección de datos fue abandonada sobre la base de la legislación sobre
protección de datos.
Para el caso colombiano la ley de protección de datos es la ley 1712 de 2014 (Colombia,
2014).
Protocolo de Acceso a Datos (Data Access Protocol): Un sistema que le permite a
terceros obtener acceso a bases de datos sin sobrecargar ninguno de los sistemas.
Recurso (Resource): CKAN usa este término para denotar uno de los objetos datos
individuales (ya sea un archivo de hoja de cálculo, or una API) en el conjunto de datos.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 17
Re-uso (Re-use): Uso del contenido de los datos por fuera de su intención original. En
formas que no estaban previstas cuando fueron recolectados, donde el custodio de los
datos lo hace disponible bajo una licencia que permita tal re-uso.
Registro de información (Information Asset Register): IARs son registrados
específicamente para capturar y organizar los meta-datos acerca de las enormes
cantidades de información en poder de los departamentos y organismos gubernamentales.
Un IAR integral incluye bases de datos, antiguos conjunto de archivos, últimos archivos
electrónicos, recopilaciones de datos, la investigación y así sucesivamente. Las IARs
pueden ser desarrollados de diferentes maneras. Los departamentos de Gobierno pueden
desarrollar sus propias IARs y éstas pueden asociarse a IARs nacionales. Las IARs pueden
incluir información del sector público que no ha sido -y quizás no sea- publicada
proactivamente. Por lo tanto, permite a miembros del público identificar información que
existe y puede ser requerida. Para que el público use estos IARs, es importante que cada
registro de información sea lo más completo posible para tener seguridad de que los
documentos puedan encontrarse. Que algunos registros estén incompletos es un problema
porque crea cierto grado de incertidumbre que puede desincentivar a algunas personas de
usarlos para buscar información.
Es muy importante que los metadatos en el IAR sean exhaustivos de manera que los
motores de búsqueda funcionen de manera efectiva. En el espíritu de las iniciativas de
Datos Abiertos de Gobierno, éste debería disponibilizar sus IARs al público en general como
datos crudos bajo licencia abierta, así hackers cívicos pueden usarlos, por ejemplo, para
construir motores de búsqueda o interfaces.
Transparencia: Gobiernos y otras organizaciones deben propender porque su trabajo y
procesos de tomas de decisiones estén bien entendidas, adecuadamente documentadas y
abiertas a escrutinio, Transparencia es uno de los aspectos del gobierno abierto. Un
incremento en la transparencia es uno de los beneficios de los datos abiertos.
Software como servicio, SaaS (Software as a Service): es un programa de software que
se ejecuta, no en la máquina del usuario, sino en las máquinas de una compañía de hosting,
a las cuales el usuario accede desde la Web. El host mantiene asociado el almacenamiento
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 18
de los datos y normalmente cobra un valor por el uso del servicio o lo monetiza mediante
otros mecanismos.
URI / URL (Uniform Resource Identifier / Uniform Resource Locator): Una URL es la
dirección web http://… de alguna página o recurso. Cuando una URL es usada para enlazar
datos como el identificador de algún objeto, este no es estrictamente un localizador del
objeto en sí sino de una representación del mismo, entonces en este contexto es conocido
como una URI.
Web API: que es diseñado para funcionar en Internet.
RESUMEN
Actualmente en Colombia se han dado pasos en dirección a la transparencia institucional y
uno de los componentes más importantes para ese fin es la publicación de información en
formatos los cuales puedan ser analizados por personas mediante sistemas de información
y usando datos abiertos. Gracias a lo anterior se genera conocimiento dentro de las
entidades gubernamentales a partir de datos abiertos gubernamentales. Este proyecto lo
que busca es que los conjuntos de datos abiertos cumplan con requisitos mínimos de
calidad específicamente relacionadas a sus propias métricas de consistencia lógica. Con
esto el conocimiento que se pueda generar a partir de los datos sea un conocimiento fiable.
PALABRAS CLAVE
Gobierno abierto, Transparencia, Datos abiertos, Calidad en datos abiertos, Consistencia
Lógica.
ABSTRACT
Currently in Colombia steps have been taken in the direction of institutional transparency
and one of the most important components for this purpose is the publication of information
in formats which can be analyzed by people through information systems and using open
data. Thanks to the above, knowledge is generated within government entities based on
open government data. This project is looking for open datasets to meet minimum quality
requirements specifically related to its own logical consistency metrics. With this the
knowledge that can be generated from the data is reliable knowledge
KEYWORDS
Open Government, Transparency, Open Data, Open Data Quality, Logical Consistency.
PARTE I FUNDAMENTO DE LA INVESTIGACIÓN,
DATOS ABIERTOS EN COLOMBIA,
METRICAS DE CALIDAD
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 21
CAPÍTULO I DESCRIPCIÓN DE LA INVESTIGACIÓN
Este capítulo contiene:
Planteamiento del problema
Justificación del proyecto
Hipótesis
Objetivo general
Objetivos específicos
Metodología utilizada
INTRODUCCIÓN
Gracias a las tecnologías de la información, las entidades públicas han podido dinamizar
su interacción con el ciudadano de una manera rápida y efectiva. Liquidación y pagos de
impuestos, pagos de servicios públicos, peticiones y reclamos entre otras son de los
trámites que hoy se pueden hacer vía electrónica tal y como se hicieran presencialmente.
Gracias a esto los ciudadanos tienen más calidad de vida porque ahorran tiempo y dinero
en desplazamientos y en espera de ser atendidos.
Todos esos trámites dejan una traza en la atención realizada vía electrónica la cual es
susceptible de analizar y de la cual se pueden mejorar los modelos de atención, permitiendo
saber la cantidad recursos que se deben asignar para poder atender todas aquellas
solicitudes, y priorizar los servicios más utilizados. A estas trazas se les podrían realizar
una apertura de datos para que tanto el sector gobierno como los mismos ciudadanos
realicen dichos análisis y brinden soluciones que logren resultar en emprendimientos con
todos los beneficios que ello traería.
Los datos abiertos hacen referencia a una pieza de contenido de las organizaciones, la cual
es libre de usar, reusar y redistribuir por cualquier persona y organización. Por esto, el
concepto de datos abiertos de gobierno (Open Government Data) se refiere a los datos que
se ponen a disposición de forma gratuita para el interés del público en general, para difundir
y para su reutilización sin ningún tipo de limitaciones. En el caso ideal los datos abiertos
guiarán a las organizaciones a más transparencia, participación e innovación de la sociedad
(Reiche & Hofig, 2013). Los datos abiertos son así un mecanismo de generación de valor
en sí mismo tanto de información como económico que son de gran utilidad en países con
ciudadanos que como Colombia no son de grandes ingresos.
Este proyecto lo que busca es fijar unas condiciones mínimas de calidad en los conjuntos
de datos abiertos mediante el hallazgo de métricas de consistencia lógica propias de cada
conjunto de datos. Como objeto de estudio se analizó la plataforma distrital de datos
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 23
abiertos debido a que es el entorno con que más experiencia cuenta el autor, lo que redujo
la curva de aprendizaje ostensiblemente.
Este libro está dividido en tres grandes partes; En la primera parte se desarrollará el
problema de investigación, el estado actual o el estado del arte correspondiente al área de
conocimiento de los fundamentos de los datos abiertos y las métricas de calidad usadas en
los conjuntos de datos; En la segunda parte encuentra la definición de las reglas de
consistencia lógica y la realización del prototipo; En la tercera parte se desarrollan las
conclusiones, las referencias y los anexos.
1. PROBLEMA DE INVESTIGACIÓN
1.1 PLANTEAMIENTO DEL PROBLEMA
Los datos abiertos enlazados (Link Open Data, LOD) o Web de datos son un conjunto de
buenas prácticas para la publicación y conexión de datos estructurados, lo que permite a
los proveedores de datos hacer públicos sus datos disponibles y los más importante
enlazarlos a otras fuentes de datos disponibles en la Web. Sin embargo, el principal objetivo
del LOD subyace en la creación de nuevo conocimiento debido a las diferentes
interconexiones entre los conjuntos de datos que se empiezan a dar de manera emergente,
alejadas de la intencionalidad o propósito de quién publica los datos.
Dada la generación de dicho conocimiento mediante la interconexión entre datos, surge la
inquietud de generar un conocimiento no susceptible a errores y por lo tanto se requiere
realizar procedimientos de calidad sobre los conjuntos de datos. Por ejemplo en el artículo
(Zaveri et al., 2013), se puso en evidencia la falta de calidad en los conjuntos de datos que
se encuentran en el buscador semántico DBPedia porque realiza un estudio en donde
encuentra que hay una tasa de 11.93% de problemas que tienen que ver con la calidad de
los conjuntos de datos. Por ejemplo, un análisis semiautomático reveló cerca de 200.000
inconsistencias en las propiedades de los conjuntos de datos en tan solo un valor.
De lo anterior se puede evidenciar que los errores de calidad en los conjuntos de datos son
bastante frecuentes por lo que se hace necesario aplicar métricas para mejorar el
conocimiento que se puede obtener de un conjunto de datos.
1.2 FORMULACIÓN DEL PROBLEMA
¿De qué manera las métricas de consistencia lógica pueden servir para mejorar la calidad
de los conjuntos de datos abiertos de la plataforma distrital de datos abiertos?
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 25
1.3 SISTEMATIZACION DEL PROBLEMA
¿Qué mecanismos de aseguramiento de la calidad tanto en la publicación de conjuntos de
datos existen actualmente?
¿Cuáles procedimientos existen para mejorar la calidad de datos en la que no haya
intervención humana?
¿Cuáles son los aspectos técnicos, características y funciones de dichos mecanismos que
pueden aplicarse a los datos abiertos?
¿Cuáles de los mecanismos detectan la inconsistencia lógica de los conjuntos de datos?
¿Cómo conformar las reglas de consistencia lógica para evaluar la calidad de los conjuntos
de datos abiertos?
¿De qué manera la consistencia lógica de diversos conjuntos de datos puede ser medida
sin la intervención humana?
2. JUSTIFICACION
El estado colombiano ha venido trabajando en como facilitar su relación e interacción con
el ciudadano por lo que en 2014 decretó una estrategia Gobierno En Línea (MinTIC, 2014),
que ya tiene su segunda versión, en la que ha definido que las entidades gubernamentales
deben “aprovechar al máximo las tecnologías de la información y las comunicaciones para
contribuir en la construcción de un estado abierto a sus ciudadanos, más eficiente, más
transparente, más participativo y que preste mejores servicios”. Lo que traduce en que se
deben evolucionar los servicios que prestan a sus ciudadanos a un ambiente no presencial.
Para medir el cumplimiento de dicho decreto se ha adoptado un índice GEL que tiene unos
tiempos de cumplimiento por parte de las entidades.
Uno de los pilares de dicha estrategia es la relacionada con el gobierno abierto que permite
que los ciudadanos tengan acceso a gran parte de la información que producen las
diferentes entidades, esto apoyado a través de la ley 1712 de 2014 conocida como la ley
de transparencia (Colombia, 2014), Dicha ley obliga a las entidades a realizar una apertura
de datos y también establece algunas excepciones a datos que no se deben abrir al público
(datos relacionados con la salud de la población o con la seguridad nacional , entre otros).
Dado el papel activo de Colombia en esta materia, desde el año 2013 ha venido siendo uno
de los países con mayor crecimiento en el campo de datos abiertos no sólo en
Latinoamérica sino también en el mundo. Esto lo dicen dos de los organismos más
importantes encargadas de medir las iniciativas datos abiertos a nivel mundial el Open Data
Barometer, que mide tres aspectos la preparación, la implementación y el impacto, en el
cual Colombia se encuentra en el puesto 28 con un puntaje de 45.39 (World Wide Web
Fundation;Development, 2016); Y el Global Open Data Index, que mide la cantidad y
diversidad de datos en diferentes áreas (estadísticas nacionales, presupuesto y gasto
gubernamental, legislación, resultados electorales, etc.), en el cual Colombia se encuentra
en el puesto 4 (Knowledge, 2016). Y aunque falta mucho camino por recorrer con respecto
a estos, demuestra que tiene gran potencial a nivel de transparencia ya que conllevan a
emprendimientos y a investigaciones académicas y periodísticas.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 27
Aunque estos dos índices mundiales reflejan un crecimiento muy importante de los
colombianos en la publicación de Datos Abiertos, sigue siendo muy pocos las
implementaciones que han logrado darle un uso a adecuado a estos. Debe fortalecerse el
uso de datos abiertos para que existan casos de éxito como por ejemplo las iniciativas
privadas como el Proyecto Bogotá Cómo Vamos el cual se ha creado para evaluar los
cambios en la calidad de vida de la ciudad a través de un seguimiento al cumplimiento del
Plan de Desarrollo de los mandatarios (Cámara de Comercio, El Tiempo, & Corona, 2016).
Por otra parte gracias a un estudio conocido como el Plan Maestro TIC 2016 - 2024,
realizado por un convenio entre la universidad Javeriana y por la Alta Consejería Distrital
de TIC, se hizo evidente que dentro de las entidades distritales sucede algo particular, el
promedio de trabajadores en los departamentos de Ti de las entidades públicas es de 3
personas, sin desconocer que hay entidades con 17 personas y otras entidades en las que
ni siquiera existe un departamento de TI. La falta de personal capacitado y la ausencia de
departamentos de TI dificultan la tarea para hacer apertura de datos. Lo anterior genera la
oportunidad de hacer sistemas cada vez más independientes de la interacción humana.
Existen gran variedad de herramientas para el manejo de datos, tanto de software libre
(Free) y de código abierto (Open Source) como propietario, que prestan sus productos tanto
de tipo aplicación (Standalone) como en la nube mediante software como servicio (SaaS),
muchos de estos son utilizados en Colombia. Sin embargo, mientras se dan a conocer los
usos de estas nuevas tecnologías dentro del distrito se pueden usar herramientas de uso
libre que demuestren fielmente el propósito de agregar valor a la información que se tiene
almacenada en los distintas fuentes de datos, generando conocimiento al interior de las
entidades.
Por eso surge la inquietud de mejorar el modelo de calidad actual que permita hacer análisis
sobre datos con cada vez mejor calidad, que le permita dar valor al uso de los datos
abiertos, y que permita mediante un entorno visual explicar las características básicas de
dichos análisis, lo anterior basado en software libre o de código abierto.. Abrir los datos de
gobierno permitirá entrega de nuevos servicios de alta calidad, reducción de costos de
operación, y estimular la innovación abierta en negocios y organizaciones gubernamentales
(Manyika et al., 2013).
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 28
Es de vital importancia asegurar el valor económico de los datos abiertos como un activo
de las organizaciones y considerar las oportunidades de negocios que se puede obtener,
los gobiernos deben desarrollar la capacidad de sostener la disponibilidad de alta calidad
de los datos abiertos como núcleo de entrada para la industria de datos abiertos. Una forma
en que una organización puede darle valor a sus datos abiertos es a través de un modelo
de negocios acorde a los intereses de la organización, teniendo en cuenta los cuatro
componentes descritos en la Figura 1. (Ahmadi Zeleti, Ojo, & Curry, 2016).
Figura 1. Componentes de un modelo de negocio (Ahmadi Zeleti et al., 2016).
Cobra importancia que la apertura de esos conjuntos datos se realice con los debidos
estándares de calidad o sino con un mecanismo que permita evaluar calidad a dichos
conjuntos de datos.
3. HIPÓTESIS
Se puede mejorar la calidad de los datos abiertos hallando algunas métricas de consistencia
lógica propias de cada conjunto de datos de la plataforma distrital de datos abiertos y luego
aplicando cada métrica al conjunto de datos respectivo para encontrar su porcentaje de
registros válidos.
4. OBJETIVOS
4.1 OBJETIVO GENERAL
Diseñar un conjunto de reglas que permita crear las métricas de consistencia lógica para
evaluar cada conjunto de datos publicado en la plataforma distrital de datos abiertos que
permita identificar qué registros del conjunto de datos no cumplen con las métricas de
consistencia lógica y así obtener el índice de calidad según cada métrica.
4.2 OBJETIVOS ESPECÍFICOS
1. Recopilar información para elaborar el estado actual de los datos abiertos en el
distrito capital, en cuanto a estructuras de datos, normatividad, políticas y
herramientas utilizadas.
2. Definir las reglas de consistencia lógica a utilizar para el desarrollo del modelo de
integración.
3. Seleccionar el portal de datos abiertos sobre los cuales se evaluará el modelo.
4. Evaluar y aplicar las reglas de consistencia lógica al portal de datos abiertos y
analizar los resultados.
5. METODOLOGÍA
Esta tesis se realizó teniendo en cuenta el siguiente diseño metodológico:
5.1 RECOPILACIÓN DE LA INFORMACIÓN
Se estimaron los últimos avances en materia de datos abiertos como política de
transparencia en el distrito capital en los siguientes contextos:
Normativo: Relacionado con la reglamentación nacional que afecta al distrito como la propia
distrital enfocados en la determinación, publicación y uso de los conjuntos de datos abiertos.
Técnico: Herramientas utilizadas para extraer, transformar, cargar y publicar los conjuntos
de datos abiertos.
Político: Relacionado con la adopción de dichas políticas por cada uno de los funcionarios
públicos
5.2 SELECCIÓN DE LAS HERRAMIENTAS
Se estimaron las herramientas conceptuales y tecnológicas que permitan el mejoramiento
de los datos abiertos aplicando reglas de consistencia lógica.
Formatos de archivo abiertos, que permitan al usuario acceder mediante el uso de
herramientas de software libre o de código abierto.
Tipos de licenciamiento de los conjuntos de datos. Que permitan extraer información de los
datos sin ninguna restricción.
Calidad de las fuentes de datos, archivos o bases de datos (Estructuradas, no
estructuradas) y/o servicios web, que permitan el acceso a los datos.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 32
Tableros de mando de software libre o de código abierto que permitan conocer el estado
en cada etapa del análisis.
5.3 SELECCIÓN DEL CONJUNTOS DE DATOS
Se seleccionaron los conjuntos de datos de la plataforma distrital de datos abiertos el cual
se está disponible en la URL dispuesta por el distrito. Algunos de estos conjuntos
cumplieron con una calidad mínima para ser útiles para el análisis.
5.4 DISEÑO DEL PROTOTIPO FUNCIONAL
Se diseñó y desarrolló el modelo de calidad propuesto de manera experimental siguiendo
la metodología RUP. De tal forma que se cumpla con los requerimientos provistos en el
objetivo uno y que cumpla con parámetros de calidad mínimos que satisfagan necesidades
del modelo propuesto. Se definió como datos de pruebas el portal de datos abiertos del
Distrito Capital.
CAPÍTULO II DATOS ABIERTOS, CALIDAD EN
CONJUNTOS DE DATOS
Este capítulo contiene:
DATOS ABIERTOS
Paradigma de datos abiertos
Portales de datos abiertos en Colombia
Informe ODRA del banco mundial para Colombia
CALIDAD EN CONJUNTOS DE DATOS
Métricas de calidad
Calidad basada en Ontología
6. DATOS ABIERTOS
6.1 PARADIGMA DE DATOS ABIERTOS
Tim Berners-Lee creador de la WWW (World Wide Web), lidera el consorcio para la WWW
(W3C) el cual busca construir una tecnología para soportar la Web de datos, la clase de
datos que se pueden encontrar en una base de datos, la cual tiene como objetivo hacer
más útiles los computadores para trabajar y desarrollar sistemas que puedan soportar
interacciones confiables sobre la red (Kim & Hausenblas, 2012). Debido a este objetivo
surge el concepto de datos abiertos (Open data), los cuales están compuestos por
conjuntos de datos que se pueden enlazar a otros conjuntos de datos, concepto conocido
como datos abiertos enlazados (Linked Open Data, LOD), éstos últimos son la base del
concepto de Web Semántica (Semantic Web)(Tim Berners-Lee, 2006), concepto
relacionado para brindar tanto el significado como el contexto de la información.
Por lo anterior Tim Berners-Lee diseñó un esquema de categorización para los conjuntos
de datos conocida como las 5 estrellas la cual se describe en la siguiente Figura 2. Y donde
los conjuntos de datos deben cumplir con ciertas características para cumplir con el objetivo
final de datos que mediante sus relaciones con otros datos obtengan valor mediante la Web.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 35
Figura 2. Modelo de las 5 estrellas para los datos abiertos enlazados.
Cada nivel de estrellas debe cumplir con los requisitos del nivel anterior tal y como se
explica en la Tabla 1.
Tabla 1. Descripción de los niveles de la categorización de estrellas
★ Datos disponibles en la web con una Licencia abierta (OL, Open license)
para ser datos abiertos.
★★ Disponible como datos procesables por máquinas (RE, Machine-readable)
por ejemplo datos en Excel en vez de imágenes escaneadas de una tabla.
★★★ Datos en formato no propietario. Formato abierto (OF, Open Format). CSV
en vez de Excel.
★★★★ Usar estándares abiertos de W3C (RDF y SPARQL) para identificar los
datos usando un Identificador de recurso universal (URI, Universal Resource
identifier) y así permitir que algunos datos puedan apuntar hacia tus datos.
★★★★★ Enlazar sus datos a datos ya existentes para proveer un contexto. Datos
enlazados (LD, Linked Data).
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 36
Los datos abiertos de gobierno (Open Government Data) son considerados abiertos,
primero si cumplen con mínimo la categoría de 3 estrellas y además si son publicados
siguiendo los siguientes principios o características:
• Completos: Todos los datos públicos deben estar disponibles. Los datos públicos
no contemplan datos privados ni limitaciones de seguridad o privilegios.
• Primarios: Los datos deben ser recolectados en la fuente de origen, con el nivel de
granularidad más alto posible, no en forma agregada ni modificada.
• Oportunos: Los datos deben estar disponibles tan rápido como sea necesario para
garantizar el valor de los mismos.
• Accesibles: Los datos deben estar disponibles para el rango más amplio de usuarios
y para el rango más amplio de propósitos.
• Procesables por máquinas: Los datos deben estar estructurados razonablemente
para permitir un procesamiento automático.
• No discriminatorios: Los datos deben estar disponibles para cualquiera persona, sin
requerir un registro.
• No propietarios: Los datos deben estar disponibles en un formato sobre el cual
ninguna entidad tiene un control exclusivo.
• Libres de licencias: Los datos no deben estar sujetos a ningún derecho de autor,
patente, marca registrada o regulaciones de acuerdo de secreto. Se podrán permitir
restricciones razonables de privacidad, seguridad o privilegios.
6.2 PORTALES DE DATOS ABIERTOS EN COLOMBIA
En Colombia, dada la estrategia gobierno en línea y la ley de protección de datos las
entidades distritales deben cumplir con el ítem de transparencia en el componente de
gobierno abierto. Por lo que desde el MinTIC se ha puesto a disposición el sitio de datos
para Colombia (Ministerio de Tecnologías de la Información y las Comunicaciones, 2016)
que está sobre la plataforma SOCRATA. En este portal deben subir los conjuntos de datos
las entidades públicas de carácter nacional. Dado que la publicación de conjuntos de datos
está reglamentada bajo una ley, estas entidades deben cumplir con estas publicaciones
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 37
dado que los entes de control (Contraloría, personería y procuraduría), realizan las
auditorías necesarias para que esto se cumpla y así evitar posibles hallazgos.
Dos municipios han realizado su propia implementación de portal de datos abiertos con el
fin de dar cumplimiento a la ley, estos son:
• Bogotá (D.C., 2015) que ha utilizado la plataforma CKAN y en donde se encuentran
35 conjuntos de datos para la disposición de datos.
• y Tuluá (Alcaldía de Tuluá, 2015) que ha utilizado la plataforma JUNAR en donde
existen 14 conjuntos de datos y luego migró su plataforma a CKAN con 214.
En Colombia en los distintos portales de datos abiertos (Nacional, Bogotá y Tuluá) los
conjuntos de datos existentes están en la categoría de 3 estrellas, es decir están en formato
CSV.
Tabla 2. Cantidad de conjuntos de datos por portal a diciembre 1 de 2017
Portal Cantidad de conjuntos de datos
Datos con categoría de 3 estrellas
www.datos.gov.co 6698 6698
datosabiertos.bogota.gov.co 5 5
datos.tulua.gov.co 214 214
6.3 INFORME ODRA DEL BANCO MUNDIAL PARA COLOMBIA
El ministerio TIC en convenio con el banco mundial, realizaron un análisis en el año 2015
sobre el estado actual de los datos abiertos en Colombia utilizando la metodología ODRA
(Open Data Readiness Assesstment), que evalúa 8 dimensiones ver Tabla 3, la cual ha sido
aplicada en varios países de la región. En esta metodología se destaca la estrategia
gobierno en línea en su apoyo al avance de las TIC en el sector público para hacer un
estado abierto, transparente y participativo. En donde una de las cuatro líneas principales
de actuación es el uso de las TIC para una mejor prestación de servicios públicos, que
busca asegurar las interacciones en línea de los ciudadanos con las entidades públicas,
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 38
con altos estándares de calidad y atender las necesidades reales de los usuarios. En este
aparte se hace énfasis en la importancia de la calidad en los datos abiertos para el gobierno.
Con respecto a la dimensión 1 en su numeral 3 dice que “Se aprecia una fortaleza
institucional en el entramado de políticas relacionadas con la apertura de datos, con una
mención especial para la estadística pública, que ofrece excelentes resultados en calidad
e innovación.”
“Uso de las TIC para una mejor prestación de servicios públicos, que buscan asegurar las
interacciones en línea de los ciudadanos con las entidades públicas, con altos estándares
de calidad y atender las necesidades reales de los usuarios.” Para esto se debe contar con
datos con requisitos mínimos de calidad que sirvan de fuente para los procedimientos de
análisis y búsqueda de nuevos conocimientos.
Tabla 3 Dimensiones metodología ODRA
DIMENSIÓN 1 ALTO LIDERAZGO
DIMENSIÓN 2 POLÍTICAS Y MARCO LEGAL
DIMENSIÓN 3 ESTRUCTURAS INSTITUCIONALES, RESPONSABILIDADES Y
CAPACIDADES EN EL GOBIERNO
DIMENSIÓN 4 GESTIÓN Y DISPONIBILIDAD DE DATOS PÚBLICOS
DIMENSIÓN 5 DEMANDA DE DATOS ABIERTOS
DIMENSIÓN 6 CAPACIDAD Y COMPROMISO EN LA SOCIEDAD
DIMENSIÓN 7 FINANCIACIÓN DE LA INICIATIVA DE DATOS ABIERTOS
DIMENSIÓN 8 DESARROLLO TECNOLÓGICO Y SOCIEDAD DE LA
INFORMACIÓN
Con respecto a la dimensión 2 en su numeral 3 se resalta La Resolución 052 de 2009 de la
Comisión de Regulación de Comunicaciones. Con relación a la seguridad de los datos e
información se establece que los proveedores de redes y/o servicios de
telecomunicaciones, deberán adoptar mecanismos que garanticen el manejo confidencial,
la integridad y la disponibilidad de los datos de los suscriptores y usuarios.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 39
Con respecto a la dimensión 3 en su numeral 4 muestra que entre 2008-2014 Colombia
emprende aún una nueva reforma de su sistema de monitoreo y evaluación, con la
colaboración del Banco Mundial, en el marco del proyecto “Fortalecimiento de la
información pública, seguimiento y evaluación para la gestión por resultados en
Colombia(World Bank, 2015)” (CONPES 3515). Con esta reforma se pretendía minimizar
los problemas detectados en el período anterior, profundizar en la implantación del sistema
en los niveles subnacionales y acercar la rendición de cuentas a la ciudadanía. Esta consta
de cuatro componentes, donde el cuarto reza “Componente 4: Establecer mecanismos para
mejorar la calidad y la relevancia de la información pública”.
Con respecto a la dimensión 3 en su numeral 5 resalta que el Departamento Administrativo
Nacional de Estadística (DANE) coordina el Sistema Estadístico Nacional (SEN) (DANE,
2015) conformado por productores, instrumentos, fuentes de información, principios,
normas, infraestructura humana y técnica, políticas y procesos técnicos. Esta función de
coordinación se ejerce a través de los instrumentos de planificación, normas y estándares
y calidad estadística, en cumplimiento del decreto Ley 4178 de 2011, Decreto 3851 de 2006
y Decreto 262 de 2004.
La producción de las estadísticas oficiales, que deben ser avaladas por el DANE, se da a
través de la aplicación de procesos estadísticos (censos, encuestas, uso de registros
administrativos), metodologías, normas, estándares y la aplicación de parámetros de
calidad internacionalmente aceptados. Hay un fuerte enfoque hacia la producción de datos
de calidad, haciendo uso de los registros administrativos como fuente preferente, y hacia el
apoyo a la toma de decisiones públicas.
Para el fortalecimiento del SEN, el DANE estableció el Código Nacional de Buenas
Prácticas para las Estadísticas Oficiales (Sistema Estadístico Nacional, 2015). Este es un
conjunto de reglas prácticas que permite el mejoramiento de la calidad y la credibilidad de
las estadísticas requeridas para el diseño, la formulación, el seguimiento y la evaluación de
planes, programas y políticas públicas.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 40
El DANE publica datos en abierto de buena calidad y utiliza estándares para la definición
de metadatos: DDI, RDF, Dublin Core. Con 78 conjuntos de datos, es la entidad que más
conjuntos de datos aporta al portal de datos abiertos.
Con respecto a la dimensión 4 en su numeral 1 por su parte y en cumplimiento de sus
funciones, MinTIC viene implementando una serie de elementos de soporte para apoyar el
proceso de apertura de datos conocido como guías para la depuración y control de calidad
de datos abiertos
Con respecto a la dimensión 4 numeral 2 hablan en cuanto a la información que se recoge
en los registros de activos, es relevante la adecuación del formato actual de la plantilla de
activos a los estándares internacionales para la gestión de metadatos en la publicación de
datos abiertos. No obstante, se echa en falta una adaptación de la plantilla para indicar qué
metadatos deben ser de obligada inserción y cuáles pueden tener un carácter opcional, con
el fin de facilitar la tarea de preparación para la publicación como datos abiertos y de esta
forma la calidad de los metadatos.
Con respecto a la dimensión 4 numeral 3 se refieren al dominio de información, el marco
de referencia de la Arquitectura Empresarial establece los principios de fuente única y oficial
de la información, de calidad, como bien público, en tiempo real, segura y orientada a
servicio.
Si bien se trata de un marco de referencia exhaustivo, se detecta una falta de sincronía con
la política de datos abiertos. Un ejemplo de ello es la guía técnica para el gobierno del dato
que a pesar de tratar de describir los pasos del gobierno del dato desde diferentes enfoques:
administración del dato maestro, arquitectura del dato, custodia, calidad y gestión de la
demanda, no se tiene en cuenta explícitamente la vinculación con la apertura de datos
desde el punto de vista de su exposición y consumo a través de la plataforma de datos
abiertos. Se introduce incluso el concepto de ‘tienda de datos’ para describir un ecosistema
participativo y colaborativo de intercambio de información pública sin aludir a la existencia
del portal de datos abiertos.
La situación actual respecto a la gestión de TI en las entidades muestra un escenario poco
favorable para incluir la política de apertura de datos abiertos como servicio en las entidades
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 41
del Estado. En lo concerniente a la calidad de los datos y según las evidencias obtenidas
de conversaciones mantenidas con gestores TI de nivel alto se infiere que en las entidades
existen múltiples fuentes de información no consolidadas ni soportadas por los mismos
sistemas. No hay planes de oficialización y producción de información. Muchos orígenes de
datos se limitan a documentos en Excel en posesión de empleados públicos para el
cumplimiento de sus funciones. Esto produce una fuerte debilidad en la calidad de los datos.
La visión de forma general que tienen algunos reutilizadores del ámbito académico sobre
el estado de preparación de las entidades para la apertura de datos, es la de que, las
entidades están poco preparadas para llevar adelante una práctica de apertura de datos de
forma sistemática. Señalan varios problemas: inestabilidad de los sitios web para descarga
de ficheros que contienen datos (orientación de sitios web a contenidos estáticos); la calidad
de los datos es baja; no hay APIs públicas para gestionar eficientemente los accesos a
fuentes de datos y el acceso a bases de datos de alto valor se suele realizar a través de la
formalización de convenios de colaboración (y no en pocos casos, lo que funciona
realmente es la relación personal).
Con respecto a la dimensión 4 numeral 5 hacen referencia al Plan Nacional de Desarrollo
(PND) 2010-2014, que incidía en la necesidad de definir las políticas y el marco normativo
necesario para que las entidades dispusieran de forma asequible, segura y con calidad de
datos de interés público para su reutilización. Es en el PND 2014-2018, donde se insta a
las entidades estatales a adoptar y aplicar los estándares, modelos, lineamientos y normas
técnicas definidos por el MinTIC para el impulso de la publicación de datos abiertos.
Además, Colombia se encuentra participando en el proceso de discusión y adopción de la
declaración G8 Open Data Charter, cuyo principio 1 es precisamente Datos Abiertos por
defecto.
Sin embargo, los responsables de la iniciativa declaran que existen problemas para el
sostenimiento de la iniciativa, entre otros: falta de entendimiento por parte de las entidades
municipales sobre las oportunidades de la apertura de datos, débil control de calidad de los
datos, carga de datos absolutamente manual (no se han planteado la implementación de
ETLs de acceso a orígenes de datos) y escaso fomento de la reutilización.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 42
Con respecto a la dimensión 4 numeral 7 el IGAC e IDEAM son entidades especializadas
en el tratamiento y publicación de información de contenido geo-referenciado, al igual que
IDECA de la Alcaldía de Bogotá. Muchos de los datos alfanuméricos que publican las
entidades carecen de procesos de geo-referenciación de tales datos lo cual afecta en la
calidad de los datos.
Entre los sectores estratégicos planteados en el mapa de ruta de Gobierno en Línea para
el año 2015, el sector estratégico de Educación y concretamente calidad y cobertura
educativa, presenta el escenario más favorable para desarrollar una estrategia de apertura
con garantía de éxito que ayude a dinamizar la apertura de datos en el resto de sectores.
Existe una iniciativa ciudadana organizada en varias ciudades (también en otros países):
Red de ciudades “Cómo Vamos” (Barranquilla, Yumbo, Valledupar, Pereira, Medellín,
Manizales, Ibagué, Cartagena, Cali, Bucaramanga, Bogotá) que está conformada por
diferentes entidades como empresas privadas, la academia, medios de comunicación y
Cámaras de Comercio. Anualmente hacen seguimiento de distintos temas de ciudad y
sistemáticamente emiten datos comparativos de la percepción ciudadana de cómo va la
ciudad en gobierno, salud, educación, seguridad, movilidad calidad de vida, servicios
públicos, recreación, etc
Con respecto a la dimensión 5 numeral 4 dice que la periodicidad de la publicación es
variable en función del tipo de información. Según perciben los demandantes de
información entrevistados, los plazos exigidos por la ley de acceso a la información si se
cumplen en su mayoría, sin embargo, su satisfacción respecto a la calidad de la información
obtenida no es alta, ya que manifiestan que muchas veces esta información ofrecida o es
incomprensible o difícil de extrapolar, o los formatos no son los adecuados para el
tratamiento.
Con respecto a la dimensión 7 numeral 1 Los periodistas aseguran que el actual portal de
datos abiertos del gobierno de Colombia no es una fuente a la que recurran porque
desconfían de la calidad de los datos, y lo consideran insuficiente. Aseguran que el portal
no cuenta con conjuntos de datos ni de alta calidad, ni gran cantidad, ni con gran valor o
interés para ellos. Así mismo aseguran que sus propios colegas de profesión desconocen
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 43
la existencia del propio portal por lo que no lo tienen considerado como una fuente de
información a la que recurrir, ni esporádica, ni asiduamente.
Los periodistas entrevistados reclaman capacitación, apoyo económico de los medios y
apertura de datos de calidad por parte del Estado.
Con respecto a la dimensión 7 numeral 3 se refiere a que se cuenta además con un equipo
humano dedicado en exclusiva a la gestión de la iniciativa, control de calidad de conjuntos
de datos, apoyo técnico a las entidades y formación y capacitación de los agentes
colaboradores.
6.3.1 Recomendaciones con respecto a algunas entidades
DANE ya está ofreciendo una amplia variedad de servicios en abierto de alta calidad sin
embargo debe potenciar el uso de datos geo-referenciados por parte de las entidades
(escasa utilización de servicios de mapas WMS). El trabajo contemplando el cumplimiento
de estándares (DDI y Dublin Core), la disponibilidad de metadatos en RDF, el contar con
una sección operativa de investigación aplicada, hacen de DANE una entidad técnicamente
preparada para una apertura masiva de datos.
De cara a las elecciones de 2015 se recomienda acometer un proceso de apertura de datos
electorales y optar a diversificar la presentación de resultados por medio de visualizaciones,
infografías o aplicaciones para celulares en colaboración con el sector reutilizador.
DANE tiene la oportunidad con el II Censo agropecuario de disponer en abierto datos geo-
referenciados de calidad en colaboración con IGAC.
Promover y dar a conocer los principios de los datos abiertos entre los partidos y
movimientos políticos.
Indudablemente la rendición de cuentas es uno de los elementos fundamentales de las
políticas de Gobierno Abierto. Colombia está otorgando a este aspecto la importancia que
se merece. Las entidades están obligadas a implementar procedimientos de rendición de
cuentas.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 44
De forma general, las entidades muestran un cierto grado de temor a la fiscalización del
dato en función de su calidad por parte de sus responsables de alta dirección, lo cual puede
frenar un proceso de apertura de mayor nivel. Este riesgo se puede convertir en una
oportunidad estableciendo los mecanismos de diálogo creativo adecuado que coadyuven a
corregir las posibles anomalías en los datos detectadas a través de la reutilización.
En todos los sectores, pero especialmente en Educación y Salud, el uso y re-uso de datos
tenderá a mejorar la interoperabilidad intra e intersectorial, un aspecto clave para el
desarrollo y evolución de los servicios que prestan.
6.3.2 Conclusiones del informe ODRA con respecto a la calidad en
datos abiertos
A pesar de la obligatoriedad que tienen las entidades de cumplir con el mandato legal de
apertura de datos, el cometido se lleva a cabo por éstas con extrema lentitud y falta de
interés, bien por desconocimiento del potencial de la iniciativa, bien por carencia de
capacidades técnicas, pero sobre todo por la existencia de barreras que reaccionan
negativamente a la reutilización como consecuencia de una consciente debilidad en la
calidad del dato.
Reconocen algunos demandantes de datos abiertos, que actualmente no son consumidores
muy activos debido a experiencias frustradas. En este sentido las causas de algunos
fracasos son muy variadas, por lo que se deberían intentar corregir. En relación a los datos
abiertos, las reivindicaciones se basan en sensaciones y percepciones; y muchas veces se
centran en la relación necesaria con el funcionariado público para acceder a los datos, la
calidad de los mismos, su difícil accesibilidad y sobre todo encuentran un problema de
comunicación ya que desconocen dónde encontrar los conjuntos de datos o la mera
existencia de los mismos. La excesiva burocracia, y la falta de capacitación en algunos
casos dificulta la relación entre la oferta y la demanda de los datos.
El riesgo a mitigar es la calidad del dato. Se trata de un tipo de información con un alto
potencial de consumo, y de forma previa a su publicación se debe asegurar, realizando
tareas de depuración de datos, un umbral de calidad aceptable. Sobre esta circunstancia
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 45
impacta el hecho de que muchos sistemas de información misionales para la gestión de
información, como es el caso del Sistema estratégico para la gestión de información de la
infraestructura nacional, están externalizados.
Se aprecia una fortaleza institucional en el entramado de políticas relacionadas con la
apertura de datos, con una mención especial para la estadística pública, que ofrece
excelentes resultados en calidad e innovación.
La Estrategia de Gobierno en línea se orienta a la máxima utilización de las TIC para la
construcción de un Estado abierto, más eficiente, más transparente y más participativo, que
ofrezca mejores servicios a los ciudadanos. Su ámbito de aplicación se define por 4 líneas
principales de actuación y el que hace énfasis en el tema de investigación dice que el “Uso
de las TIC para una mejor prestación de servicios públicos, que buscan asegurar las
interacciones en línea de los ciudadanos con las entidades públicas, con altos estándares
de calidad y atender las necesidades reales de los usuarios”.
7. CALIDAD EN CONJUNTOS DE DATOS
En el artículo “Implementación de métricas de calidad en metadatos y aplicación en el datos
abiertos de gobierno” (Reiche & Hofig, 2013), se aborda la calidad de datos como el marco
de credibilidad atado a la calidad del contenido y la capacidad de descubrimiento que está
atado a la calidad del metadato.
Si la evaluación de la calidad es más confiable cuando es realizada por un humano experto,
entonces una evaluación automática de la calidad de los metadatos debe ser una meta,
dada la cantidad de conjuntos de datos que se crean en el país. Para esto se proponen 5
métricas para ser aplicadas: completitud, completitud priorizada, exactitud, accesibilidad y
riqueza de la información (Reiche & Hofig, 2013).
La conveniencia de los metadatos podría definirse por la efectividad del apoyo a los
requerimientos funcionales del sistema para el que fue diseñado (Guy, Powell, & Day,
2004). Evaluar la calidad de los metadatos de un repositorio puede ayudar a medir la
eficiencia, identificar la baja calidad en los metadatos de los registros y entender las razones
del origen de la baja calidad.
7.1 MÉTRICAS DE CALIDAD
Para realizar pruebas de calidad a los datos (Data quality) se aplican ciertas métricas o
dimensiones de calidad, en estas se definen previamente que se va a medir y como se van
a medir, el artículo Valoración de la calidad de datos (Pipino, Lee, & Wang, 2002) se ha
dedicado a definir esto, en la Tabla 4 se describen las métricas aplicadas a los datos.
Las métricas de calidad propuestas son evaluadas mediante la utilización de distintos tipos
de índices los cuales se describen a continuación:
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 47
Tabla 4. Métricas de calidad para los datos (Pipino, Lee, & Wang, 2002)
Métrica Definición
Accesibilidad Cuales datos están disponibles, y recuperados fácil y rápidamente.
Cantidad de datos apropiados
Cuál es el volumen de datos apropiado para la tarea en cuestión.
Credibilidad Cuales datos se pueden considerar verdaderos y creíbles.
Completitud Cuales datos no faltan y es de suficiente amplitud y profundidad para la tarea en cuestión.
Representación concisa Cuales datos son representados de manera compacta.
Representación consistente
Cuales datos son representados en el mismo formato.
Facilidad de manipulación
Cuales datos son fáciles de manipular y aplicar a diferentes tareas.
Libres de error Cuales datos son correctos y confiables.
Interpretación Cuales datos están en lenguajes, símbolos y unidades apropiadas y su definición es clara.
Objetividad Cuál dato está sin sesgo, sin prejuicio y es imparcial.
Relevancia Cuál es dato es aplicable y útil para la tarea en cuestión.
Reputación Cuál dato es considerado en términos de su fuente o contenido.
Seguridad Cuales datos tienen accesos apropiadamente restringidos para mantener la seguridad.
Puntualidad Cuales datos son suficientemente actualizados para la tarea.
Comprensión Cuales datos son fácilmente comprendidos.
Valor Agregado Cual dato es benéfico y provee ventajas en su uso.
Completitud (Completeness): Mide que tan completos están los metadatos del conjunto de
datos (Ochoa & Duval, 2006) y (Reiche & Hofig, 2013). Esto se mide contando la cantidad
de campos que contienen valores usando la siguiente fórmula.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 48
Completitud priorizada (Weighted Completeness): Se analiza la completitud teniendo en
cuenta la importancia de cada metadato (Ochoa & Duval, 2006) y (Reiche & Hofig, 2013).
Además de si tienen valor o no se le da un peso para darle más prioridad a unos que a
otros.
Exactitud (Accuracy): Mide si el valor de los registros es correcto teniendo en cuenta a la
fuente (Ochoa & Duval, 2006) y (Reiche & Hofig, 2013). Esto se mide haciendo una
distancia semántica, entre menos distancia tenga más exacto es.
Riqueza de la información (Richness of information): Mide el nivel de importancia para el
usuario, según el vocabulario y la descripción usada en un registro de metadato (Ochoa &
Duval, 2006) y (Reiche & Hofig, 2013). Esto se mide según la cantidad de información única
presente en los metadatos.
Donde P(value) es la probabilidad de que el valor ocurra en el conjunto de datos.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 49
Para texto libre se propone el termino frecuencia inversa de la frecuencia del documento
(tf-idf)
Donde tf es la frecuencia de una palabra en el metadato, df es el total de documentos donde
aparece la palabra. El número de documentos está dado por m y el número de diferentes
palabras por n.
Accesibilidad (Accessibility): Mide el grado por el cual se describe que tan fácil el usuario
puede comprender de que se trata la fuente a través de la lectura del registro de metadatos
(Ochoa & Duval, 2006) y (Reiche & Hofig, 2013). También si el usuario encuentra o no lo
que está buscando.
Además de estas métricas aplicadas otro artículo describe otras métricas es “Métricas de
Calidad para metadatos de objetos de aprendizaje” (Ochoa & Duval, 2006).
Procedencia (Provenance): Mide el nivel de reputación que un registro de metadato y su
autor tiene en la comunidad. En los repositorios CKAN y Socrata no es fácil poder aplicar
esta métrica debido a sus API´s. Esta es similar a la métrica llamada Reputación (Pipino et
al., 2002).
Consistencia lógica y coherencia (Logic consistency and coherence): Debido a que evalúa
la interdependencia de los campos esta métrica no se puede aplicar automáticamente a los
campos debido a que en los esquemas por defecto de CKAN y Socrata no soportan aplicar
la métrica, En la Tabla 5 se muestra la aplicación de la métrica siguiendo el estándar LOM
(Learning Object Metadata) (IEEE Standards, 2003).
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 50
Tabla 5. Campos a comparar para acceder a la coherencia
Campo 1 Campo 2 Ejemplo
1. 7 Structure 1.8 Aggregation Level Structure=atomic => an aggregation
level=1
5.1 Interactivity Type
5.3 Interactivity Level
Interactivity type=active => high
values of Interactivity level
5.2 Learning resource
type
5.1 Iteractivity Level Learning resource type=narrative
text => interactivity level=expositive
5.4 Semantic Density
5.8 Difficulty A high semantic density => a high
difficulty
5.6 Context 5.7 Typical Age Range If context=higher education=>age
range should start at least at 17
years
Esta es una métrica complementaria a la propuesta en (Pipino et al., 2002) llamada
Representación consistente, ya que analiza únicamente la relación lógica entre los campos.
Prontitud o puntualidad (Timeliness): Describe el grado de que un registro de metadato
permanece actual entre la comunidad. Ésta métrica requiere de históricos de frecuencias
de uso durante un largo periodo de tiempo.
Ahora como se pudo observar cada una de estas métricas toman tres formas funcionales
para valorar la calidad de datos, estas pueden ser tasas simples, en donde la métrica esn
medida mediante índices; operaciones de máximos y mínimos, en donde se manejan
múltiples indicadores (de tasa simple) de calidad de datos se pueden estimar limites
máximos o mínimos; Y de promedio priorizado en donde se puede dar prioridad diferente a
cada campo medido, según su importancia.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 51
7.2 CALIDAD BASADA EN ONTOLOGÍA
En el artículo “Representando la calidad de los metadatos de un conjunto de datos usando
vistas multidimensionales” (Debattista, Lange, & Auer, 2014), evalúan la calidad de un
conjunto de datos desarrollando la ontología de calidad en conjuntos de datos daQ (Dataset
Quality Ontology) basado en el concepto de ajuste para el uso (fitness for use) y teniendo
en cuenta los siguientes casos de uso:
Análisis de versiones de datos: En donde analizan las métricas de calidad obtenidas por
cada versión del conjunto de datos.
Ajuste del conjunto de datos para la recuperación: en donde se analiza como un usuario
puede encontrar el conjunto de datos adecuado por criterios relacionados con el contenido,
los enlaces para desde y hacia otros conjuntos de datos, el vocabulario utilizado en el
dataset. El modelo daQ permite observar la mejora de la calidad del conjunto de datos en
el tiempo.
Identificación de enlaces: Este es uno de los propósitos del Linked Open Data, identificar
los enlaces entre los diferentes conjuntos de datos existentes. El daQ asegura que cualquier
métrica definida por terceras personas puede ser integrada por cualquier solución que
soporte esa calidad del metadato para los enlaces.
Extensión del esquema de 5 estrellas: Se propone para medir la reusabilidad el conjunto de
datos como una sexta estrella del esquema y define unos criterios para dicha reusabilidad.
El daQ intenta presentar un grafo de calidad, que presenta un número de diferentes
categorías, las cuales poseen un número de dimensiones, en donde cada dimensión de
calidad agrupa a una o más métricas de calidad.
También en el artículo (Behkamal, Kahani, Bagheri, & Jeremic, 2014) se habla de la calidad
inherente basada en 5 métricas, exactitud sintáctica, exactitud semántica, unicidad,
consistencia y completitud. La métrica de exactitud (Accuracy) en donde la dividen en dos
vertientes. Por un lado, se encuentra la exactitud sintáctica, en donde los valores de los
datos son cercanos a un conjunto de valores definidos en un dominio considerado
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 52
sintácticamente correcto (ISO, 2008); y por el otro la exactitud semántica, en donde se mide
el grado de exactitud y validez de un dato en comparación con los valores del mundo real
o con valores que se han acordado previamente. Unicidad (Uniqueness), que mide el grado
en que un dato está libre de redundancias en amplitud, profundidad y alcance. En amplitud
las propiedades y clases representadas, En alcance, una base de conocimiento en donde
múltiples ejemplares representan el mismo objeto; En profundidad donde múltiples valores
de una propiedad son únicos. Consistencia (Consistency), datos en los que sus atributos
están libres de contradicción y son coherentes con otros datos en un caso específico de
uso. Completitud (Completeness), significa que toda la información requerida para describir
un concepto es presentada con el suficiente nivel de detalle.
PARTE II PLANTEAMIENTO DE LA PROPUESTA
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 54
CAPÍTULO III REGLAS DE CONSISTENCIA LÓGICA
Este capítulo contiene:
Generalización de reglas de consistencia lógica
Estandarización de estructuras de datos en Colombia
Generalización de reglas de consistencia lógica
1. GENERALIZACIÓN DE REGLAS DE CONSISTENCIA LÓGICA
Luego de la recopilación realizada sobre las métricas de calidad en conjuntos de datos
abiertos se debe analizar la métrica de consistencia lógica para el contexto colombiano y
específicamente del distrito capital. Estas reglas fueron obtenidas de algunos avances en
estandarización de datos que han brindado algunas entidades como MINTIC y la Alcaldía
Mayor de Bogotá.
Al analizar estas estructuras de datos encontradas en dicha estandarización se identifican
y se propone una generalización para la aplicación de las reglas de consistencia lógica que
permitan la generación de métricas de consistencia lógica a los conjuntos de datos abiertos.
Esta generalización busca identificar la estructura de esas reglas aplicables únicamente a
un contexto definido y apropiarlas de tal manera que la misma regla pueda ser utilizada en
diferentes contextos. Para esto se definió una sintaxis concreta para la generalización de
cada regla.
1.1 ESTANDARIZACIÓN DE ESTRUCTURAS DE DATOS EN COLOMBIA
1.1.1 Lenguaje común de intercambio de información
El MinTIC a través de su estrategia gobierno en línea y en su marco de interoperabilidad el
cuál es el conjunto de herramientas necesarias para que los sistemas de información
conversen entre sí, ha dispuesto un portal conocido como el lenguaje común de intercambio
de información entre aplicaciones, basado en GEL-XML, en la cual busca la estandarización
de los elementos datos que se usan dentro de las entidades (MinTIC, 2011).
En esta plataforma al buscar un elemento dato de interés en el resultado se muestran una
serie de posibles elementos datos asociados al termino ingresado en la búsqueda Figura
3, al escoger uno de los elementos datos nos muestra que significa el elemento dato con
una breve descripción Figura 4, qué formato debe tener el dato Figura 5, como algunas
observaciones sobre en qué entidades ha sido utilizado Figura 6.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 56
Cabe anotar que en la validación mostrada en la Figura 5 se especifica con un mayor grado
de profundidad las características relacionadas con el elemento dato seleccionado. En este
campo puede encontrarse si tiene relación con otros elementos dato.
Figura 3. Búsqueda de elementos dato
Se puede evidenciar que al solicitar una de variable mediante su nombre este sugiere los
diferentes tipos de nombre que puede adoptar el campo y además se puede vincular el
sistema de información o aplicación en el que fue utilizado dicho campo.
Entre otras características de la especificación se indica el tipo de dato de tal manera si es
alfanumérico y además se puede relación entre otro la longitud máxima y una expresión
regular con la que se puede verificar el valor contenido almacenado en la variable.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 57
Figura 4. Descripción del elemento dato
Figura 5. Formato y validación del dato
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 58
Figura 6. Qué entidades usan el elemento dato buscado
También se puede indicar cuales de los sistemas de información requieren de dicho campo
en sus sistemas.
1.1.2 Directiva 22 de 2011
La directiva 22 de 2011 (Alcaldía Mayor de Bogotá, 2011) también es un buen ejemplo de
especificación de estructuras de datos, en esta directiva se relacionan 72 campos para la
caracterización de las personas que reciben atención en cualquier entidad del distrito,
desafortunadamente su contenido está relacionado con datos privados y sensibles que
están protegidos por la ley 1712 (Colombia, 2014). Sin embargo, esta directiva cuenta
además con reglas de validación por ejemplo como se muestra en la Figura 7 en dónde se
muestran 2 campos, estos campos están relacionados entre sí.
Figura 7. Estructura de la directiva 22 de 2011
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 59
El primer campo solo puede tomar uno de los valores CL,DG ,AC,KR, TV, AK y AV. Mientras
el segundo solo puede tener los valores S y E. Si no se cumple esto en alguno de los
registros se estaría violando la métrica de exactitud. Lo interesante de este ejemplo es que
empieza a evidenciarse la consistencia lógica en donde un dato es válido si la relación entre
los valores de los campos se cumple, es decir no pueden existir valores de CL y E o KR y
S en un mismo registro.
Es necesario tener en cuenta que esta regla es un caso particular para esta estructura de
datos, sin embargo, este tipo de regla se puede generalizar para que sea aplicada a otros
contextos y con otros conjuntos de datos.
1.2 GENERALIZACIÓN DE REGLAS DE CONSISTENCIA LÓGICA
Uno de los principales inconvenientes en la automatización de la evaluación de la
consistencia lógica dentro de un conjunto de datos abiertos es que cada conjunto de datos
hace referencia a un contexto específico, este contexto provee unas relaciones entre los
campos únicas para ese conjunto de datos. Por ejemplo, dentro de los conjuntos de datos
disponibles en el portal distrital de datos abiertos tomado como caso de estudio existen 12
conjuntos de datos distintos cada uno con un tema distinto y provienen de entidades
distritales distintas.
Sin embargo, se pueden identificar los siguientes aspectos de los conjuntos de datos:
• Cada campo del conjunto de datos tiene un nombre.
• Cada campo tiene un tipo de dato definido puede ser tipo alfanumérico, numérico,
fecha, etc.
• Cada campo puede tener un valor con una longitud máxima o mínima definida.
• Cada campo en el conjunto de datos puede almacenar valores bien definidos o
pueden ser valores únicos por cada registro (heterogéneos).
Es relevante anotar que lo que lo importante de la consistencia lógica a evaluar en este libro
es la relación existente entre los campos de un conjunto de datos.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 60
Dado el ejemplo de la Figura 7 se puede identificar una generalización de la regla de
consistencia lógica entre los campos del conjunto de datos expuesto. Se debe partir de la
columna observaciones en donde se encuentras descritas las reglas en breves premisas
semánticas.
• El valor S solo es válido para vías principales de tipo CL, AC o DG.
• El valor E solo es válido para vías principales de tipo KR, AK o TV.
1.2.1 Reglas basadas de valor a valor
Dado lo anterior podemos observar que los valores van desde un dominio hacía un rango
así los únicos valores permitidos se observan en la Tabla 6. Esta regla tiene la peculiaridad
de que por cada valor en el dominio debe existir uno de tres posibles valores en el rango.
Para simbolizar este tipo de regla “Un VALOR en el dominio un VALOR de un conjunto de
valores en el rango” utilizaremos el símbolo (- >), esta regla solo aplicaría para campos que
tengan su dominio y rango bien definidos, es decir que los valores aparezcan varias veces
en los registros del conjunto de datos.
Tabla 6. Extracción de la regla de consistencia lógica valor por valor
Campo 1 Regla Campo 2
S - > CL
S - > AC
S - > DG
E - > KR
E - > AK
E - > TV
7.2.1
1.2.2 Reglas basadas en un valor hacia expresiones regulares
Existe otro caso en el que los valores de los campos también tienen un dominio definido
pero el rango se define mediante una comparación de longitud de las cadenas de caracteres
contenidas en los valores. Por ejemplo, en la directiva aparece que para el campo tipo de
identificación (Tip_ID) solo se permiten los valores RC, NUIP, TI, CC, PA, TE, CE y para el
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 61
campo número de identificación los valores posibles son alfanuméricos sin embargo varían
según el valor del campo Tip_ID tal como se muestra en la Tabla 7.
Para este tipo de reglas las cuales se denominarán por expresión y se simbolizará con el
símbolo (E), debido a que la forma de evaluarlo se hace mediante el uso de expresiones
regulares y de las cuales se conocerá como “Un VALOR en el dominio un VALOR y una
CARACTERISTICA en el rango”.
Tabla 7. Consistencia lógica a partir de longitud de las cadenas en el rango
Campo 1 Regla Campo 2
RC E Alfanumérico de longitud 10 Numérico de longitud 11
NUIP E Alfanumérico de longitud 10 Numérico de longitud 11
TI E Numérico de longitud 10 u 11
CC E Numérico de longitud entre 6 a 10
PA E Alfanumérico
TE E Alfanumérico
CE E Alfanumérico
Figura 8. Extracción de regla de longitud de cadenas
Cabe anotar que la construcción de las expresiones regulares para el campo 2, debe
hacerse con el conocimiento necesario del conjunto de valores en el dominio. Esta
construcción debe realizarse por un humano. Esto dificulta la automatización de la regla.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 62
1.2.3 Reglas de un valor hacia un rango de valores
Este caso hace referencia a valores en el dominio que tienen un conjunto de valores
numéricos en el rango. Como condición se encuentra que el valor en el rango debe ser un
número.
Por ejemplo, en un conjunto de datos sobre los niveles del rio Bogotá. Campo 1 es igual al
nombre de la estación y el campo 2 sería la medición en altura del nivel del agua en cm
como se muestra en la Tabla 8.
Se puede observar que para el nombre de la estación “EL ESPINO” se detectan varios valores
de Medición que se encuentran entre 2246 y 2988 por lo que en la Tabla 9, se puede definir
dos reglas que permitan determinar si un valor de campo 2 es mayor que cierto número y
si un valor en campo 2 es menor que otro número. Dado esto se puede definir una regla
para cada uno de los eventos.
Para simbolizar el tipo de regla “Un Valor en el dominio y una restricción en el valor del
rango” se utilizaràn los simbolos (=,>,<).
Tabla 8. Extracto de valores del conjunto de datos niveles del rio Bogotá
Nombre Estación Ubicación Medición Fecha Medición
EL ESPINO RIO BOGOTA 2906 2014-07-18 00:00:00.000
EL ESPINO RIO BOGOTA 2954 2014-07-19 00:00:00.000
EL ESPINO RIO BOGOTA 2988 2014-07-20 00:00:00.000
EL ESPINO RIO BOGOTA 2761 2014-07-21 00:00:00.000
EL ESPINO RIO BOGOTA 2806 2014-07-22 00:00:00.000
EL ESPINO RIO BOGOTA 2524 2014-07-23 00:00:00.000
EL ESPINO RIO BOGOTA 2246 2014-07-24 00:00:00.000
Tabla 9 Regla de consistencia de un valor hacia un rango de valores
Campo 1 Regla Campo 2
EL ESPINO > 2246
EL ESPINO < 2988
CAPÍTULO IV PROTOTIPO
Este capítulo contiene:
DISEÑO DE PROTOTIPO
RESULTADOS
8. PROTOTIPO
Para encontrar reglas de consistencia lógica en los conjuntos de datos del distrito fue
necesario desarrollar un prototipo de software que permitiera automatizar la tarea ya que la
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 64
cantidad de posibles relaciones entre los campos tiende a ser de complejidad NxM y hacerlo
vía manual iba tomar algún tiempo. Por lo anterior el prototipo debe cumplir con algunas
características funcionales específicas.
El sistema propuesto tiene como nombre Quality Inspector Linked Open Government Data
(QILOGD). Para ver la especificación completa (575 páginas) debe verse en el documento
Especificación Arquitectural adjunto. Esta especificación se realizó usando Enterprise
Architect 13.
8.1 VISTA DE ANÀLISIS
Figura 9. Vista de Análisis
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 65
8.2 MODELO DE REQUERIMIENTOS
Figura 10. Modelo de requerimientos.
Figura 11. Requerimientos funcionales
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 66
Figura 12. Reglas del negocio
Figura 13. Requerimientos no funcionales
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 67
Figura 14. Transporte
Figura 15. Persistencia
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 68
8.3 MODELO DE CASOS DE USO
Figura 16. Modelo de Casos de Uso
Figura 17. Actores
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 69
Figura 18. Casos de Uso Primarios
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 70
8.4 MODELO DE DOMINIO DE DATOS
Figura 19. Modelo de Dominio
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 71
8.5 MODELO ESTRUCTURAL
Figura 20. Modelo estructural
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 72
Figura 21. Modelo de Clases del Sistema
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 73
Figura 22. Paquete Modelo
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 74
Figura 23. Paquete Controlador
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 75
Figura 24. Paquete inspector
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 76
Figura 25. Paquete Datos
Figura 26. Paquete Portales
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 77
Figura 27. Paquete Archivos
Figura 28. Excepciones
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 78
Figura 29. Frameworks
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 79
8.6 MODELO DINÀMICO
Figura 30. Diagrama secuencia (DS) Iniciar Aplicación
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 80
Figura 31. DS Conectar al portal de datos abiertos
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 81
Figura 32. DS Obtener listado de conjuntos de datos
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 82
Figura 33. DS Descargar conjuntos de datos
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 83
Figura 34. DS Cargar datos de archivos al sistema
8.7 MODELO DE DESPLIEGUE
Figura 35. Modelo de despliegue
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 84
Figura 36. Despliegue
Figura 37. Artefactos
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 85
8.8 INTERFAZ GRÁFICA DE USUARIO
Luego de iniciar la aplicación se presenta la ventana de la ¡Error! No se encuentra el
origen de la referencia., que tiene como objetivo obtener el listado de conjuntos de datos
abiertos que se encuentran en un portal CKAN.
Figura 38. Vista de portal de datos
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 86
El sistema puede parametrizarse para un mejor funcionamiento. Ver la configuración del
sistema se puede ver en la ¡Error! No se encuentra el origen de la referencia..
Figura 39. Vista de parametrización del sistema
Se puede ver alguna información sobre el nombre y el autor de la aplicación en la Figura
40. Vista Acerca De.
Figura 40. Vista Acerca De
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 87
Una vez se hayan obtenido y descargado los archivos de los conjuntos de datos que se
encuentren en el portal se puede acceder a la información de cada conjunto de datos ¡Error!
No se encuentra el origen de la referencia..
Figura 41. Vista de Conjunto de datos
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 88
A través de la ¡Error! No se encuentra el origen de la referencia. se pueden listar los
valores que el conjunto de datos proveyó al sistema.
Figura 42. Vista para dominios, datos y reglas de consistencia
9. RESULTADOS
Los datos abiertos en Colombia se han convertido en una política de estado y como
resultado de esto se han abierto una buena cantidad de conjuntos de datos abiertos, lo que
hace que nuestro país se encuentre bien posicionado en los diferentes índices mundiales
de medición de conjuntos abiertos.
Se encontró que ya existe una conceptualización de métricas aplicadas a la calidad de los
datos. De estas métricas se partió para empezar a realizar un modelo de calidad para los
conjuntos de datos abiertos.
Colombia se encuentra actualmente en el nivel de tres estrellas del esquema de datos
abiertos propuesto por Tim Berners-Lee porque la totalidad de los datos que se encuentran
en los diferentes portales de datos abiertos están dispuestos en formato abierto CSV.
Como resultado de que los datos abiertos en Colombia se han convertido en una política
de estado se ha procurado por estandarizar los campos para facilitar la interoperabilidad.
Hay iniciativas tanto nacionales como distritales para la realizar la estandarización lo que
ha permitido realizar un inventario de posibles reglas de consistencia lógica.
Se logró realizar la generalización de una regla de consistencia lógica a partir de premisas
semánticas, esto permitirá aplicar mediante un validador la regla a diferentes conjuntos de
datos.
9.1 APLICACIÓN DEL PROTOTIPO EN LA PLATAFORMA DISTRITAL DE
DATOS ABIERTOS.
Una vez realizado el prototipo se ejecutó en la URL datosabiertos.bogota.gov.co con los
siguientes resultados:
Detalle Total
Conjuntos de datos en el portal 44
Conjuntos de datos con archivo de datos 32
Conjuntos de datos con descripción 32
Conjuntos de datos legibles por máquinas 30
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 90
Se pudo evidenciar que algunos de los conjuntos de datos no cuentan con una estructura
adecuada lo que no permite que se realice una adecuada lectura mediante máquinas.
No existe una política dentro del distrito en el uso del separador por lo que algunos están
separados por comas (,) y otros por punto y comas (;).
También se observa que no se cumple con el principio de granularidad y de atomicidad de
los datos, no presentan una debida clasificación de los datos. Por otra parte, presentan
datos con valores nulos. Estos ítem hacen parte de la calidad de los datos y no permite
hacer análisis adecuados debido a que no se sabe que quisieron decir dejando el campo
nulo.
Como caso de prueba demostrativo dentro del portal distrital se eligió el conjunto de datos
“actividades-de-entidades-sin-animo-de-lucro” que cuenta con 40911 registros de los
cuales 5426 datos son nulos. Lo anterior da un 13% de error.
Al aplicar las reglas de consistencia al conjunto de datos “actividades-de-entidades-sin-
animo-de-lucro” se pude observar que cuenta con la siguiente estructura de campos.
Campo Tipo Observaciones
ID ESAL Alfanumérico ID DE IDENTIFICACIÓN ÚNICO EN EL SISTEMA DE LAS ESAL
CATEGORÍA Alfanumérico ACTIVIDADES QUE DESARROLLA LA ESAL
POBLACIÓN SEGÚN CICLO VITAL
Alfanumérico POBLACIÓN SEGÚN UN RANGO DE EDADES
POBLACIÓN POR CONDICIÓN
Alfanumérico POBLACIÓN SEGÚN EL NIVEL SOCIAL, ECONÓMICO
POBLACIÓN POR GRUPO
Alfanumérico POBLACIÓN CLASIFICADA POR GRUPO
LOCALIDAD Alfanumérico DIVISIÓN TERRITORIAL DONDE SE ENCUENTRA LA ESAL
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 91
El conjunto de datos se puede encontrar en la siguiente URL:
http://datosabiertos.bogota.gov.co/dataset/f24fc0a1-66c3-458b-ae53-
fccecd6341fd/resource/c70db798-8417-49db-aebe-
e2a103229c5b/download/datosabiertos2.csv
Teniendo claro la cantidad de campos se elige la primera combinación entre categoría y
Población ciclo vital dónde tienen los valores descritos en la Tabla 10. Valores de campos
categoría y población ciclo vital.
Tabla 10. Valores de campos categoría y población ciclo vital
CATEGORÍA POBLACIÓN CICLO VITAL
Cultura democrática, paz y convivencia ciudadana
No aplica
Desarrollo comunitario Adultos mayores (hombres y mujeres mayores de 60 años).
De salud Niñez (niños y niñas entre 6 y 11 años).
De educacion Jóvenes (hombres y mujeres entre 12 y 26 años).
Medio ambiente y recursos naturales Primera infancia (comprende desde el período de la gestación hasta los 5 años de edad).
Prevención y atención de emergencias
Desarrollo productivo y generación de ingresos
Adultos (hombres y mujeres entre 26 y 60 años).
Ideológicas Todas
Habitat
Movilidad y espacio publico
Cultura
Ciencia y tecnología
Desarrollo institucional
Recreación y deporte
Voluntariado
Propiedad intelectual
Comunicaciones
Teniendo en cuenta los valores de los campos se puede observar que cada campo tiene
un conjunto de valores bien definido y además son de tipo alfanumérico. Por lo que se debe
aplicar la regla de tipo valor a valor. Los resultados obtenidos son los siguientes:
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 92
Figura 43. Aplicación de métrica de consistencia lógica, Categoría -> Poblaciòn ciclo vital basada en el valor Primera infancia
Figura 44. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital basada en el valor No aplica
Figura 45. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital basada en el valor Todas
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 93
Figura 46. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital basada en el valor Adultos
Figura 47. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital basada en el valor Adultos mayores
Figura 48. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital basada en el valor Jóvenes
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 94
Figura 49. Aplicación de métrica de consistencia lógica, Categoría -> Población ciclo vital basada en el valor Niñez
En el conjunto de datos existen campos nulos los cuales favorecieron la implementación de
las reglas de consistencia.
Que en este conjunto de datos efectivamente hay errores detectados por las reglas de
consistencia lógica.
El índice de error del conjunto de datos se encuentra entre el 7% y el 19%. Lo que en
términos prácticos quiere decir que, de 40911 registros, entre 2864 y 7773 registros
erróneos.
Índice bastante alto y que requiere un análisis de procedimiento de calidad del sistema del
cual es obtenido el conjunto de datos, además de contrastar con un profesional relacionado
con el área de conocimiento del conjunto de datos.
PARTE III CONCLUSIONES, REFERENCIAS, ANEXOS
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 96
CAPÍTULO V CONCLUSIONES, RECOMENDACIONES,
REFERENCIAS
Este capítulo contiene:
CONCLUSIONES
RECOMENDACIONES
REFERENCIAS
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 97
1. CONCLUSIONES
1.1 MATRIZ DE CONTRASTACIÓN DE OBJETIVOS
Objetivo Evidencia
Recopilar información sobre datos abiertos en el distrito capital.
Estado actual de los datos abiertos (Capítulos 1 y 2, títulos del 5 al 7)
Definir las reglas de consistencia lógica. Generalización de reglas (Capítulo 3, título 8)
Seleccionar el portal de datos abiertos datosabiertos.bogota.gov.co
Evaluar y aplicar las reglas de consistencia lógica al portal
Prototipo y resultados (Capítulos 4, títulos 9 y 10)
En el desarrollo de esta investigación ejercicio se puso en evidencia que:
Así como en otras implementaciones de datos abiertos en países líderes (UK, USA), es
muy posible que se pueden presentar deficiencias en la calidad de los datos, tanto en su
descripción como en su contenido.
Que el modelo de calidad actual es acertado en la búsqueda de deficiencias en los datos
abiertos, y que este modelo se puede mejorar integrando reglas de consistencia lógica en
los campos de los diferentes conjuntos de datos.
Como los conjuntos de datos abiertos en Colombia se encuentra en la categoría de 3
estrellas se puede realizar un procesamiento automático en los conjuntos de datos y por lo
tanto se pueden aplicar métricas de consistencia lógica también de manera automática.
Los avances en la estandarización de las estructuras de datos permiten tener una fuente
de conocimiento que sirva de guía para nombrar los campos de una manera apropiada.
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 98
La generalización de reglas permite una visión más apropiada para el entendimiento del
concepto que servirá en la aplicación del prototipo funcional que valide dichas reglas.
Se evidencia la inexistencia de estándares de separadores y de delimitadores dentro del
protocolo de la plataforma distrital de datos abiertos.
En la plataforma distrital de datos abiertos no se evidencia la necesidad de la gestión de
metadatos de los conjuntos de datos.
Cada conjunto de datos tiene sus propias reglas de consistencia lógica.
Los avances en la estandarización de las estructuras de datos permiten tener una fuente
de conocimiento que sirva de guía para nombrar los campos de una manera apropiada.
La generalización de reglas permite una visión más apropiada para el entendimiento del
concepto que servirá en la aplicación del prototipo funcional que evalúe la calidad de un
conjunto de datos.
10. RECOMENDACIONES
En el desarrollo de esta investigación se pusieron en evidencia los siguientes campos de
investigación:
Realizar ajustes para aceptar conjuntos de datos de portales de datos abiertos diferentes a
CKAN como los basados en SOCRATA o JUNAR.
Crear reglas y métricas de consistencia lógica basándose en alguna técnica de inteligencia
artificial.
Aplicar los métodos de “Un valor hacia un rango de valores” Y el de “Reglas basadas en
expresiones regulares” en un prototipo.
Implementar mecanismos de análisis estadístico que faciliten la detección de errores
basado en reglas de consistencia lógica.
Implementar este prototipo usando servicios Web.
11. REFERENCIAS
Ahmadi Zeleti, F., Ojo, A., & Curry, E. (2016). Exploring the economic value of open government data. Government Information Quarterly. http://doi.org/10.1016/j.giq.2016.01.008
Alcaldía de Tuluá. (2015). Datos abiertos de Tuluá. Retrieved from http://www.datos.tulua.gov.co/
Alcaldía Mayor de Bogotá. (2011). Directiva 22 de 2011, 4.
Behkamal, B., Kahani, M., Bagheri, E., & Jeremic, Z. (2014). A metrics-driven approach for quality assessment of linked open data. Journal of Theoretical and Applied Electronic Commerce Research, 9(2), 64–79. http://doi.org/10.4067/S0718-18762014000200006
Cámara de Comercio, de B., El Tiempo, C. E., & Corona, F. (2016). Red de Ciudades Cómo Vamos | Generamos información confiable, imparcial y comparable sobre calidad de vida. Retrieved from http://redcomovamos.org/
Colombia, C. de la republica de. (2014). Ley 1712. Retrieved May 24, 2016, from http://www.alcaldiabogota.gov.co/sisjur/normas/Norma1.jsp?i=56882
D.C., A. M. de B. (2015). Bienvenida - Datos Abiertos. Retrieved June 20, 2016, from http://datosabiertos.bogota.gov.co/
DANE. (2015). Sistema Estadístico Nacional (SEN). Retrieved December 10, 2016, from https://www.dane.gov.co/index.php/sistema-estadistico-nacional-sen
Debattista, J., Lange, C., & Auer, S. (2014). Representing Dataset Quality Metadata using Multi-Dimensional Views Jeremy. SEM’14 Proceedings of the 10th International Conference on Semantic Systems, 92–99. http://doi.org/10.1145/2660517.2660525
Guy, M., Powell, A., & Day, M. (2004). Improving the Quality of Metadata in Eprint Archives. Ariadne, (38). Retrieved from http://www.ariadne.ac.uk/issue38/guy/
IEEE Standards. (2003). IEEE Standard for Learning Metadata Object (Vol. 2002). http://doi.org/10.1109/IEEESTD.2002.94130
ISO. (2008). ISO/IEC 25012:2008 - Software engineering -- Software product Quality Requirements and Evaluation (SQuaRE) -- Data quality model. Retrieved September 5, 2016, from http://www.iso.org/iso/catalogue_detail.htm?csnumber=35736
Kim, J. G., & Hausenblas, M. (2012). 5 estrellas de Datos Abiertos. Retrieved August 30, 2016, from http://5stardata.info/es/
Knowledge, O. (2016). Place overview | Global Open Data Index by Open Knowledge. Retrieved May 22, 2016, from http://index.okfn.org/place/
Manyika, J., Chui, M., Groves, P., Farrell, D., Van Kuiken, S., & Doshi, E. A. (2013). Open Data: Unlocking Innovation and Performance with Liquid Information. McKinsey, (October), 24. http://doi.org/http://www.mckinsey.com/~/media/McKinsey/dotcom/Insights/Business%20Technology/Open%20data%20Unlocking%20innovation%20and%20performanc
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 101
e%20with%20liquid%20information/MGI_Open_data_Full_report_Oct_2013.ashx
Ministerio de Tecnologías de la Información y las Comunicaciones. (2016). Datos Abiertos Colombia. Retrieved June 20, 2016, from https://www.datos.gov.co/
MinTIC. (2011). Lenguaje común para intercambio de información - Consulta elementos de dato. Retrieved December 15, 2016, from http://lenguaje.intranet.gov.co/web/gelxml/si/consultadeelementos
MinTIC. (2014). Decreto 2573, 1–9. Retrieved from http://www.mintic.gov.co/portal/604/articles-14673_documento.pdf
Ochoa, X., & Duval, E. (2006). Quality Metrics for Learning Object Metadata. World Conference on Educational Multimedia, Hypermedia and Telecommunications, (2004), 1004–1011.
Open knowledge international. (2016). The Open Data Handbook - Glossary. Retrieved July 30, 2016, from http://opendatahandbook.org/glossary/en/
Pipino, L. L., Lee, Y. W., & Wang, R. Y. (2002). Data quality assessment. Communications of the ACM, 45(4), 211. http://doi.org/10.1145/505248.506010
Reiche, K. J., & Hofig, E. (2013). Implementation of metadata quality metrics and application on public government data. Proceedings - International Computer Software and Applications Conference, 236–241. http://doi.org/10.1109/COMPSACW.2013.32
Sistema Estadístico Nacional. (2015). Código Nacional de Buenas Prácticas para las Estadísticas Oficiales.
Tim Berners-Lee. (2006). Linked Data - Design Issues. Retrieved July 20, 2016, from https://www.w3.org/DesignIssues/LinkedData.html
World Bank. (2015). Colombia - Strengthening Public Information, Monitoring, Evaluation for Results Management in Colombia : P099139 - Implementation Status Results Report : Sequence 11.
World Wide Web Fundation;Development, O. data for. (2016). ODB, Open Data Barometer 2015. Retrieved May 22, 2016, from http://opendatabarometer.org/data-explorer/?_year=2015&indicator=ODB&open=COL&comparew=BRA,GBR
Zaveri, A., Kontokostas, D., Sherif, M. a, Bühmann, L., Morsey, M., Auer, S., & Lehmann, J. (2013). User-driven quality evaluation of dbpedia. Proceedings of the 9th International Conference on Semantic Systems, 97–104. http://doi.org/10.1145/2506182.2506195
CAPÍTULO VI ANEXOS
Este capítulo contiene:
ANEXOS
Arquitectura del prototipo
Manual técnico
ANEXO A: ARQUITECTURA DEL PROTOTIPO
Remitirse a documentos en el CD Especificación Arquitectura.
ANEXO B: MANUAL TÉCNICO
Para el desarrollo del prototipo funcional se tuvo en cuenta lo siguiente:
Cantidad de personas en el desarrollo de la aplicación: 1 persona.
Equipos para el desarrollo de la aplicación: 2 equipos.
Software licenciado para la puesta en producción del prototipo: Ninguno.
Por lo que la propuesta para el desarrollo y el despliegue del prototipo fue:
• Arquitectura de tres capas
Se hizo necesario tener una arquitectura de tres capas en la cual se independicen los datos,
de la capa de negocio y de la presentación.
• Desarrollo en aplicaciones de código abierto o software libre
En este aparte se analizaron diferentes aspectos como:
Lenguaje de desarrollo: JAVA versión 1.8.
Entorno de desarrollo (IDE): Netbeans versión 8.2.
Administrador de bases de datos: PostgreSQL versión 9.4 .
• Patrón de diseño.
Se optó por el patrón de desarrollo Modelo, Vista, Controlador, apoyado con el uso de API’s
para apoyar la implementación de los objetivos.
Se utilizaron API’s como:
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 105
• JaCKAN para tener acceso a los conjuntos de datos del portal.
• OpenCSV para leer los archivos CSV del portal de datos.
• JPA para el manejo de la persistencia de los datos.
• UnitTest
• PostgreSQL JDBC Driver para la correcta comunicación entre la aplicación y la base
de datos.
Un entorno de desarrollo y de producción dadas las restricciones del equipo de desarrollo.
• CONFIGURACIÓN DEL AMBIENTE DE DESARROLLO EN RASPBERRY
Placa Raspberry Pi 3 model B.
Sistema operativo Raspbian
o Configuración usuario
Si ya se ha ejecutado raspi-config se hace necesario cambiar la contraseña del usuario por defecto 'pi', para hacer Raspberry Pi un poco más segura, porque incluso con la contraseña del usuario 'pi' cambiada tenemos la mitad del camino abierto para gente con ganas de curiosear lo ajeno. Vamos a crear en este caso el usuario ‘jhmendez’:
sudo adduser jhmendez
Al crear el nuevo usuario, nos pedirá su contraseña dos veces, y luego opcionalmente podemos incluir los datos de contacto:
Figura 50 Crear nuevo usuario de Raspberry
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 106
o CONFIGURACIÓN DE POSTGRES
o CONFIGURACIÓN DE JAVA
Instalar Java SE Development Kit en la versión 8.0.1
Descargar Java Development Kit puede ser la distribución OpenJDK-8 o la versión
suministrada por Oracle (versión escogida)
sudo apt-get install java
PROBAR VERSIÓN DE JAVA INSTALADA
Luego de instalar java se debe corroborar la versión usando los siguientes comandos:
java -version
Jjava version "1.8.0_65" Java(TM) SE Runtime Environment (build 1.8.0_65-b17) Java HotSpot(TM) Client VM (build 25.65-b01, mixed mode)
javac -version
javac 1.8.0_65
CONFIGURACIÓN JBOSS
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 107
Descargar jboss Enterprise Aplication Server (EAP) desde la página web:
https://developers.redhat.com/download-manager/file/jboss-eap-7.0.0-installer.jar
Mediante el siguiente comando se instala la version de jboss descargada
sudo java -jar jboss-eap-7.0.0-installer.jar
Se sigue el siguiente paso a paso:
Posteriormente se deben editar los archivos standalone.xml o standalone-full.xml (jboss_home/standalone/configurations/)
<interfaces>
<interface name="management">
<inet-address
value="${jboss.bind.address.management:0.0.0.0}"/>
</interface>
<interface name="public">
<inet-address value="${jboss.bind.address:0.0.0.0}"/>
</interface>
<interface name="unsecure">
<inet-address
value="${jboss.bind.address.unsecure:0.0.0.0}"/>
</interface>
</interfaces>
Para conectar la base de datos PostgreSQL con el servidor de aplicaciones JBOSS se debe descargar el driver de Postgres que se necesite como un .jar-file (http://jdbc.postgresql.org/download.html) Vaya al directorio de JBoss y encuentre el directorio modules\org\postgresql\main y verifique que el archivo modules.xml y el archivo .jar se encuentren en dicha carpeta. Verifique que el contenido de modules.xml sea el siguiente:
<?xml version="1.0" encoding="UTF-8"?>
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 108
<module xmlns="urn:jboss:module:1.0" name="org.postgresql">
<resources>
<resource-root path="postgresql-Y.X-Z.jdbcV.jar"/>
</resources>
<dependencies>
<module name="javax.api"/>
<module name="javax.transaction.api"/>
</dependencies>
</module>
Verifique que el contenido de standalone.xml entre las etiquetas <datasources><drivers> sea el siguiente:
<driver name=”postgresql” module=”org.postgresql”>
<xa-datasource-class>
org.postgresql.xa.PGXADataSource
</xa-datasource-class>
</driver>
• CONFIGURAR VARIABLES DE ENTORNO
Usando el editor de texto preferido (nano en este caso) editaremos el archivo, agregando al final de este las variables de entorno para el uso de java y jboss.
sudo nano ~/.bashrc
export JAVA_HOME=/usr/lib/jvm/jdk-8-oracle-arm32-vfp-hflt
export PATH=$JAVA_HOME/bin:$PATH
export JBOSS_HOME=/opt/jboss/
export PATH=$JBOSS_HOME/bin:$PATH
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH
export JBOSS_HOME=/opt/jboss/jboss-eap7
export PATH=$JBOSS_HOME/bin:$PATH
Reiniciar consola y probar.
echo $JBOSS_HOME
echo $JAVA_HOME
vystup:
/opt/jboss/
//usr/lib/jvm/jdk-8-oracle-arm32-vfp-hflt
Ahora se debe crear un nuevo grupo y un nuevo usuario llamados jboss. Haciendolo propietario de los archivos de jboss.
addgroup jboss
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 109
useradd -g jboss jboss
chown -R jboss:jboss /opt/jboss/jboss-eap7/
Cree un script para que jboss se inicie automáticamente, establezca permisos de acceso, cree directorios y enlaces simbólicos desde /etc/init.d/jboss_eap7 a etc/rc.d/init.d/jboss_eap7
sudo touch /etc/rc.d/init.d/jboss-eap7
sudo mkdir /etc/rc.d
sudo mkdir /etc/rc.d/init.d
sudo ln -s /etc/rc.d/init.d/jboss-eap7 /etc/init.d/jboss-eap7
sudo chmod +x /etc/init.d/jboss-eap7
Inserte en etc/init.d/jboss-eap7 lo siguiente:
#!/bin/sh
### BEGIN INIT INFO
# Provides: jboss
# Required-Start: $local_fs $remote_fs $network $syslog
# Required-Stop: $local_fs $remote_fs $network $syslog
# Default-Start: 2 3 4 5
# Default-Stop: 0 1 6
# Short-Description: Management of JBoss AS v7.x
### END INIT INFO
#Defining JBOSS_HOME
JBOSS_HOME=/opt/jboss/
case "$1"
in
start)
echo "Starting JBoss EAP7..."
sudo -u jboss sh ${JBOSS_HOME}/bin/standalone.sh &
;;
stop)
echo "Stopping JBoss EAP7..."
sudo sh ${JBOSS_HOME}/bin/jboss-cli.sh --connect
command=:shutdown
;;
log)
echo "Showing server.log..."
tail -1000f ${JBOSS_HOME}/standalone/log/server.log
;;
*)
echo "Usage: /etc/init.d/jboss-eap7 {start|stop|log}"
exit 1
;; esac
exit 0
Crear enlaces de ejecución a jboss desdes los respectivos directivos
Mejoramiento De Calidad En Conjuntos De Datos Abiertos Basado En La Aplicación De Métricas De
Consistencia Lógica
Página | 110
sudo apt-get install chkconfig
cd /etc/init.d/
sudo chkconfig --add jboss-eap7
cd /etc/init.d/
sudo update-rc.d jboss-eap7 defaults
comandos para iniciar los servicios de jboss:
service jboss-eap7 start
service jboss-eap7 stop
service jboss-eap7 log
CONFIGURACIÓN AMBIENTE DE DESARROLLO EN NETBEANS
Configuración Dependencias Maven
API de CKAN para java JACKAN
<dependency>
<groupId>eu.trentorise.opendata</groupId>
<artifactId>jackan</artifactId>
<version>0.4.2</version>
</dependency>