mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
DESCRIPTION
Primer Webinar de SNOLA (Spanish Network Of Learning Analytics,http://snola.deusto.es/), titulado "Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos" Disponible también en vídeo aquí: https://plus.google.com/u/0/events/c5keobqquhp1k1h3o7dekd561bo?cfem=1TRANSCRIPT
![Page 1: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/1.jpg)
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
SNOLA
Alex Rayón Jerez@alrayon, [email protected]
3 de Diciembre, 2014
![Page 2: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/2.jpg)
Índice de contenidos
● Introducción● Ciclo de vida del dato● La importancia de la calidad del dato● La calidad del dato bajo un enfoque ETL
![Page 3: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/3.jpg)
Índice de contenidos
● Introducción● Ciclo de vida del dato● La importancia de la calidad del dato● La calidad del dato bajo un enfoque ETL
![Page 4: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/4.jpg)
Introducción
![Page 5: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/5.jpg)
Introducción (II)
![Page 6: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/6.jpg)
Introducción (III)
![Page 7: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/7.jpg)
Introducción (IV)
![Page 8: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/8.jpg)
Introducción (V)
![Page 9: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/9.jpg)
Introducción (VI)
Source: http://www.economist.com/news/finance-and-economics/21578041-containers-have-been-more-important-globalisation-freer-trade-humble
![Page 10: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/10.jpg)
Introducción (VII)
¿Y en educación?
![Page 11: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/11.jpg)
Índice de contenidos
● Introducción● Ciclo de vida del dato● La importancia de la calidad del dato● La calidad del dato bajo un enfoque ETL
![Page 12: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/12.jpg)
Ciclo de vida del datoKnowledge Discovery in Databases
![Page 13: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/13.jpg)
Ciclo de vida del datoKnowledge Discovery in Databases (II)
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
![Page 14: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/14.jpg)
Ciclo de vida del datoModelo integral de una solución BI
SQL
XML
CSV
...
Data Management /
Integration
Ciclo / Proceso
datos
Modelodatos
Dashboard
Report
API
![Page 15: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/15.jpg)
Ciclo de vida del datoModelo integral de una solución BI (II)
● Un motor de BI/Analytics tiene que cumplir siempre tres funciones básicaso Obtener datos fuentes
o Disponer de un almacén estructurados de datos listos para explotación
o Ser capaz de generar reports/informes de los datos
![Page 16: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/16.jpg)
Ciclo de vida del datoModelo integral de una solución BI (III)
● Estas tres funciones se traducen en:
Proceso ModeloPlataforma explotación
Datos
Ciclo de análisis de datos
Representación para explotación
Información y conocimiento
1 2 3
![Page 17: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/17.jpg)
Ciclo de vida del datoHeterogeneidad
● Las Bases de Datos heterogéneas son un conjunto de BBDD administradas por diferentes SGBDo La heterogeneidad de éstas se debe a que los datos son
de diferentes tipos o formatos
● En el contexto de BBDD heterogéneas se distinguen tres tipos de heterogeneidad:o Semántica
o Esquemática
o Sintáctica
![Page 18: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/18.jpg)
Índice de contenidos
● Introducción● Ciclo de vida del dato● La importancia de la calidad del dato● La calidad del dato bajo un enfoque ETL
![Page 19: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/19.jpg)
Importancia calidad datoTipos de datos
● El avance tecnológico ha cambiadosustantivamente las fuentes de datoso Se estima que el 80% de la información del mundo
está desestructurada
o Los datos desestructurados están creciendo a un ritmo de 15 veces superior a los estructurados
o La capacidad de procesamiento está creciendo a un ritmo tan alto que no tenemos en ese sentido problemas
o El acceso a la información es realmente fácil para todos
[Eaton2012]
![Page 20: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/20.jpg)
Importancia calidad datoFuentes
● RDBMS (SQL Server, DB2, Oracle, MySQL, PostgreSQL, Sybase IQ, etc.)
● NoSQL Data: HBase, Cassandra, MongoDB
● OLAP (Mondrian, Palo, XML/A)
● Web (REST, SOAP, XML, JSON)
● Files (CSV, Fixed, Excel, etc.)
● ERP (SAP, Salesforce, OpenERP)
● Hadoop Data: HDFS, Hive
● Web Data: Twitter, Facebook, Log Files, Web Logs
● Others: LDAP/Active Directory, Google Analytics, etc.
![Page 21: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/21.jpg)
Importancia calidad datoFuentes (II)
Source: http://www.bigdata-startups.com/BigData-startup/understanding-sources-big-data-infographic/
![Page 22: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/22.jpg)
Importancia calidad datoRetos
● Los datos están en todos los sitioso Datos ubicuos
● Son inconsistenteso Los registros están expresados de diferentes maneras
en cada sistema
● Problemas de rendimientoo Hacer consultas a base de datos para resumir los datos
suelen ser largos
o Lleva al Sistema Operativo a una carga máxima
● Los datos no siempre están en Bases de Datoso Hojas Excel, servicios web, desestructurados, etc.
![Page 23: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/23.jpg)
Importancia calidad datoRetos (II)
[Mazza2012]● Los datos son incompletos
● Algunos tipos de datos no están registrados en ningún lugaro Al no estar expresados, no podrán ser explotados
● La perspectiva de almacenamiento no suele coincidir con la perspectiva de explotación
● Los usuarios suelen tener recelos para extraer conclusiones de algunos datos
![Page 24: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/24.jpg)
Importancia calidad datoAgregación de datos
● El enfoque de ETL no es suficiente para dar sentido y posibilidad de explotación a los datos agregadoso Los datos, así, deben ser normalizados para poder
eliminar todos los posibles problemas que pueden aparecer en un proceso de integración de datos
o Por ello, se habla de agregación/integración de datos para la normalización de los datos
![Page 25: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/25.jpg)
Importancia calidad datoAgregación de datos (II)
● Además, la mala calidad de los datos genera costes de mantenimiento y reparación
● Además de estos aspectos económicos, la mala calidad de datos también afecta a la satisfacción del usuario y a la reputación sobre la toma de decisiones estratégicas
![Page 26: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/26.jpg)
Importancia calidad datoAgregación de datos (III)
● La agregación/integración de datos es el paso más complicado de un proyecto de BIo Datanami: puede llegar a consumir hasta el 60-70% de
un proyecto
o Según otras fuentes, entre un 70 y un 85%
● Aquí tenemos que hablar de integrar todas las fuentes de datos en un dataset con datos apropiados para el objetivo concreto que se tiene en el proyecto
● Se hace necesario, por lo tanto, un proceso para garantizar la calidad de los datos
![Page 27: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/27.jpg)
Importancia calidad datoAgregación de datos (IV)
Source: http://www.learningfrontiers.eu/?q=story/will-analytics-transform-education
![Page 28: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/28.jpg)
Importancia calidad datoGestión de la calidad de los datos
![Page 29: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/29.jpg)
Importancia calidad datoGestión de la calidad de los datos (II)
● Criterios de medición de la calidad (en función de necesidades particulares)o Completitud
Valores de atributos, registros y tablas
o Precisión
Fiabilidad y veracidad
o Consistencia
Respetar una serie de restricciones/reglas de negocio
o Relevancia
Usabilidad para los stakeholders
o Unicidad
Una entidad (marca, producto, persona, servicio, etc.) es observada en contextos diferentes
[Goasdoué2007]
![Page 30: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/30.jpg)
Importancia calidad datoCriterios: 1) Completitud
● Falta algún valor? (tabla, columna, instancia)o Ejemplos
Falta el código postal en el 50% de los registros
● Algunas métricaso Ratio de valores ausentes (tabla, columna, instancia)
● Para la mejorao Estimación del valor por técnicas estadísticas
o Ignorar el valor para explotaciones futuras
o Emplearlo, a sabiendas de los problemas que puede originar
![Page 31: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/31.jpg)
Importancia calidad datoCriterios: 1) Completitud (II)
● El rendimiento del modelo (el porcentaje de predicciones acertadas) dentro del intervalo de confianza establecidos, depende en mucho de esta criterio de calidad
![Page 32: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/32.jpg)
Importancia calidad datoCriterios: 2) Precisión
● Cercanía entre el valor v y un valor v’ considerando éste como la correcta representación de la realidad que el valor vintenta representar
o Ejemplos
Algunos proveedores que están marcados como Activos fueron a la quiebra hace meses
● Algunas métricas
o Número de estimaciones desviadas
o Comparaciones con valores reales
Fuente: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0864-34662007000200012
![Page 33: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/33.jpg)
Importancia calidad datoCriterios: 2) Precisión (II)
● Es un parámetro muy relacionado con la precisión, la fiabilidad y la veracidad
● En la práctica, a pesar de la atención que ha recibido, es difícil cuantitivizar la precisión de una medicióno Es una operación muy cara de realizar
o Esto se debe a que para poder realizarlo hay que disponer de datos de referencia externos
o Por ello, se hacen verificaciones menos estrictas (patrones de comienzo de códigos, ratios desproporcionados entre géneros, etc.)
![Page 34: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/34.jpg)
Importancia calidad datoCriterios: 3) Consistencia
● Los datos son consistentes si satisfacen un conjunto de restricciones
● Para que sea efectivo, se deben establecer unas estrategias de controlo Aquí es donde aparece el concepto de “Regla de
negocio”
De este modo, la consistencia se puede ver como una subdimensión de la precisión
Aún así, la consistencia solo da una medida indirecta de la precisión
● Esta dimensión es esencial en la práctica
![Page 35: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/35.jpg)
Importancia calidad datoCriterios: 3) Consistencia (II)
● Métricaso ratio de % de conjuntos de datos que satisfacen las
restricciones
● En el contexto de las herramientas de calidad de datos, los flujos de transformación de datos y sus reglas de negocio se centran básicamente en controles de consistencia
![Page 36: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/36.jpg)
Importancia calidad datoCriterios: 4) Relevancia
● ¿Son los datos relevantes para la tarea que se tiene entre manos?
● Métricaso Grado de utilidad
● Oportunidades de mejorao Encuestas
Preguntando a los stakeholders por el grado de utilidad de las respuestas dadas, ayudará a mejorar la relevancia de tareas de agregación de datos futuras (en especial, la primera tarea de selección de datos)
![Page 37: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/37.jpg)
Importancia calidad datoCriterios: 4) Relevancia (II)
● Éste es un problema nuclear al Big Datao Con la aparición de grandes volúmenes de datos, los
usuarios en ocasiones se sienten frustrados por la incapacidad para sacar algún dato útil entre toda la maraña de datos
o Por ello, los usuarios pueden tener el prejuicio hacia la poca utilidad de los datos resultantes de un proyecto de BI
o Sin embargo, la utilidad juega un papel central en la aceptación del proyecto
o Por lo tanto, habrá que realmente medirlo (y mejorarlo, en su caso, si procediera)
![Page 38: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/38.jpg)
Importancia calidad datoCriterios: 5) Unicidad
● Es un problema que aparece cuando una entidad del modelo de datos aparece en más de una ocasióno Ejemplo
Alexander Rayón y Alex Rayón son el mismo empleado, pero observado en dos fuentes de datos diferentes → pudieran parecer dos entidades, al no coincidir a primera vista
![Page 39: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/39.jpg)
Importancia calidad datoCriterios: 5) Unicidad (II)
● Métricaso % de duplicados
o número de instancias superior a las esperadas (más difícil, por no conocer a priori el número de instancias)
![Page 40: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/40.jpg)
Importancia calidad datoEtapas gestión calidad dato
Definir Procesar Publicar
![Page 41: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/41.jpg)
Importancia calidad datoEtapas gestión calidad dato: 1) Definir
Definir
● Dimensiones
o Dominio/Contexto: unidad mínima de análisis, representación y explotación
o Tiempo: real-time o bajo demanda
o Frecuencia: de medición (fija o variable)
o Extracción de atributos: ¿con qué me quedo? (símil de la extracción de keywords representativas en un texto)
o Jerarquía: para consultas (niveles de abstracción)
o Granularidad: representación para explotación posterior
Reglas de negocio
Esquema / Diccionario de datos
Modelo de datos
![Page 42: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/42.jpg)
Importancia calidad datoEtapas gestión calidad dato: 1) Definir (II)
Source: http://themodernaccountant.com/2012/06/18/pearls-of-wisdom/
Pensando en las dimensiones de calidad de datos anteriormente expuestas
![Page 43: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/43.jpg)
Importancia calidad datoEtapas gestión calidad dato: 1) Definir (III)
Nivel Esquema: conflictos nominales y estructura
● Homónimos: mismo nombre para diferentes objetos
● Sinónimos: diferentes nombres para el mismo objeto
● Diferentes tipos de datos
● Diferentes estructura de componentes
● Diferentes restricciones de integridad
![Page 44: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/44.jpg)
Importancia calidad datoEtapas gestión calidad dato: 1) Definir (IV)
Nivel Instancia
● Atributo
o Valores nulos, misspellings, valores crípticos, abreviaciones, valores embebidos, etc.
● Registro
o Dependencias de atributo incorrectas (zip y ciudad)
● Tipo de registro
o Transposiciones de palabras, registros duplicados, registros contradictorios
● Fuente
o Referencias incorrectas (nº departamento es incorrecto)
● Agregación
o Granularidad (ventas por grupo vs. ventas por producto) o puntos de tiempo (semanal, diaria, quincenal, etc.)
![Page 45: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/45.jpg)
Importancia calidad datoEtapas gestión calidad dato: 1) Definir (V)
Source: http://en.wikipedia.org/wiki/Data_modeling
![Page 46: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/46.jpg)
Importancia calidad datoEtapas gestión calidad dato: 2) Procesar
5) Realimentación - Para evitar trabajos futuros sobre los mismos datos
Procesar Poner los datos a cumplir todas las reglas de negocio
1) Análisis de datos
2) Flujo de transformación y reglas de negocio
3) Verificación
4) Transformación
- Análisis metadatos de los datos: Profiling (1 a 1) o Mining (patrones)
- Quitar duplicados- Atomización → desdoblar en varios campos- Discretización- Normalización: modelo referencial; unión; unicidad; nulos- Integridad- Eliminar ruido (malas observaciones, shocks exógenos, etc.)- Outlier → obtención de conclusiones- Valores vacíos: 1) Eliminar instancia; 2) Predecir por interpolación; 3) Usarlo para procesar- Quitar la tendencia lineal (para fijarse en fluctuaciones… si es lo que interesa)- Validación → dependencias de atributos para validar y corregir
- Verificar efectividad flujo de transformación y reglas de negocio
- Ejecución en serie
![Page 47: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/47.jpg)
Importancia calidad datoEtapas gestión calidad dato: 2) Procesar (II)
Fuente: http://tutorialenexcel.blogspot.com.es/2012/10/15-tutorial-excel-manejando-la.html
Quitar duplicados
![Page 48: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/48.jpg)
Importancia calidad datoEtapas gestión calidad dato: 2) Procesar (III)
Fuente: http://www.educarchile.cl/ech/pro/app/detalle?ID=133092
Atomización
![Page 49: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/49.jpg)
Importancia calidad datoEtapas gestión calidad dato: 2) Procesar (IV)
Fuente: http://7542.fi.uba.ar/tecnica/sonido-en-windows/
Discretización
![Page 50: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/50.jpg)
Importancia calidad datoEtapas gestión calidad dato: 2) Procesar (V)
Fuente: http://www.anmopyc.es/noticia/boletin_de_normalizacion_julio_2014
Normalización
![Page 51: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/51.jpg)
Importancia calidad datoEtapas gestión calidad dato: 2) Procesar (VI)
Integridad
Fuente: http://diariodelapelusa.blogspot.com.es/2013/04/de-la-integridad.html
![Page 52: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/52.jpg)
Importancia calidad datoEtapas gestión calidad dato: 2) Procesar (VII)
Fuente: http://www.dominandocamtasia.com/blog/como-eliminar-el-ruido-de-un-video
Quitar ruido
![Page 53: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/53.jpg)
Importancia calidad datoEtapas gestión calidad dato: 2) Procesar (VIII)
Fuente: http://mathworld.wolfram.com/Outlier.html
Gestión outliers
![Page 54: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/54.jpg)
Importancia calidad datoEtapas gestión calidad dato: 2) Procesar (IX)
Fuente: http://www.fengfly.com/plus/view-169414-1.html
Gestión valores vacíos
![Page 55: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/55.jpg)
Importancia calidad datoEtapas gestión calidad dato: 2) Procesar (X)
Quitar tendencia lineal
Fuente: http://www.monografias.com/trabajos96/regresion-lineal-simplificada-agricola/regresion-lineal-simplificada-agricola.shtml
![Page 56: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/56.jpg)
Importancia calidad datoEtapas gestión calidad dato: 3) Publicar
![Page 57: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/57.jpg)
Importancia calidad datoEtapas gestión calidad dato: 3) Publicar (II)
An ontology is said to be an agreement about a shared, formal, explicit and partial account of a
conceptualization[...]
relative independence of particular applications[...]
it consists of relatively generic knowledge that can be reused by different kinds of
applications/tasks
![Page 58: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/58.jpg)
Importancia calidad datoEtapas gestión calidad dato: 3) Publicar (III)
![Page 59: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/59.jpg)
Importancia calidad datoEtapas gestión calidad dato: 3) Publicar (IV)
![Page 60: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/60.jpg)
Importancia calidad datoHerramientas
Interactive Data Transformation Tools (IDTs)
1. Pentaho Data Integration: Kettle PDI
2. Talend Open Studio
3. DataCleaner
4. Talend Data Quality
5. Google Refine
6. Data Wrangler
7. Potter's Wheel ABC
![Page 61: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/61.jpg)
Índice de contenidos
● Introducción● Ciclo de vida del dato● La importancia de la calidad del dato● La calidad del dato bajo un enfoque ETL
![Page 62: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/62.jpg)
Enfoque ETLProceso de análisis de datos
![Page 63: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/63.jpg)
Enfoque ETLProceso de análisis de datos (II)
1) Seleccionar 2) Capturar 3) Agregar 4) Procesar 5) Utilizar 6) Refinar
Más datos no es más
conocimiento
Extracción, muestreo y
ética
Proceso de calidad de
datos
Análisis+
Acción
Hacer operativos los
trabajos anteriores
Post-procesamiento
![Page 64: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/64.jpg)
Enfoque ETL1) Seleccionar
1) Seleccionar
● Plantear las preguntas/problemas a resolver
● Seleccionar los datos necesarios para responder a las preguntas formuladas
● Éste es precisamente uno de los retos actuales
o ¿Qué datos son los críticos?
● Hay que poner sensores allí dónde estén los datos más relevantes
o Para este paso, suele ser interesante contar con expertos del dominio
![Page 65: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/65.jpg)
Enfoque ETL1) Seleccionar (II)
1) Seleccionar
● Vivimos en una era en la que tener acceso a datos no es el problema
o El reto está en determinar qué datos son significativos y significantes y por qué
Fuente: http://cesar-organizaciones.blogspot.com.es/2011/05/que-es-un-sistema-de-informacion-un.html
![Page 66: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/66.jpg)
Enfoque ETL1) Seleccionar (III)
1) Seleccionar
“The basic question is not what can we
measure? The basic question is what does a good education look like? Big questions”
![Page 67: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/67.jpg)
Enfoque ETL2) Capturar
2) Capturar
● Extracción de los datos
o Ante la Variedad de las fuentes de datos, se hace necesario disponer de un proceso ETL
● Así, se podrán transformar datos optimizados para transacciones a datos optimizados para el análisis y el reporting
● Se pueden emplear técnicas de muestreo de datos
● Respetar las leyes y la éticaLeer “Aspectos legales y éticos”
![Page 68: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/68.jpg)
Enfoque ETL2) Capturar (II)
2) Capturar
![Page 69: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/69.jpg)
Enfoque ETL3) Agregar
3) Agregar
● Reto actual: Variedad
● Necesidad de un modelo de datos normalizado para disponer de procesos de datos sostenibles
● Tareas
o Limpieza de datos, Integración, Transformación, Reducción, Modelado, Rectificación de inconsistencias y anomalías, Normalización
![Page 70: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/70.jpg)
Enfoque ETL4) Procesar
4) Procesar
● Analizar los datos normalizados y preparados
● Decidir contextos de explotación
o Predicción
o Intervención
o Adaptación
o Personalización
o Recomendación
o Alertas tempranas
o Reflexión
...
![Page 71: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/71.jpg)
Enfoque ETL4) Procesar (II)
4) Procesar
Motor de Analytics
Predicción
Adaptación
Personalización
Recomendación
Intervención
...
![Page 72: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/72.jpg)
Enfoque ETL5) Utilizar
5) Utilizar
● Hacer operativos los trabajos anteriores
● Posibles escenarios de operación
o Dashboard de KPIs
o Informes
o APIs de explotación desde otros sistemas
o ...
![Page 73: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/73.jpg)
Enfoque ETL5) Utilizar (II)
5) Utilizar
Actividad BI.01.4. Pensar en escenarios de puesta en valor del conocimiento descubierto
● ¿Qué?
● ¿Cómo?
● ¿Dónde?
● ¿Cuándo?
● ¿Por qué?
![Page 74: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/74.jpg)
Enfoque ETL6) Refinar
6) Refinar
● Post-procesamiento
o Nuevos atributos al modelo
o Nuevos indicadores
o Nuevos tareas de calidad de datos
o Nuevos métodos de análisis
o ….
![Page 75: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/75.jpg)
Referencias[CdO07] JP. Campbell, PB. deBlois, and DG. Oblinger. Academic analytics: A new tool for a new era. EDUCAUSE Center for Applied Research REVIEW, 2007.[Clo12] Doug Clow. The learning analytics cycle: closing the loop effectively. 2nd International Conference on Learning Analytics and Knowledge, 2012[DA09] J. Dron and T. Anderson. On the design of collective applications. Proceedings of the 2009 International Conference on Computational Science and Engineering, 04:368–374, 2009.[Eli11] Tanya Elias. Learning analytics: definitions, processes and potential. 2011.[Mazza2012] Riccardo Mazza, Marco Bettoni, Marco Far ́, and Luca Mazezola. Moclog–monitoring online courses with log data. 2012.
![Page 76: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/76.jpg)
Copyright (c) 2014 University of DeustoThis work (but the quoted images, whose rights are reserved to their owners*) is licensed under the Creative Commons “Attribution-ShareAlike” License. To view a copy of this license, visit http://creativecommons.org/licenses/by-sa/3.0/
Alex Rayón Jerez@alrayon, [email protected]
3 de Diciembre, 2014
![Page 77: Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos](https://reader030.vdocuments.net/reader030/viewer/2022020207/5599fa321a28ab91378b4762/html5/thumbnails/77.jpg)
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
SNOLA
Alex Rayón Jerez@alrayon, [email protected]
3 de Diciembre, 2014