20150204 calidad de datos

13

Upload: isabel-borja

Post on 20-Nov-2015

222 views

Category:

Documents


5 download

DESCRIPTION

calidad de datos

TRANSCRIPT

Diapositiva 1

Calidad de DatosFactores que afectan a la calidad de datos

Procesos Externos Migracin Consolidacin Entrada Manual Cargas Masivas InterfacesProcesos Internos Procesamiento Limpieza Depuracin

Deterioro Natural Nuevo uso de los datos Cambios no registrados Actualizacin de Sistemas Prdida de conocimientos Automatizacin de los procesosBASES DE DATOS

3

Calidad de Datos Beneficios del manejo adecuado de la Calidad de DatosMayor confianza en los sistemas de toma de decisiones (76%).Mejor tiempo para cuadres de informacin (70%).nica visin de la verdad (69%).Satisfaccin del cliente (57%).Reduccin de costos (56%).Aumento en los ingresos (30%).

Fuente: The Data Warehousing Institute (TDWI)

4

Calidad de DatosDatos propensos a problemas de Calidad de datos

Los datos de los clientes 74%.Datos de los productos 43%.Los datos financieros 36%.Datos de contacto de ventas 27%.Datos de los sistemas ERP 25%.

Fuente: The Data Warehousing Institute (TDWI)

5

Calidad de DatosProcesos de Calidad de Datos

6

Calidad de DatosPerfilamiento de datos (Data Profiling)- Proceso de reconstruir el conjunto de rasgos particulares que caracterizan los datos.- Consiste en la aplicacin de tcnicas analticas a los datos para determinar:* Contenido* Estructura* Calidad

7

Calidad de DatosPerfilamiento de datos (Data Profiling)

- Se utilizan dos mtodos:* Descubrimiento: Se revelas las caractersticas de los datos a partir de los mismos.* Pruebas asertivas: Se formulan condiciones verdaderas (Reglas) y se prueban sobre los datos.

8

Calidad de DatosPasos para el anlisis de los datosValores no validosCombinaciones vlidas de valores no validosResultados ilgicosDATOS INEXACTOSNo detectables con tcnicas analticas

9

Calidad de DatosCundo hacer un Perfilamiento de Datos?

Proyectos de evaluacin o mejoramiento de calidad de datos.Proyectos de TI que trasladan datos a otras estructuras, migran o consolidan datos.Las bases de datos importantes de la organizacin se deben Perfilar peridicamente.

10

Calidad de DatosLimpieza de datos (Data Cleansing)Implementacin de una metodologa confiable de calidad de datos que soluciona desde problemas tcnicos a esquemas complejos de negocios.Normalizacin.Desduplicacin.Parsing y estandarizacin.Enriquecimiento de los datos.

11

Data QualitySeis Dimensiones de Data Quality

Completitud

Qu datos se pierden o son inservibles?

Conformidad

Qu datos se almacenan en un formato no estandar?

Consistencia

Qu valores de datos dan informacin inconsistente?

Precisin

Qu datos son incorrectos o fuera de fecha?

Duplicidad

Qu datos o atributos estn repetidos?

Integridad

Qu datos se pierden o no son referenciados?

Powerpoint SlideshowInformatica Data Quality 8.5 Level 1 12

Six quality factors can be ascribed to data quality:

Good quality data scores highly in six key areas:

Completeness In a dataset, are any fields blank or filled with default data values?Conformity Do data fields contain otherwise correct data that has been entered in an non-standard or illegible format?Consistency Are there fields across a record that are giving conflicting information? Accuracy If data is not accurate, it cannot be used. Data accuracy is revealed by comparing the dataset with a reference source. Duplication Does the same information occur in different forms in the dataset? Integrity Is all relevant information for a data record present in usable form? (For example, householder information)

Anlisis de DatosDatos extrados

Entrada de Archivode datos

Anlisis

Depuracin de los datos

Alta calidadde datos

QualityreportsEvaluar la integridad de los datos, su conformidad y consistencia

Matching

Evaluar la duplicacin dedatos, integridad, yexactitud

Estandarizacin

Mejoramiento de la integridad de los datos, conformidad y consistenciaConsolidacinEliminar datos duplicadosMejorar la integridadReemplazar los datosinexactos

d

Anlisis de salidaInformatica Data Quality enfoca los datos del ciclo de vida a travs de cuatro mdulos flexibles:Baja calidadde datosSalida de Archivo de datosData QualityEnfoque Modular

Powerpoint SlideshowInformatica Data Quality 8.5 Level 1 13

The four data quality modules

Informatica Data Quality takes a modular approach to data quality management that is, the process is composed of four separate but related stages.Data analysis (profiling) enables you to build a detailed picture of the data quality issues affecting a dataset by identifying quality-related features within a field, or set of fields, and grouping data according to common features. Data standardization enables you to correct the completeness, conformity, and consistency problems identified in the analysis module.Data matching identifies equivalent/duplicate or related data records within a dataset or between datasets. Correspondingly, it can identify inaccurate data by comparing the existing data with a reference dataset.Data consolidation manages the process of merging or linking duplicate or related records. It facilitates the consolidation of records in a single database or multiple databases. It can also append data from a reference dataset or overwrite inaccurate data.Note: although the four modules are often implemented in this sequence in a data quality process, this need not be the case. Depending on your data quality needs, you may apply the analysis and enhancement procedures associated with these modules in any order or omit a module from your process.