1 crisp-dm

21
Proceso de la MD CRISP-DM Referencias: C. Shearer, “The CRISP-DM Model: The New Blueprint for Data Mining”, Journal of Data Warehousing 5(4):2000 P. Chapman (NCR), J. Clinton (SPSS), R. Kerber (NCR), T. Khabaza (SPSS), T. Reinartz (DaimlerChrysler), C. Shearer (SPSS) & R. Wirth (DaimlerChrysler), CRISP-DM 1.0: Step-by-step data mining guide, 2000. Alicia Pérez – UCB La Paz

Upload: alvaro-villegas

Post on 26-Jul-2015

230 views

Category:

Documents


14 download

TRANSCRIPT

Page 1: 1 CRISP-DM

Proceso de la MDCRISP-DM

Referencias: C. Shearer, “The CRISP-DM Model: The New Blueprint for Data Mining”, Journal of Data Warehousing 5(4):2000

P. Chapman (NCR), J. Clinton (SPSS), R. Kerber (NCR), T. Khabaza (SPSS), T. Reinartz (DaimlerChrysler), C. Shearer (SPSS) & R. Wirth (DaimlerChrysler), CRISP-DM 1.0: Step-by-step data mining guide, 2000.

Alicia Pérez – UCB La Paz

Page 2: 1 CRISP-DM

2

Proceso de MD

Cross-Industry Standard Process for Data Mining (CRISP-DM)

Financiado por la UE: desarrollo de un framework par tareas de MD

Objetivos: Animar a que haya herramientas interoperables a lo largo

del proceso completo de la MD Facilitar las tareas de MD – en tareas sencillas no hace

falta ser un gran experto

Page 3: 1 CRISP-DM

3

¿Por qué un proceso estándar?

Framework para recordar la experiencia para poder replicar

proyectos Ayuda a la planificación y

gestión de los proyectos Para los novatos, “Comfort

factor” Demuestra la madurez

de la MD Reduce la

dependencia en expertos estrella

El proceso de MD debería ser confiable y repetible por personas con poca experiencia en la MD

Page 4: 1 CRISP-DM

4

Historia del estándar CRoss Industry Standard Process for Data Mining

Iniciativa lanzada en Septiembre 1996 SPSS/ISL, NCR, Daimler-Benz, OHRA

Financiada por la Comisión Europea Más de 200 miembros del SIG CRISP-DM SIG en el mundo

Fabricantes de herramientas DM - SPSS, NCR, IBM, SAS, SGI, Data Distilleries, Syllogic, Magnify, ..

Consultores, desarrolladores - Cap Gemini, ICL Retail, Deloitte & Touche, …

Usuarios finales - BT, ABB, Lloyds Bank, AirTouch, Experian, ...

Page 5: 1 CRISP-DM

5

Prácticamente los mismos resultados que en 2004

Page 6: 1 CRISP-DM

6

CRISP-DM

Non-proprietary Neutral respecto a

aplicación/industria herramienta

Enfocado en aspectos del negocio además del análisis

técnico Framework para guiar el

proceso Base de experiencias

Plantillas para el análisis

Page 7: 1 CRISP-DM

7

CRISP-DM

Page 8: 1 CRISP-DM

8

Fases de CRISP-DM Comprensión del negocio

Comprender objetivos y requisitos del proyecto/negocio Definición del problema de MD

Comprensión de los datos Recolección inicial de datos, familiarización Identificar problemas con la calidad de los datos Resultados iniciales, obvios

Preparación de los datos Selección de registros y de atributos Limpieza de los datos

Modelado Ejecutar las herramientas de MD

Evaluación Determinar si los resultados cumplen los objetivos de negocio Identificar aspectos del negocio que deberían haberse considerado antes

Implantación Llevar los modelos obtenidos a la práctica Preparar para hacer MD repetida/continua

Page 9: 1 CRISP-DM

9

Comprensión del negocio

Comprensión de los datos

EvaluaciónPreparación de los datos

Modelado

Determinar Objetivos de negocioConocimiento previoObjetivos de negocioCriterios de éxito según el negocio

Evaluación de la situaciónInventario de recursosRequisitos, suposiciones y restriccionesRiesgos y contingenciasTerminologíaCostos y beneficios

Determinar meta de la MDMetas de la MDCriterios de éxito de la MD

Producir Plan del ProyectoPlan del proyectoEvaluación inicial de herramientas y técnicas

Recoger Datos InicialesInforme sobre la recolección inicial de datos

Describir DatosInforme de Descripción de los Datos

Explorar DatosInforme de Exploración de los Datos

Verificar la Calidad de los Datos Informe sobre la Calidad de los Datos

Conjunto de DatosDescripción del Conjunto de Datos

Seleccionar Datos Razones para Inclusión/ Exclusión

Limpiar DatosInforme de Limpieza de Datos

Construir DatosAtributos DerivadosRegistros Generados

Integrar DatosDatos Combinados

Formatear DatosDatos Reformateados

Seleccionar Técnica de ModeladoTécnica de ModeladoSuposiciones del Modelado

Generar Diseño de PruebaDiseño de Prueba

Construir el ModeloValores iniciales de ParámetrosModelosDescripción de los Modelos

Evaluar ModeloEvaluación del ModeloRevisar valores de parámetros

Evaluar ResultadosEvaluación de resultados de MD respecto a criterios de éxito del negocioModelos aprobados

Revisar el ProcesoRevisión del Proceso

Determinar Próximos PasosLista de Acciones PosiblesDecisión

Planificar ImplantaciónPlan de ImplantaciónPlanificar Monitoreo y MantenimientoPlan de Monitoreo y Mantenimiento

Producir Informe FinalInforme Final Presentación Final

Revisar el ProyectoDocumentación de la Experiencia

Implantación

Fases y Tareas

Page 10: 1 CRISP-DM

10

Fases del Proceso de MD(1 & 2)

Comprensión del negocio: Indicar el Objetivo de negocio Indicar el objetivo de la MD Indicar los criterios de éxito

Comprensión de los datos Explorar los datos y verificar su calidad Encontrar outliers

Page 11: 1 CRISP-DM

11

Fases del Proceso de MD (3)Preparación de los datos: Normalmente ocupa 90% del

tiempo Recolección Evaluación Consolidación y Limpieza

vínculos ente tablas, nivel de agregación, valores faltantes, etc

Selección de los datos ignorar activamente datos que

no aportan nada? outliers? Muestreo Herramientas de visualización

Transformaciones – crear nuevas variables

Page 12: 1 CRISP-DM

12

Fases del Proceso de MD (4) Construcción de modelos

Selección de las técnicas de modelado basada en el objetivo de la MD

El modelado es un proceso iterativo – diferente para aprendizaje supervisado y no supervisado Puede modelarse para

descripción o para predicción

Page 13: 1 CRISP-DM

14

Fases del Proceso de MD (5) Evaluación del modelo

resultados sobre conjunto de datos de prueba

Métodos y criterios dependen del tipo de modelo: eg. matriz de coincidencia

para clasificadores, error medio para modelos de regresión

Interpretación del modelo: importante o no, fácil o difícil según el algoritmo

Evaluación según los criterios del negocio

Page 14: 1 CRISP-DM

15

Fases del Proceso de MD (6)

Implantación Determinar cómo han de

utilizarse los resultados ¿Quién los necesita? ¿Con qué frecuencia van a

usarse?

Implantación de los resultados mediante: Marcar una BD con resultados

de clasificación Utilizar los resultados como

reglas de negocio Marcado interactivo

Page 15: 1 CRISP-DM

16

¿Por qué CRISP-DM?

El proceso de MD debe ser confiable y replicable por personas con poca experiencia en MD

CRISP-DM proporciona un marco unificado pautas documentación de la experiencia

CRISP-DM es flexible Diferentes problemas de negocio Diferentes datos

Page 16: 1 CRISP-DM

17

SSAS(Data

Mining)Excel

SSAS (DSV)QueryExcel

SSISSSASSSRSExcelYour Apps

SSISSSASExcel

Comprensión del negocio

Comprensión de los datos

Preparación de los datos

Modelado

Evaluación

Implantación

Datos

Microsoft Data Mining Lifecycle CRISP-DM

Microsoft: SSAS 2008 Data Mining (SSAS = SQL Server Analysis Services)

Page 17: 1 CRISP-DM

18

¿Cómo elegir un sistema de MD?

Sistemas comerciales Diferente funcionalidad o metodología de MD Tal vez funcionen con tipos de datos completamente

diferentes

Seleccionar desde varios puntos de vista Tipos de datos: relacionales, transaccionales, texto, secuencias

temporales, espaciales? Sobre sistemas

¿corren en uno o varios sistemas operativos? arquitectura servidor cliente? proporcionan interfaces basadas en web, permiten datos en XML

como entrada/salida?

Page 18: 1 CRISP-DM

19

¿Cómo elegir un sistema de MD? Fuentes de datos

archivos de texto ASCII, múltiples fuentes de datos relacionales soporte de conexiones ODBC (OLE DB, JDBC)?

Funciones y metodologías de MD Una vs. varias funciones de MD Uno vs. varios métodos para cada función

Más funciones y métodos por función de MD dan más flexibilidad y poder de análisis al usuario

Acoplamiento con BD y/o almacén de datos Idealmente el sistema de MD debería estar bien acoplado con el

de BD

Page 19: 1 CRISP-DM

20

¿Cómo elegir un sistema de MD?

Escalabilidad En filas (o tamaño de la BD) En columnas (o dimensiones) “Maldición de la dimensionalidad”: es más difícil hacerlo

escalable por columnas que por filas Herramientas de visualización

“Una imagen vale mil palabras” Categorías de visualización: de datos, de resultados de MD, del

proceso de MD, MD visual Lenguaje de consultas de MD y GUI

Interfaz gráfica fácil de usar y de calidad Esencial para la MD guiada por el usuario, interactiva

Page 20: 1 CRISP-DM

23

Herramientas más utilizadas

Ver encuesta anual en KDNuggets

http://www.kdnuggets.com/polls/2009/data-mining-tools-used.htm

Page 21: 1 CRISP-DM

24

Métodos más utilizados (Mar 2007)

http://www.kdnuggets.com/polls/2007/data_mining_methods.htm