un conjunto de perfiles uml para el modelado conceptual de minería de datos sobre almacenes de...

82
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio de 2009 Alicante, España o de Investigación Lucentia rtamento de Lenguajes y Sistemas Informáticos Director: Juan Carlos Trujillo Mondéjar 1

Upload: ines-del-rio-palma

Post on 24-Jan-2016

219 views

Category:

Documents


0 download

TRANSCRIPT

Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre

almacenes de datos

Tesis DoctoralJosé Jacobo Zubcoff Vallejo

26 de Junio de 2009Alicante, España

Grupo de Investigación LucentiaDepartamento de Lenguajes y Sistemas Informáticos

Director: Juan Carlos Trujillo Mondéjar

1

Contenido

• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados

• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales

• Parte III: Aspectos prácticos» Implementación» Caso de estudio

• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros

2 2

Contenido

• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados

• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales

• Parte III: Aspectos prácticos» Implementación» Caso de estudio

• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros

3 3

Parte I: Introducción

Minería de datos: el núcleo del descubrimiento de conocimiento

PreprocesadoIntegración

Fuentes de datos

Datos para minería

Selección

Minería de datos

Evaluación de patrones

Almacén de datos

Proceso KDD

Entre un 70% y un 90% del tiempo total (Gartner Group 2005)4 4

Técnicas básicas de minería de datos• Reglas de asociación• Clasificación• Clustering• Series Temporales

Parte I: Introducción

Minería de datos: el núcleo del descubrimiento de conocimiento

Minería de datos

Proceso KDD

5 5

Parte I: Introducción

Solución actual en la minería de datos

• Datos inicialmente recolectados con distinta finalidad• Requiere de arduas tareas de preprocesado e integración de

datos • Esta ampliamente difundido el uso de ficheros planos como

repositorio de datos• Se llevan a cabo sesiones aisladas de minería de datos

6 6

Parte I: Introducción

El problema actual en el desarrollo de modelos de minería de datos

Actualmente, “la minería de datos se lleva a cabo más como un arte que como una ciencia” (Marbán, Segovia, Menasalvas y Fernández-Baizán 2009)

Esto se debe principalmente a:• Datos poco estructurados • Ausencia de propuestas de modelos conceptuales para todas

las etapas del proceso KDD

7 7

Parte I: Introducción

El problema actual en el desarrollo de modelos de minería de datos

Desventajas relacionadas con esta perspectiva• Incapacidad para garantizar la calidad de los datos• Duplicidad de tareas de preprocesado• Imposibilidad de reutilización de modelos de minería de datos

8 8

Parte I: Introducción

El rol de los almacenes de datosUn almacén de datos es “una colección de datos

orientada a un dominio, variables en el tiempo, integrados y no volátiles que da soporte a la toma de decisiones” (Inmon 1996).

Facilita la minería de datos en los siguientes aspectos:• El preprocesado de los datos• El acceso a los mismosy si existe un modelo del almacén de datos, facilita además:• La comprensión de la estructura y relaciones en los datos

9 9

El rol de los almacenes de datosEl preprocesado de los datos

Parte I: Introducción

Fuentes de datos

OLTP

Ficheros

ExtracciónExtracción

LimpiezaLimpieza

Transformación

Transformación

AgregaciónAgregación

FiltradoFiltrado

UniónUnión

……

Almacén de datos

Facilita el acceso a datos preparados para el análisis

Facilita el acceso a datos preparados para el análisis

10 10

Parte I: Introducción

El rol de los almacenes de datosUn modelo conceptual facilita la comprensión de los datos

11 11

Contenido

• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados

• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales

• Parte III: Aspectos prácticos» Implementación» Caso de estudio

• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros

12 12

Parte I: Introducción

HipótesisEs factible modelar conceptualmente las técnicas

de minería dedatos de una manera integrada con el modelado del

almacén dedatos en el marco del proceso de descubrimiento

de conocimiento.

13 13

Parte I: Introducción

Objetivos• Objetivo principal: Proponer perfiles UML para el modelado

conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimientoObjetivos específicos » Objetivo 1: Analizar las propuestas existentes en el campo

del modelado conceptual de minería de datos en el contexto de descubrimiento de conocimiento

» Objetivo 2: Proponer los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos

14 14

Parte I: Introducción

Objetivos» Objetivo 3: Proponer los perfiles UML para modelar

conceptualmente las técnicas de minería de datos sobre modelos multidimensionales de almacenes de datos

» Objetivo 4: Diseñar e implementar los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento

» Objetivo 5: Contrastar la viabilidad de la propuesta en un caso de estudio

15 15

Contenido

• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados

• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales

• Parte III: Aspectos prácticos» Implementación» Caso de estudio

• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros

16 16

Parte I: Introducción

Trabajos relacionadosFuentes de datos

OLTP

Ficheros

ExtracciónExtracción

LimpiezaLimpieza

Transformación

Transformación

AgregaciónAgregación

FiltradoFiltrado

UniónUnión

……

Almacén de datosOLAPOLAP

InformesInformes

What-ifWhat-if

Minería de datosMinería de datos

Conceptual

Lógico

Físico

LUCENTIA (Luján-Mora et al.)

DaWaK’05-06-07-08ECDM’07-08

DKE’07INFSOF’09

CWM CWM

DMXJDMSQL/MM

PBMS *

LUCENTIA (Trujillo et al.)

LUCENTIA (Luján-Mora et al.)

LUCENTIA (Luján-Mora et al.)

LUCENTIA (Muñoz et al.)

(Tziovara et al.)

CWM

PMML

17 17

Parte I: Introducción

Trabajos relacionadosCommon Warehouse Metamodel (CWM)• Es un metamodelo para la representación de los metadatos

usados en el ámbito de almacenes de datos • Enfocado al intercambio de metadatos a bajo nivel entre

herramientas de almacenes de datos• Dado que esta dirigido al modelado lógico de estos sistemas

es demasiado complejo para los analistas

18 18

Parte I: Introducción

Trabajos relacionadosCommon Warehouse Metamodel (CWM)• Es un metamodelo para la representación de los metadatos

usados en el ámbito de almacenes de datos • Enfocado al intercambio de metadatos a bajo nivel entre

herramientas de almacenes de datos• Dado que esta dirigido al modelado lógico de estos sistemas

es demasiado complejo para los analistas

19 19

Parte I: Introducción

Trabajos relacionadosPredictive Model Markup Language (PMML)• Facilita el intercambio de modelos usando el estándar XML• Su objetivo principal es el intercambio de modelos de minería• También para el intercambio de los resultados de minería de

datos • No está orientado al diseño de modelos conceptuales• Solo considera una única tabla como fuente de datos

20 20

Parte I: Introducción

Trabajos relacionadosPattern Base Management System (PBMS)• Propone un repositorio para patrones de conocimiento• Permite modelar los patrones resultantes de distintas técnicas

de minería de datos • No facilita el modelado conceptual de la minería de datos • No tiene en cuenta las fuentes de datos

21 21

Contenido

• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados

• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales

• Parte III: Aspectos prácticos» Implementación» Caso de estudio

• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros

22 22

Parte I: Introducción

Técnicas de minería de datos: Reglas de asociaciónSirve para ver la relaciones de asociación existentes en los datos

• Ejemplo: Análisis de la cesta de la compra

23 23

Parte II: Perfiles UML para minería de datos

Reglas de asociaciónSirve para ver la relaciones de asociación existentes en los datosAjustes básicos• Conjunto de ítems frecuentes• Soporte mínimo• Soporte máximo• Confianza mínima• Número de filas en el conjunto• Exclusiones del conjunto de ítems frecuentes• Longitud de la regla de asociación

24 24

Parte II: Perfiles UML para minería de datos

Reglas de asociaciónSirve para ver la relaciones de asociación existentes en los datos• Dominio

Ajustes

Conjunto de ítems frecuentesSoporte mínimoSoporte máximoConfianza mínimaNúmero de filas en el conjuntoExclusiones del conjuntoLongitud de la regla de asociación

Ajustes

Conjunto de ítems frecuentesSoporte mínimoSoporte máximoConfianza mínimaNúmero de filas en el conjuntoExclusiones del conjuntoLongitud de la regla de asociación

Atributos

EntradaPredicciónCaso

Atributos

EntradaPredicciónCaso

Modelo Multidimensional

Hechos DimensionesBase

Modelo Multidimensional

Hechos DimensionesBase

Resultados

AntecedenteConsecuenteSoporteConfianza

Resultados

AntecedenteConsecuenteSoporteConfianza

25 25

Parte II: Perfiles UML para minería de datos

Reglas de asociación

26 26

Parte II: Perfiles UML para minería de datos

Reglas de asociación

Basado en el Perfil UML para modelado multidimensionalPermite obtener fácilmente distintos tipos de reglas de asociación: • Simples y multi-dimensionales• Simple o múltiple predicado• Inter-dimensionales o de dimensión híbrida• De uno ó múltiples niveles

27 27

Contenido

• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados

• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales

• Parte III: Aspectos prácticos» Implementación» Caso de estudio

• Parte IV: Aspectos finales» Conclusiones» Contribuciones de esta tesis» Trabajos futuros

28 28

Parte I: Introducción

Técnicas de minería de datos: ClasificaciónPermite conocer cuales son los factores más influyentes en una variableEjemplo: Análisis del riesgo de muerte por infarto

Presión sistólica < 91Presión sistólica > 91

Edad > 62 años

Síntoma “Taquicardia”Síntoma “Indigestión”

Colesterol < 200

Triglicéridos < 200

29 29

Parte II: Perfiles UML para minería de datos

ClasificaciónPermite conocer cuales son los factores más influyentes en una variableAjustes básicos:• Algoritmo• Soporte mínimo• Confianza mínima• Número máximo de niveles• Medida de homogeneidad• Límite para el conjunto de datos• Exclusiones del conjunto de datos

30 30

Parte II: Perfiles UML para minería de datos

ClasificaciónSirve para ver la relaciones de asociación existentes en los datos• Dominio

Ajustes

AlgoritmoSoporte mínimoConfianza mínimaNúmero máximo de nivelesMedida de homogeneidadLímite para el conjunto de datosExclusiones del conjunto de datos

Ajustes

AlgoritmoSoporte mínimoConfianza mínimaNúmero máximo de nivelesMedida de homogeneidadLímite para el conjunto de datosExclusiones del conjunto de datos

Atributos

EntradaPredicciónCaso

Atributos

EntradaPredicciónCaso

Modelo Multidimensional

Hechos DimensionesBase

Modelo Multidimensional

Hechos DimensionesBase

Resultados

AntecedenteConsecuenteSoporteConfianza

Resultados

AntecedenteConsecuenteSoporteConfianza

31 31

Parte II: Perfiles UML para minería de datos

Clasificación

32 32

Parte II: Perfiles UML para minería de datos

Clasificación

Soporte mínimoConfianza mínimaNúmero máximo de nivelesMedida de homogeneidad

33 33

Contenido

• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados

• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales

• Parte III: Aspectos prácticos» Implementación» Caso de estudio

• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros

34 34

Parte I: Introducción

Técnicas de minería de datos: ClusteringDescubre “grupos” de comportamiento comúnEjemplo: Segmentación de mercado según datos de tarjetas de crédito

Nº de coches = 2Nº de hijos = 2Viajes anuales > 2Tarjeta tipo = “Oro”

Nº de coches = 2Nº de hijos = 2Viajes anuales > 2Tarjeta tipo = “Oro”

Nº de coches = 0Nº de hijos = 0Viajes anuales > 3Tarjeta tipo = “Platinum”

Nº de coches = 0Nº de hijos = 0Viajes anuales > 3Tarjeta tipo = “Platinum”

35 35

Parte II: Perfiles UML para minería de datos

ClusteringDescubre “grupos” de comportamiento comúnAjustes básicos• Soporte mínimo• Número máximo de iteraciones• Número máximo de clústers• Número de clústers• Tolerancia• Máximo número de atributos de entrada• Tamaño de la muestra• Número máximo de categorías en un atributo de entrada• Sensibilidad• Exclusiones del conjunto de datos

36 36

Parte II: Perfiles UML para minería de datos

Clustering

37 37

Parte II: Perfiles UML para minería de datos

Clustering

38 38

Contenido

• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados

• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales

• Parte III: Aspectos prácticos» Implementación» Caso de estudio

• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros

39 39

Parte I: Introducción

Técnicas de minería de datos: Análisis de series temporales

Permite conocer una variable temporal, describir sus parámetros y predecir valores futuros

Ejemplo: Estudio de cobertura de algas en el litoral Mediterráneo de Alicante

40 40

Parte II: Perfiles UML para minería de datos

Análisis de series temporalesPermite conocer una variable temporal, descubirla y predecir valores futurosCaracterísticas básicas• Período• Número de períodos• Ventana bajo análisis• Soporte mínimo• Tratamiento de valores ausentes• Restricción de valores

41 41

Parte II: Perfiles UML para minería de datos

Análisis de series temporales

42 42

Parte II: Perfiles UML para minería de datos

Análisis de series temporales

43 43

Contenido

• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados

• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales

• Parte III: Aspectos prácticos» Implementación» Caso de estudio

• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros

44 44

Parte III: Aspectos prácticos

Implementación: Plataforma Eclipse

45 45

Parte III: Aspectos prácticos

Implementación

46 46

Parte III: Aspectos prácticos

Implementación: Reglas de Asociación

47 47

Parte III: Aspectos prácticos

Implementación: Reglas de Asociación

48 48

Parte III: Aspectos prácticos

Implementación: Clasificación

49 49

Parte III: Aspectos prácticos

Implementación: Clasificación

50 50

Parte III: Aspectos prácticos

Implementación: Clasificación

51 51

Parte III: Aspectos prácticos

Implementación: Clustering

52 52

Parte III: Aspectos prácticos

Implementación: Clustering

53 53

Parte III: Aspectos prácticos

Implementación: Clustering

54 54

Parte III: Aspectos prácticos

Implementación: Series Temporales

55 55

Parte III: Aspectos prácticos

Implementación: Series Temporales

56 56

Parte III: Aspectos prácticos

Implementación: Series Temporales

Capturas de Merl por mes: AnalisisST

57 57

Contenido

• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados

• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales

• Parte III: Aspectos prácticos» Implementación» Caso de estudio

• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros

58 58

Parte III: Aspectos prácticos

Caso de estudio: Proyecto EMPAFISHEuropean Marine Protected Areas as tools for the Fishery

management and conservation • Financiado por VI Programa Marco de I+D+I de la Unión Europea • Participan catorce instituciones europeas

59 59

Parte III: Aspectos prácticos

Caso de estudio: Proyecto EMPAFISHObjetivos principales

• Investigar el potencial de los diferentes tipos de Áreas Marinas Protegidas en Europa para la protección de especies, hábitats o ecosistemas sensibles al efecto de la pesca

• Desarrollar métodos cuantitativos para evaluar el efecto de las Áreas Marinas Protegidas

• Proporcionar a la Unión Europea una serie de medidas integradas y propuestas de gestión para la implementación de las Áreas Marinas Protegidas como herramienta de gestión de pesquerías.

60 60

Caso de estudio: Proyecto EMPAFISHPreguntas que guían la búsqueda de conocimiento• ¿Es importante el tamaño de la zona protegida? • ¿La cercanía de las áreas marinas protegidas puede afectar en alguna

medida? • ¿Mejora el comportamiento de las áreas marinas protegidas a lo largo del

tiempo? • ¿Cómo afecta a la movilidad de las especies marinas? • ¿Afecta a la biodiversidad?

Parte III: Aspectos prácticos

61 61

Parte III: Aspectos prácticos

Caso de estudioModelo multidimensional del almacén de datos

62 62

Caso de estudioModelo conceptual para Minería de datos con Clasificación

Aspectos prácticos

63 63

Predicción

Entrada

Caso

Aspectos prácticos

Caso de estudioTransformación a código de los modelos conceptuales de minería de datos

64 64

Aspectos prácticos

Caso de estudio

65 65

Contenido

• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados

• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales

• Parte III: Aspectos prácticos» Implementación» Caso de estudio

• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros

66 66

Parte IV: Aspectos finales

Conclusiones• El diseño de modelos de minería con la herramienta

propuesta permite integrar el diseño de modelos conceptuales de minería de datos en un proceso global de búsqueda de conocimiento KDD

• Aprovecha el esfuerzo dedicado a las etapas previas (ETL y Almacén de datos)

• Evita duplicidades en tareas costosas• Facilita la reutilización de modelos• Provee un mecanismo de documentación

67 67

Parte IV: Aspectos finales

Conclusiones Principales aportaciones de esta tesis

• Una revisión del estado del arte para el modelado de minería de datos

• La propuesta de modelos conceptuales que facilitan el diseño de las diversas técnicas de minería de datos

• La formalización de las técnicas de minería de datos mediante el uso de metamodelos

• La extensión de UML con perfiles específicos para el dominio de las técnicas de minería de datos

• (continúa en la sig. página)

68 68

Parte IV: Aspectos finalesfinales

Conclusiones Principales aportaciones de esta tesis

• (continuación)• La creación de un entorno de modelado de las técnicas de

minería de datos• La definición e implementación de las transformaciones entre

modelo-código (para una plataforma específica)• El desarrollo de un prototipo en forma de plug-in de Eclipse

para el desarrollo de proyectos de descubrimiento de conocimiento.

69 69

Parte IV: Aspectos finales

ConclusionesPodemos verificar que se cumple la Hipótesis inicial:

Es factible modelar conceptualmente las técnicas de minería de

datos de una manera integrada con el modelado del almacén de

datos en el marco del proceso de descubrimiento de conocimiento.

70 70

Parte IV: Aspectos finales

ConclusionesVerificación del cumplimiento de los objetivos

Objetivo principal: Hemos propuesto los perfiles UML para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimientoObjetivos específicos Objetivo 1: Hemos analizado las propuestas existentes en

el campo del modelado conceptual de minería de datos en el contexto de descubrimiento de conocimiento

Objetivo 2: Hemos propuesto los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos

71 71

Parte IV: Aspectos finales

ConclusionesVerificación del cumplimiento de los objetivos

Objetivo 3: Hemos propuesto los perfiles UML para modelar conceptualmente las técnicas de minería de datos sobre modelos multidimensionales de almacenes de datos

Objetivo 4: Hemos diseñado e implementado los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento

Objetivo 5: Hemos contrastado la viabilidad de la propuesta en un caso de estudio

72 72

Contenido

• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados

• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales

• Parte III: Aspectos prácticos» Implementación» Caso de estudio

• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros

73 73

Parte IV: Aspectos finales

Producción científica• Un total de 19 trabajos publicados como producción científica

de esta tesis• 2 en revistas JCR• 11 en congresos internacionales • 6 en congresos o talleres nacionales.

74 74

Parte IV: Aspectos finales

Producción científica

75 75

Parte IV: Aspectos finales

Producción científica

76 76

Parte IV: Aspectos finales

Producción científica

77 77

Parte IV: Aspectos finales

Producción científica

78 78

Contenido

• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados

• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales

• Parte III: Aspectos prácticos» Implementación» Caso de estudio

• Parte IV: Aspectos finales» Conclusiones» Contribuciones de esta tesis» Trabajos futuros

79 79

Parte IV: Aspectos finales

Trabajos futuro• Propuestas para el diseño de técnicas de minería de datos

aplicando el paradigma del desarrollo dirigido por modelos• Estudio y posible incorporación de herramientas de modelado

conceptual para de técnicas de aprendizaje automático (machine learning ) y reconocimiento de patrones (pattern recognition o matching)

• Marco de medición de la calidad de los modelos• Validación empírica de la comprensibilidad de los modelos

propuestos

80 80

Parte IV: Aspectos finales

Trabajos futuro• Incorporación de aspectos de seguridad en minería de datos• Estudio e incorporación del modelado conceptual para la

minería de datos geográficos• Concienciación en la comunidad científica de la necesidad de

abordar la minería de datos desde etapas aún más tempranas en el diseño de un proyecto de descubrimiento de conocimiento

81 81

Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre

almacenes de datos

Tesis DoctoralJosé Jacobo Zubcoff Vallejo

26 de Junio de 2009Alicante, España

Grupo de Investigación LucentiaDepartamento de Lenguajes y Sistemas Informáticos

Director: Juan Carlos Trujillo Mondéjar

82