juan pedro febles kdd y md “kdd y md” “kdd y md” dr. juan pedro febles rodríguez bioinfo...

Juan Pedro Febles KDD y MD

“ “KDD y MD”KDD y MD”

Dr. Juan Pedro Febles RodríguezDr. Juan Pedro Febles Rodríguez

BIOINFOBIOINFO

CITMACITMA

20052005

[email protected] http://www.bioinfo.cu

mailto:[email protected]


Temas a tratarTemas a tratar

•Algunos antecedentes académicos.

•El proceso de descubrimiento de conocimientos en Datos (KDD).

•La minería de datos, un momento del KDD.


Objetivos

•Exponer la urgencia de trascender los métodos tradicionales para estudiar los datos existentes y poder descubrir conocimientos que pueden ser usados en la toma de decisiones.

•Identificar temas de colaboración entre portadores de los datos y especialistas de las ciencias básicas


Pincelada de historia académica

1985: Douglas Fisher funda la “ Artificial Intelligence and Statistic Society”.

Ligada: “First International Workshop on artificial intelligence and statistic”. A partir de entonces la conferencia es bianual.

Objetivo principal: Promover la comunicación entre la comunidad estadística y la de Inteligencia artificial.

1994: Cheesman y Olford escriben:

“ We feel that there is great potential for development at the interceccion of artificial Intelligence, computational science and statistic.”


Familia de problemas

como

Clasificación

IA Estadística

Consiste en

Encontrar las clases en que se estructura un dominio dado


El Conocimiento humano

Comprender el mundo

Tres técnicas básicas

para

utiliza

Diferenciación de la experiencia en objetos

particulares y sus atributos

Distinción entre el todo y sus partes Clasificación

Observación: Un buen número de aplicaciones reales en KDD o bien requieren un proceso de clasificación o son reducibles a el.


Otros momentos importantes

I989: Primer “ Workshop on Kowledge Discovery of Datos” en el seno de IJCAI, International Joint Conference on Artificial Intelligence.

1996: Famosa definición de Fayyad, sobre KDD y MD. “The non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. “


Información oculta

MD

•IA

•Estadística

•Encontrar patrones

•Descubrir relaciones

Crear modelos

Representación

Abstracta de la Realidad

Problema

aplica

para

que permita

MT

KDD

preparación los datos

la interpretaciónofrece

Significado del conocimiento extraído

para

La toma de decisiones

no sies

que son

abarca

y


KDD

Desde un nivel abstracto: Desarrollo de técnicas y métodos para darle sentido a los datos.

El problema básico del KDD es: Partir de un conjunto de datos voluminoso y casi ininteligible y convertirlo en otro:

•Mas compacto

•Mas abstracto

•Mas útil


Meta

•Procesar automáticamente grandes cantidades de datos crudos,

•identificar los patrones más significativos y relevantes,

•y presentarlos como conocimiento apropiado para satisfacer las metas del usuario.


Ciencia

Astronomía: Los éxitos obtenidos por SKICAT, un sistema usado por los astrónomos para analizar, clasificar y catalogar objetos celestes. 3 terabytes de información

Economía

•Marketing.

•Inversiones

•Detección de fraude

Telecomunicaciones

Limpieza de datos

Creciente interésCreciente interés


Resumen de los pasos en un proceso de KDD

Primero: Esclarecer las características y prioridades del dominio e identificar las metas del proceso que se va a realizar desde el punto de vista del cliente o usuario.

Segundo: Seleccionar el conjunto de datos, o enfatizar las variables o muestras sobre los cuales el descubrimiento va a ser ejecutado.

Tercero: Limpieza y preprocesamiento de los datos. Incluye eliminación de ruidos, estrategias para recuperar datos perdidos, posibles cambios de los datos, etc.


Resumen proceso de KDD

Cuarto: Reducción y proyección. Se trata de encontrar rasgos útiles para representar los datos de acuerdo a las metas propuestas.

Quinto: Se trata de casar las metas del proceso de KDD planteadas en el primer paso, con un método particular de DM.

Sexto: Selección de hipótesis. Métodos, algoritmos de MD, parámetros asociados a los modelos. Por ejemplo el usuario final puede estar mas interesado en un modelo predictivo.


Resumen proceso de KDD

Séptimo: Minería de datos. Es la búsqueda de patrones de interés en una forma particular de representación: reglas, árboles, regresión ,clustering ,etc.

Octavo: Interpretación de los patrones minados. Puede incluir visualización de los patrones extraídos.

Noveno: Actuar con el conocimiento descubierto: directamente; incorporándolo a otro sistema; documentándolo y publicándolo; etc.


KDD


Minería de Datos: ConceptoMinería de Datos: Concepto

Minería de Datos o Data Mining tiene distintas definiciones según el área en la

que se utiliza, en general se dice que:Permite establecer procesos de forma automatizada para la obtención de información a partir de grandes cantidades de datos.


MINERIA DE DATOS


Dos tipos de metas

Verificación: El sistema esta limitado a la hipótesis del usuario.

Descubrimiento: El sistema, automáticamente, encuentra nuevos patrones.

Puede ser para:

Predicción: Cuando el sistema encuentra patrones por predicción del comportamiento de alguna entidad.

Descripción: Donde el sistema presenta los datos de forma inteligible para los humanos.


Típicamente un algoritmo de DM tiene tres componentes:

• El modelo.

• Criterio de preferencia o elección

• El algoritmo de búsqueda.


Topologías del modelo

Por su función puede ser de clasificación, regresión, clustering, de generación de reglas, reglas de asociación, modelos de dependencia o análisis de secuencias.

Por su representación puede ser redes neuronales, árboles de decisión, discriminación lineal, etc.


Aprendizaje automático (machine learning).

Edad: cuatro décadas

Objetivo: desarrollar métodos computacionales que implementan varias formas de aprendizaje, en particular, mecanismos capaces de inducir conocimientoconocimiento a partir de datos.

Aplicación: problemas que carecen de solución algorítmica eficiente, son vagamente definidos, o informalmente especificados.

Ejemplos: diagnostico médico, reconocimiento de patrones visuales y detección de regularidades en enormes cantidades de datos.


Algoritmos más utilizados en AA

•Aprendizaje basado en árboles de decisión •Aprendizaje basado en redes neuronales artificiales

•Aprendizaje probabilístico y Bayesiano •Aprendizaje basado en instancias •Aprendizaje evolutivo •Aprendizaje lógico inductivo •Aprendizaje por refuerzo


Tendencias en Aprendizaje AutomáticoTendencias en Aprendizaje Automático

1. Aprendizaje por Refuerzo.2. Aprendizaje estadístico.

Maquinas de soporte vectorial

Aprendizaje de redes bayesianas

3. Métodos basados en conjunto de clasificadores

4. Razonamiento basado en casos


Reconocimiento de patrones (pattern recognition o matching),

Edad: + de cuatro décadas

Objetivo: estudiar el desarrollo y aplicación de sistemas complejos basados en técnicas "blandas" (redes neuronales, lógica borrosa, algoritmos evolutivos, etc.) para la tarea de clasificación adaptable de patrones, en una doble vertiente de reconocimiento y de focalización

(conocimiento contextual).

Aplicación: problemas de los que no se dispone de un modelo matemático, o el modelo es demasiado complejo, o las propiedades estadísticas de los datos son muy variables

Ejemplos: patrones visuales basados en imágenes aéreas o satelitales, clasificación y diagnóstico, problemas relacionados en el campo del control inteligente, etc.


soft-computing

Edad: ultimas dos décadas

Característica: engloba gran parte de las metodologías que pueden ser aplicadas en DM. Algunas de las metodologías más extendidas y usadas son: algoritmos genéticos, lógica fuzzy, redes neuronales, razonamiento basado en casos, conjuntos rough o hibridaciones de las anteriores.


MINERIA DE DATOS


Métodos de la Minería de DatosMétodos de la Minería de Datos

1.Clasificación

2.Regresión

3.Agrupamiento (Clustering)

4.Resumen

5.Modelado de dependencia

6.Análisis de secuencias


Clasificación

Obtener un modelo que permita asignar un caso de clase desconocida a una clase concreta.


Agrupamiento (clustering)

Hacer corresponder cada caso a una clase. Estas clases se obtienen directamente de los datos de entrada usando medidas de similaridad.


Modelado de Dependencias

Obtener descripciones de dependencias existentes entre variables. Ejemplo reglas de asociación.


Regresión

Obtener un modelo que permita predecir el valor numérico de alguna variable


Resumen

Obtener representaciones compactas para subconjuntos de los datos de entrada. (Análisis interactivo de datos , generación automática de informes, visualización de datos, etc.)


Análisis de secuencias

Se intenta modelar la evolución temporal de alguna variable, confines descriptivos o predictivos


MINERIA DE DATOS


La mayoría de los datos que se necesitan para el Data Mining se encuentran en bases de datos heterogéneas que necesitan ser integradas para su posterior análisis por Data Mining. En este sentido el Data warehouse es una de las tecnologías claves de gestión de datos para llevar a cabo Data Mining.

En español pueden ser llamados: almacenes o bodegas de datos

Data warehouseData warehouse


Almacenes de Datos y Minería de Datos

Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a partir de datos. se puede hacer minería de datos sobre un simple fichero de datos.

Las ventajas de organizar un almacén de datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando: tenemos grandes volúmenes de datos, o éstos aumentan con el tiempo, o provienen de fuentes heterogéneas o se van a combinar de maneras arbitrarias y no predefinidas.

¿Es necesario tener almacenes de datos para realizar minería de datos?


•Es un subconjunto de un DW para un propósito específico.•Se puede ver como una vista del DW orientada a un aspecto de un negocio, con un tiempo de vida reducido •Su función es apoyar a otros sistemas para la toma de decisiones. •Un datamart debe permitir consultas de muchas formas usando herramientas OLAP.

Dos enfoques para construir DW: 1. Construir primero un núcleo del DW y luego hacer varios datamarts. 2. Construir primero un datamart e ir expandiendo la bodega de datos y añadiendo nuevos datamarts.

DatamartDatamart


RETOSRETOS

1.1.La facilidad con que se puede caer en La facilidad con que se puede caer en una falsa interpretación.una falsa interpretación.

2.2.Las precisión de las mediciones Las precisión de las mediciones (tiempo, instrumento,…).(tiempo, instrumento,…).

3.3.La protección a la privacidad (empleo La protección a la privacidad (empleo de tarjetas de créditos como fuente de de tarjetas de créditos como fuente de datos, …).datos, …).


MD vs MTMD vs MT

•la minería de la minería de datos pretende datos pretende extraer los extraer los metadatos a partir metadatos a partir de de información información textual textual necesariamente necesariamente estructuradaestructurada

•la minería de textos la minería de textos no se limita sólo a la no se limita sólo a la

información que información que cumple con cumple con

requerimientos requerimientos específicos o que está específicos o que está organizada de forma organizada de forma

manual, sino que manual, sino que aplica a todo tipo aplica a todo tipo de informaciónde información..


Swanson y SmalheiserSwanson y Smalheiser

““el stress se asocia a las migrañas. El estrés el stress se asocia a las migrañas. El estrés genera pérdidas de magnesio. Los genera pérdidas de magnesio. Los

bloqueadores de calcio previenen las bloqueadores de calcio previenen las migrañas. El magnesio es un bloqueador migrañas. El magnesio es un bloqueador

natural del calcio. La difusión de la natural del calcio. La difusión de la depresión cortical (SCD) aparece en casos depresión cortical (SCD) aparece en casos

de migraña. Altos niveles de magnesio de migraña. Altos niveles de magnesio inhiben el SCD. Los pacientes con migraña inhiben el SCD. Los pacientes con migraña tienen una alta agregación de plaquetas. El tienen una alta agregación de plaquetas. El magnesio puede suprimir la agregación de magnesio puede suprimir la agregación de

plaquetas”plaquetas”


Conclusión de Conclusión de Swanson y SmalheiserSwanson y Smalheiser

vínculovínculo entre la entre la faltafalta de de magnesiomagnesio y algunos tipos de y algunos tipos de

migrañasmigrañas..


Criterios para seleccionar aplicaciones

Criterios prácticos: existe potencialmente un impacto significativo, no hay métodos alternativos, existe soporte del cliente para su desarrollo, no existen problemas de legalidad o violación a información privilegiada.

Criterios técnicos: existen suficientes datos, atributos relevantes, poco ruido en los datos, y conocimiento del dominio.


Conclusión principalConclusión principal

El DCBD y su fase fundamental de MD es una actividad El DCBD y su fase fundamental de MD es una actividad computacional extremadamente compleja que sólo rinde frutos si computacional extremadamente compleja que sólo rinde frutos si se tiene una metodología adecuada de trabajo como la descrita y se se tiene una metodología adecuada de trabajo como la descrita y se lleva a cabo con la participación interdisciplinaria de los lleva a cabo con la participación interdisciplinaria de los especialistas del área del problema y del dominio de los datos y los especialistas del área del problema y del dominio de los datos y los especialistas en computación y matemática correspondientes.especialistas en computación y matemática correspondientes.

El proceso es altamente iterativo y las iteraciones son dictadas por El proceso es altamente iterativo y las iteraciones son dictadas por las validaciones de los resultados que obligan a consecuentes las validaciones de los resultados que obligan a consecuentes reformulaciones del problema y reconsideración y refinamiento de reformulaciones del problema y reconsideración y refinamiento de los datos y algoritmos utilizados.los datos y algoritmos utilizados.

juan pedro febles kdd y md “kdd y md” “kdd y md” dr. juan pedro febles rodríguez bioinfo...

Documents