juan pedro febles kdd y md “kdd y md” “kdd y md” dr. juan pedro febles rodríguez bioinfo...

51
Juan Pedro Febles KDD y MD KDD y MD” KDD y MD” Dr. Juan Pedro Febles Dr. Juan Pedro Febles Rodríguez Rodríguez BIOINFO BIOINFO CITMA CITMA 2005 2005 [email protected] http://www.bioinfo.cu

Upload: atilio-marquina

Post on 23-Jan-2016

255 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

“ “KDD y MD”KDD y MD”

Dr. Juan Pedro Febles RodríguezDr. Juan Pedro Febles Rodríguez

BIOINFOBIOINFO

CITMACITMA

20052005

[email protected] http://www.bioinfo.cu

Page 2: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Temas a tratarTemas a tratar

•Algunos antecedentes académicos.

•El proceso de descubrimiento de conocimientos en Datos (KDD).

•La minería de datos, un momento del KDD.

Page 3: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Objetivos

•Exponer la urgencia de trascender los métodos tradicionales para estudiar los datos existentes y poder descubrir conocimientos que pueden ser usados en la toma de decisiones.

•Identificar temas de colaboración entre portadores de los datos y especialistas de las ciencias básicas

Page 4: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Pincelada de historia académica

1985: Douglas Fisher funda la “ Artificial Intelligence and Statistic Society”.

Ligada: “First International Workshop on artificial intelligence and statistic”. A partir de entonces la conferencia es bianual.

Objetivo principal: Promover la comunicación entre la comunidad estadística y la de Inteligencia artificial.

1994: Cheesman y Olford escriben:

“ We feel that there is great potential for development at the interceccion of artificial Intelligence, computational science and statistic.”

Page 5: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Familia de problemas

como

Clasificación

IA Estadística

Consiste en

Encontrar las clases en que se estructura un dominio dado

Page 6: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

El Conocimiento humano

Comprender el mundo

Tres técnicas básicas

para

utiliza

Diferenciación de la experiencia en objetos

particulares y sus atributos

Distinción entre el todo y sus partes Clasificación

Observación: Un buen número de aplicaciones reales en KDD o bien requieren un proceso de clasificación o son reducibles a el.

Page 7: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Otros momentos importantes

I989: Primer “ Workshop on Kowledge Discovery of Datos” en el seno de IJCAI, International Joint Conference on Artificial Intelligence.

1996: Famosa definición de Fayyad, sobre KDD y MD. “The non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. “

Page 8: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Información oculta

MD

•IA

•Estadística

•Encontrar patrones

•Descubrir relaciones

Crear modelos

Representación

Abstracta de la Realidad

Problema

aplica

para

que permita

MT

KDD

preparación los datos

la interpretaciónofrece

Significado del conocimiento extraído

para

La toma de decisiones

no sies

que son

abarca

y

Page 9: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

KDD

Desde un nivel abstracto: Desarrollo de técnicas y métodos para darle sentido a los datos.

El problema básico del KDD es: Partir de un conjunto de datos voluminoso y casi ininteligible y convertirlo en otro:

•Mas compacto

•Mas abstracto

•Mas útil

Page 10: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Meta

•Procesar automáticamente grandes cantidades de datos crudos,

•identificar los patrones más significativos y relevantes,

•y presentarlos como conocimiento apropiado para satisfacer las metas del usuario.

Page 11: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Ciencia

Astronomía: Los éxitos obtenidos por SKICAT, un sistema usado por los astrónomos para analizar, clasificar y catalogar objetos celestes. 3 terabytes de información

Economía

•Marketing.

•Inversiones

•Detección de fraude

Telecomunicaciones

Limpieza de datos

Creciente interésCreciente interés

Page 12: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Page 13: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Resumen de los pasos en un proceso de KDD

Primero: Esclarecer las características y prioridades del dominio e identificar las metas del proceso que se va a realizar desde el punto de vista del cliente o usuario.

Segundo: Seleccionar el conjunto de datos, o enfatizar las variables o muestras sobre los cuales el descubrimiento va a ser ejecutado.

Tercero: Limpieza y preprocesamiento de los datos. Incluye eliminación de ruidos, estrategias para recuperar datos perdidos, posibles cambios de los datos, etc.

Page 14: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Resumen proceso de KDD

Cuarto: Reducción y proyección. Se trata de encontrar rasgos útiles para representar los datos de acuerdo a las metas propuestas.

Quinto: Se trata de casar las metas del proceso de KDD planteadas en el primer paso, con un método particular de DM.

Sexto: Selección de hipótesis. Métodos, algoritmos de MD, parámetros asociados a los modelos. Por ejemplo el usuario final puede estar mas interesado en un modelo predictivo.

Page 15: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Resumen proceso de KDD

Séptimo: Minería de datos. Es la búsqueda de patrones de interés en una forma particular de representación: reglas, árboles, regresión ,clustering ,etc.

Octavo: Interpretación de los patrones minados. Puede incluir visualización de los patrones extraídos.

Noveno: Actuar con el conocimiento descubierto: directamente; incorporándolo a otro sistema; documentándolo y publicándolo; etc.

Page 16: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Page 17: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

KDD

Page 18: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Minería de Datos: ConceptoMinería de Datos: Concepto

Minería de Datos o Data Mining tiene distintas definiciones según el área en la

que se utiliza, en general se dice que:Permite establecer procesos de forma automatizada para la obtención de información a partir de grandes cantidades de datos.

Page 19: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

MINERIA DE DATOS

Page 20: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Page 21: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Page 22: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Dos tipos de metas

Verificación: El sistema esta limitado a la hipótesis del usuario.

Descubrimiento: El sistema, automáticamente, encuentra nuevos patrones.

Puede ser para:

Predicción: Cuando el sistema encuentra patrones por predicción del comportamiento de alguna entidad.

Descripción: Donde el sistema presenta los datos de forma inteligible para los humanos.

Page 23: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Típicamente un algoritmo de DM tiene tres componentes:

• El modelo.

• Criterio de preferencia o elección

• El algoritmo de búsqueda.

Page 24: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Topologías del modelo

Por su función puede ser de clasificación, regresión, clustering, de generación de reglas, reglas de asociación, modelos de dependencia o análisis de secuencias.

Por su representación puede ser redes neuronales, árboles de decisión, discriminación lineal, etc.

Page 25: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Aprendizaje automático (machine learning).

Edad: cuatro décadas

Objetivo: desarrollar métodos computacionales que implementan varias formas de aprendizaje, en particular, mecanismos capaces de inducir conocimientoconocimiento a partir de datos.

Aplicación: problemas que carecen de solución algorítmica eficiente, son vagamente definidos, o informalmente especificados.

Ejemplos: diagnostico médico, reconocimiento de patrones visuales y detección de regularidades en enormes cantidades de datos.

Page 26: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Algoritmos más utilizados en AA

•Aprendizaje basado en árboles de decisión •Aprendizaje basado en redes neuronales artificiales

•Aprendizaje probabilístico y Bayesiano •Aprendizaje basado en instancias •Aprendizaje evolutivo •Aprendizaje lógico inductivo •Aprendizaje por refuerzo

Page 27: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Tendencias en Aprendizaje AutomáticoTendencias en Aprendizaje Automático

1. Aprendizaje por Refuerzo.2. Aprendizaje estadístico.

Maquinas de soporte vectorial

Aprendizaje de redes bayesianas

3. Métodos basados en conjunto de clasificadores

4. Razonamiento basado en casos

Page 28: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Reconocimiento de patrones (pattern recognition o matching),

Edad: + de cuatro décadas

Objetivo: estudiar el desarrollo y aplicación de sistemas complejos basados en técnicas "blandas" (redes neuronales, lógica borrosa, algoritmos evolutivos, etc.) para la tarea de clasificación adaptable de patrones, en una doble vertiente de reconocimiento y de focalización

(conocimiento contextual).

Aplicación: problemas de los que no se dispone de un modelo matemático, o el modelo es demasiado complejo, o las propiedades estadísticas de los datos son muy variables

Ejemplos: patrones visuales basados en imágenes aéreas o satelitales, clasificación y diagnóstico, problemas relacionados en el campo del control inteligente, etc.

Page 29: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

soft-computing

Edad: ultimas dos décadas

Característica: engloba gran parte de las metodologías que pueden ser aplicadas en DM. Algunas de las metodologías más extendidas y usadas son: algoritmos genéticos, lógica fuzzy, redes neuronales, razonamiento basado en casos, conjuntos rough o hibridaciones de las anteriores.

Page 30: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

MINERIA DE DATOS

Page 31: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

MINERIA DE DATOS

Page 32: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Métodos de la Minería de DatosMétodos de la Minería de Datos

1.Clasificación

2.Regresión

3.Agrupamiento (Clustering)

4.Resumen

5.Modelado de dependencia

6.Análisis de secuencias

Page 33: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Clasificación

Obtener un modelo que permita asignar un caso de clase desconocida a una clase concreta.

Page 34: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Agrupamiento (clustering)

Hacer corresponder cada caso a una clase. Estas clases se obtienen directamente de los datos de entrada usando medidas de similaridad.

Page 35: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Modelado de Dependencias

Obtener descripciones de dependencias existentes entre variables. Ejemplo reglas de asociación.

Page 36: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Regresión

Obtener un modelo que permita predecir el valor numérico de alguna variable

Page 37: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Resumen

Obtener representaciones compactas para subconjuntos de los datos de entrada. (Análisis interactivo de datos , generación automática de informes, visualización de datos, etc.)

Page 38: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Análisis de secuencias

Se intenta modelar la evolución temporal de alguna variable, confines descriptivos o predictivos

Page 39: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

MINERIA DE DATOS

Page 40: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Page 41: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

MINERIA DE DATOS

Page 42: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

La mayoría de los datos que se necesitan para el Data Mining se encuentran en bases de datos heterogéneas que necesitan ser integradas para su posterior análisis por Data Mining. En este sentido el Data warehouse es una de las tecnologías claves de gestión de datos para llevar a cabo Data Mining.

En español pueden ser llamados: almacenes o bodegas de datos

Data warehouseData warehouse

Page 43: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Almacenes de Datos y Minería de Datos

Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a partir de datos. se puede hacer minería de datos sobre un simple fichero de datos.

Las ventajas de organizar un almacén de datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando: tenemos grandes volúmenes de datos, o éstos aumentan con el tiempo, o provienen de fuentes heterogéneas o se van a combinar de maneras arbitrarias y no predefinidas.

¿Es necesario tener almacenes de datos para realizar minería de datos?

Page 44: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

•Es un subconjunto de un DW para un propósito específico.•Se puede ver como una vista del DW orientada a un aspecto de un negocio, con un tiempo de vida reducido •Su función es apoyar a otros sistemas para la toma de decisiones. •Un datamart debe permitir consultas de muchas formas usando herramientas OLAP.

Dos enfoques para construir DW: 1. Construir primero un núcleo del DW y luego hacer varios datamarts. 2. Construir primero un datamart e ir expandiendo la bodega de datos y añadiendo nuevos datamarts.

DatamartDatamart

Page 45: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

RETOSRETOS

1.1.La facilidad con que se puede caer en La facilidad con que se puede caer en una falsa interpretación.una falsa interpretación.

2.2.Las precisión de las mediciones Las precisión de las mediciones (tiempo, instrumento,…).(tiempo, instrumento,…).

3.3.La protección a la privacidad (empleo La protección a la privacidad (empleo de tarjetas de créditos como fuente de de tarjetas de créditos como fuente de datos, …).datos, …).

Page 46: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

MD vs MTMD vs MT

•la minería de la minería de datos pretende datos pretende extraer los extraer los metadatos a partir metadatos a partir de de información información textual textual necesariamente necesariamente estructuradaestructurada

•la minería de textos la minería de textos no se limita sólo a la no se limita sólo a la

información que información que cumple con cumple con

requerimientos requerimientos específicos o que está específicos o que está organizada de forma organizada de forma

manual, sino que manual, sino que aplica a todo tipo aplica a todo tipo de informaciónde información..

Page 47: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Swanson y SmalheiserSwanson y Smalheiser

““el stress se asocia a las migrañas. El estrés el stress se asocia a las migrañas. El estrés genera pérdidas de magnesio. Los genera pérdidas de magnesio. Los

bloqueadores de calcio previenen las bloqueadores de calcio previenen las migrañas. El magnesio es un bloqueador migrañas. El magnesio es un bloqueador

natural del calcio. La difusión de la natural del calcio. La difusión de la depresión cortical (SCD) aparece en casos depresión cortical (SCD) aparece en casos

de migraña. Altos niveles de magnesio de migraña. Altos niveles de magnesio inhiben el SCD. Los pacientes con migraña inhiben el SCD. Los pacientes con migraña tienen una alta agregación de plaquetas. El tienen una alta agregación de plaquetas. El magnesio puede suprimir la agregación de magnesio puede suprimir la agregación de

plaquetas”plaquetas”

Page 48: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Conclusión de Conclusión de Swanson y SmalheiserSwanson y Smalheiser

vínculovínculo entre la entre la faltafalta de de magnesiomagnesio y algunos tipos de y algunos tipos de

migrañasmigrañas..

Page 49: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Page 50: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Criterios para seleccionar aplicaciones

Criterios prácticos: existe potencialmente un impacto significativo, no hay métodos alternativos, existe soporte del cliente para su desarrollo, no existen problemas de legalidad o violación a información privilegiada.

Criterios técnicos: existen suficientes datos, atributos relevantes, poco ruido en los datos, y conocimiento del dominio.

Page 51: Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu

Juan Pedro Febles KDD y MD

Conclusión principalConclusión principal

El DCBD y su fase fundamental de MD es una actividad El DCBD y su fase fundamental de MD es una actividad computacional extremadamente compleja que sólo rinde frutos si computacional extremadamente compleja que sólo rinde frutos si se tiene una metodología adecuada de trabajo como la descrita y se se tiene una metodología adecuada de trabajo como la descrita y se lleva a cabo con la participación interdisciplinaria de los lleva a cabo con la participación interdisciplinaria de los especialistas del área del problema y del dominio de los datos y los especialistas del área del problema y del dominio de los datos y los especialistas en computación y matemática correspondientes.especialistas en computación y matemática correspondientes.

El proceso es altamente iterativo y las iteraciones son dictadas por El proceso es altamente iterativo y las iteraciones son dictadas por las validaciones de los resultados que obligan a consecuentes las validaciones de los resultados que obligan a consecuentes reformulaciones del problema y reconsideración y refinamiento de reformulaciones del problema y reconsideración y refinamiento de los datos y algoritmos utilizados.los datos y algoritmos utilizados.