aprendizaje de máquina, minería de datos, y descubrimiento de conocimiento prof. dr. césar a....

31
Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón [email protected] www.ime.usp.br/~cbeltran

Upload: clara-villalobos-maldonado

Post on 02-Feb-2016

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

Aprendizaje de Máquina, Minería de

Datos, y Descubrimiento de

ConocimientoProf. Dr. César A. Beltrán Castañón

[email protected]

www.ime.usp.br/~cbeltran

Page 2: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

22

Contenido del Curso

Aprendizaje de Máquina input, representación, árboles de decisión

Weka Ambiente para aprendizaje de máquina

Minería de Datos asociaciones, detección de desviaciones, clustering,

visualización

Casos de Estudio marketing dirigido, microarrays genómicos,

reconocimiento de formas biológicas Minería de Datos, Privacidad y Seguridad

Page 3: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

33

Contenido de la lección

Introducción: Flujo de información

Minería de Datos: Ejemplos de Aplicación

Minería de Datos & Descubrimiento de Conocimiento

Minería de Datos: Tareas

Page 4: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

44

Tendencias en el manejo de flujo de información

Más información están siendo generados:

Banca, telecomunicaciones, otras transacciones empresariales ...

Información científica: astronomía, biología, etc

Web, texto, y comercio electrónico

Page 5: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

55

Ejemplos de gran información

Europe's Very Long Baseline Interferometry (VLBI) tiene 16 telescopios, cada uno de ellos produce 1 Gigabit/second de información astronómica Almacenamiento y análisis son un gran problema

AT&T maneja billones de llamadas por día Demasiada información, toda ella no puede ser

almacenada – el análisis tiene que ser hecho instantáneamente “on the fly” sobre el flujo de información.

Page 6: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

66

Grandes bases de datos del 2003

Bases de datos comerciales: Winter Corp. 2003 Survey: France Telecom tiene

la más grande BD para soporte a la decisión, ~30TB; AT&T ~ 26 TB

Web Alexa, archivo internet: 7 años de información,

500 TB

Google busca en billones de páginas, muchos cientos de TB

IBM WebFountain, 160 TB (2003)

Archivo Internet (www.archive.org),~ 300 TB

Page 7: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

77

De terabytes a exabytes a …

UC Berkeley estimativa 2003: 5 exabytes (5 million terabytes) de nueva información fue creada en 2002.

www.sims.berkeley.edu/research/projects/how-much-info-2003/

US produce ~40% de la nueva información mundial

Estimado 2006: 161 exabytes (estudio IDC) www.usatoday.com/tech/news/2007-03-05-data_N.htm

Proyección 2010: 988 exabytes

Page 8: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

88

Grandes bases de datos del 2005Winter Corp. 2005

Commercial Database Survey:

1. Max Planck Inst. for Meteorology , 222 TB

2. Yahoo ~ 100 TB (Largest Data Warehouse)

3. AT&T ~ 94 TB www.wintercorp.com/VLDB/2005_TopTen_Survey/TopTenWinners_2005.asp

Page 9: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

99

Crecimiento de la Información

En 2 años, el tamaño de las mayores bases de datos TRIPLICÓ!

Page 10: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

1010

Tasa de Crecimiento de la Información

Dos veces más de información fue creada el 2002 en relación a 1999 (~30% tasa de crecimiento)

Otras estimaciones indican que esta tasa de crecimiento podría ser mayor

Muy poca de esa información será buscada por una persona

Descubrimiento de Conocimiento es NECESARIO para usar y darle sentido a la información.

Page 11: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

1111

Contenido de la lección

Introducción: Flujo de Información

Minería de Datos: Ejemplos de Aplicación

Minería de Datos & Descubrimiento de Conocimiento

Minería de Datos: Tareas

Page 12: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

1212

Aprendizaje de Máquina / Minería de Datos: Áreas de aplicación

Ciencia astronomía, bioinformática, descubrimiento de drogas, …

Negocios CRM (Customer Relationship management), detección de

fraudes, comercio electrónico (e-commerce), manufactura, deporte/entretenimiento, telecomunicaciones, marketing dirigido, cuidado de la salud, …

Web: motores de búsqueda, publicidad, minería en la web y

texto, …

Gobierno seguimiento (?), detección de crímenes, fraudes, …

Page 13: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

1313

Áreas de Aplicación

¿Cuáles cree que sean las más importantes y extendidas aplicaciones de negocios de Minería de Datos?

Page 14: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

1414

Minería de Datos en el Modelamiento de Clientes

Tareas: Predicción de caidas del mercado

Marketing dirigido: Ventas cruzadas, obtención

de clientes

Riesgos de crédito

Detección de fraudes

Industrias banca, telecomunicaciones, ventas directas, …

Page 15: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

1515

Comercio electrónico

Una persona compra un libro (producto) en Amazon.com

Cuál es la tarea?

Page 16: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

1616

Comercio electrónico – Caso de estudio

Tarea: Recomendó otros libros (productos) que esta persona gustaría comprar

Amazon realiza la selección de acuerdo a libros comprados:

Clientes que compraron “Advances in Knowledge Discovery and Data Mining”, también compraron “Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations”

Programa de recomendación tiene gran éxito

Page 17: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

1717

Microarrays Genómicos – Caso de Estudio

Dada la información de microarray de un número de ejemplos (pacientes), es posible

Diagnosticar con precisión la enfermedad?

Predecir las consecuencias de un determnado tratamiento?

Recomendar el mejor tratamiento?

Page 18: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

1818

Ejemplo: información ALL/AML 38 casos de entrenamiento, 34 prueba, ~ 7,000 genes

2 Clases: Acute Lymphoblastic Leukemia (ALL) vs Acute Myeloid Leukemia (AML)

Usar datos de entrenamiento para contruir el modelo de diagnóstico

ALL AML

Resultados con los datos de prueba:33/34 correctos, 1 elemento mal

clasificado

Page 19: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

1919

Seguridad y detección de fraudes – Caso de Estudio Detección de tarjetas de crédito fraudulentas

Detección de lavado de dinero FAIS (Tesoro Público de USA)

Fraude de Seguridad Sistema KDD de NASDAQ

Fraude en telefonía AT&T, Bell Atlantic, British Telecom/MCI

Bio-terrorismo detección en Olimpiadas 2002 en Salt Lake

Page 20: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

2020

Minería de Datos y Privacidad

En 2006, NSA (National Security Agency) reportó haber minerado años de información de llamadas, con el fin de identificar redes terroristas

El análisis de red social tiene un potencial para encontrar redes

Invasión de la privacidad – creería Ud. si su información de llamadas está en una base de datos del gobierno?

Page 21: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

2222

Contenido de la lección

Introducción: Flujo de información

Minería de Datos: Ejemplos de aplicación

Minería de Datos & Descubrimiento de Conocimiento

Minería de Datos: Tareas

Page 22: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

2323

Definición de Descubrimiento de Conocimiento

Descubrimiento de Conocimiento en Información es el proceso no trivial de identificación válida

nueva

potencialmente útil

Y finalmente patrones entendibles en la información.

Ref. Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Capítulo 1), AAAI/MIT Press 1996

Page 23: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

2424

Áreas Relacionadas

Estadística

Aprendizajede Máquina

Base de Datos

Visualización

Minería de Datos yDescubrimiento de Conocimiento

Page 24: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

2525

Estadística, Aprendizaje de Máquina y Minería de Datos Estadística:

más base teórica más centrado en prueba de hipótesis

Apendizaje de Máquina más heurístico centrado en el mejoramiento de la performance de un agente de

aprendizaje también buscar por aprendizaje y robótica en tiempo real – areas que no

son parte de minería de datos

Minería de Datos y Descubrimiento de Conocimiento integra teoría y heurística centrado en el proceso entero de descubrimiento de conocimiento,

incluyendo limpieza de datos, aprendizaje, integración y visualización de resultados

Distinciones son difusas

witten&eibe

Page 25: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

2626

Flujo del Proceso de Descubrimiento de Conocimiento, de acuerdo a CRISP-DM

Monitoring

vea www.crisp-dm.orgpara más información

Page 26: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

2727

Notas Históricas: Muchos Nombres de Minería de Datos Pesca de datos, Succión de datos: 1960-

Usado por Estadístico (como un mal nombre)

Minería de Datos (Data Mining) :1990 -- usado por BD, negocios

en 2003 – mala imagen debido a TIA

Descubrimiento de Conocimiento en Base de Datos (1989-) usado en IA, Comunidad de Aprendizaje de Máquina

también Arqueología de Datos, Cosecha de Información, Descubrimiento de Información, Extracción de Conocimiento, ...

Actualmente: Minería de Datos y Descubrimiento deConocimiento son usados indistintamente

Page 27: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

2828

Contenido de la lección

Introducción: Flujo de Información

Minería de Datos: Ejemplos de Aplicación

Minería de Datos & Descubrimiento de Conocimiento

Minería de Datos: Tareas

Page 28: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

2929

Mayores tareas en Minería de Datos

Clasificación: predicción de la clase de un item

Clustering: encontrar clusters en datos

Asociaciones ej. A,B & C ocurren frecuentemente

Visualización: para facilitar el descubrimiento

Sumarización: describiendo un grupo

Detección de Desviación: encontrando cambios

Estimación: predicción de valores continuos

Análisis de Link: encontrando relaciones

Page 29: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

3030

Tareas de Minería de Datos:Clasificación

Aprender un método para predecir la clase de un elemento a partir de instancias pre-definidas (clasificadas)

Varios enfoques: Estadístico, Árboles de Decisión, Redes Neuronales, ...

Page 30: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

3131

Tareas de Minería de Datos:Clustering

Encontrar el “natural” agrupamiento de instancias dada información no identificada

Page 31: Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón cesarbc@gmail.com cbeltran

3232

Resumen:

La tecnología tiende a guiar el flujo de información minería de datos es necesaria para dar sentido a

la información

Minería de Datos tiene varias aplicaciones, exitosas y no

Proceso de Descubrimiento de Información

Tareas de la Minería de Datos clasificación, clustering, …