aprendizaje de máquina, minería de datos, y descubrimiento de conocimiento prof. dr. césar a....

Post on 02-Feb-2016

222 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Aprendizaje de Máquina, Minería de

Datos, y Descubrimiento de

ConocimientoProf. Dr. César A. Beltrán Castañón

cesarbc@gmail.com

www.ime.usp.br/~cbeltran

22

Contenido del Curso

Aprendizaje de Máquina input, representación, árboles de decisión

Weka Ambiente para aprendizaje de máquina

Minería de Datos asociaciones, detección de desviaciones, clustering,

visualización

Casos de Estudio marketing dirigido, microarrays genómicos,

reconocimiento de formas biológicas Minería de Datos, Privacidad y Seguridad

33

Contenido de la lección

Introducción: Flujo de información

Minería de Datos: Ejemplos de Aplicación

Minería de Datos & Descubrimiento de Conocimiento

Minería de Datos: Tareas

44

Tendencias en el manejo de flujo de información

Más información están siendo generados:

Banca, telecomunicaciones, otras transacciones empresariales ...

Información científica: astronomía, biología, etc

Web, texto, y comercio electrónico

55

Ejemplos de gran información

Europe's Very Long Baseline Interferometry (VLBI) tiene 16 telescopios, cada uno de ellos produce 1 Gigabit/second de información astronómica Almacenamiento y análisis son un gran problema

AT&T maneja billones de llamadas por día Demasiada información, toda ella no puede ser

almacenada – el análisis tiene que ser hecho instantáneamente “on the fly” sobre el flujo de información.

66

Grandes bases de datos del 2003

Bases de datos comerciales: Winter Corp. 2003 Survey: France Telecom tiene

la más grande BD para soporte a la decisión, ~30TB; AT&T ~ 26 TB

Web Alexa, archivo internet: 7 años de información,

500 TB

Google busca en billones de páginas, muchos cientos de TB

IBM WebFountain, 160 TB (2003)

Archivo Internet (www.archive.org),~ 300 TB

77

De terabytes a exabytes a …

UC Berkeley estimativa 2003: 5 exabytes (5 million terabytes) de nueva información fue creada en 2002.

www.sims.berkeley.edu/research/projects/how-much-info-2003/

US produce ~40% de la nueva información mundial

Estimado 2006: 161 exabytes (estudio IDC) www.usatoday.com/tech/news/2007-03-05-data_N.htm

Proyección 2010: 988 exabytes

88

Grandes bases de datos del 2005Winter Corp. 2005

Commercial Database Survey:

1. Max Planck Inst. for Meteorology , 222 TB

2. Yahoo ~ 100 TB (Largest Data Warehouse)

3. AT&T ~ 94 TB www.wintercorp.com/VLDB/2005_TopTen_Survey/TopTenWinners_2005.asp

99

Crecimiento de la Información

En 2 años, el tamaño de las mayores bases de datos TRIPLICÓ!

1010

Tasa de Crecimiento de la Información

Dos veces más de información fue creada el 2002 en relación a 1999 (~30% tasa de crecimiento)

Otras estimaciones indican que esta tasa de crecimiento podría ser mayor

Muy poca de esa información será buscada por una persona

Descubrimiento de Conocimiento es NECESARIO para usar y darle sentido a la información.

1111

Contenido de la lección

Introducción: Flujo de Información

Minería de Datos: Ejemplos de Aplicación

Minería de Datos & Descubrimiento de Conocimiento

Minería de Datos: Tareas

1212

Aprendizaje de Máquina / Minería de Datos: Áreas de aplicación

Ciencia astronomía, bioinformática, descubrimiento de drogas, …

Negocios CRM (Customer Relationship management), detección de

fraudes, comercio electrónico (e-commerce), manufactura, deporte/entretenimiento, telecomunicaciones, marketing dirigido, cuidado de la salud, …

Web: motores de búsqueda, publicidad, minería en la web y

texto, …

Gobierno seguimiento (?), detección de crímenes, fraudes, …

1313

Áreas de Aplicación

¿Cuáles cree que sean las más importantes y extendidas aplicaciones de negocios de Minería de Datos?

1414

Minería de Datos en el Modelamiento de Clientes

Tareas: Predicción de caidas del mercado

Marketing dirigido: Ventas cruzadas, obtención

de clientes

Riesgos de crédito

Detección de fraudes

Industrias banca, telecomunicaciones, ventas directas, …

1515

Comercio electrónico

Una persona compra un libro (producto) en Amazon.com

Cuál es la tarea?

1616

Comercio electrónico – Caso de estudio

Tarea: Recomendó otros libros (productos) que esta persona gustaría comprar

Amazon realiza la selección de acuerdo a libros comprados:

Clientes que compraron “Advances in Knowledge Discovery and Data Mining”, también compraron “Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations”

Programa de recomendación tiene gran éxito

1717

Microarrays Genómicos – Caso de Estudio

Dada la información de microarray de un número de ejemplos (pacientes), es posible

Diagnosticar con precisión la enfermedad?

Predecir las consecuencias de un determnado tratamiento?

Recomendar el mejor tratamiento?

1818

Ejemplo: información ALL/AML 38 casos de entrenamiento, 34 prueba, ~ 7,000 genes

2 Clases: Acute Lymphoblastic Leukemia (ALL) vs Acute Myeloid Leukemia (AML)

Usar datos de entrenamiento para contruir el modelo de diagnóstico

ALL AML

Resultados con los datos de prueba:33/34 correctos, 1 elemento mal

clasificado

1919

Seguridad y detección de fraudes – Caso de Estudio Detección de tarjetas de crédito fraudulentas

Detección de lavado de dinero FAIS (Tesoro Público de USA)

Fraude de Seguridad Sistema KDD de NASDAQ

Fraude en telefonía AT&T, Bell Atlantic, British Telecom/MCI

Bio-terrorismo detección en Olimpiadas 2002 en Salt Lake

2020

Minería de Datos y Privacidad

En 2006, NSA (National Security Agency) reportó haber minerado años de información de llamadas, con el fin de identificar redes terroristas

El análisis de red social tiene un potencial para encontrar redes

Invasión de la privacidad – creería Ud. si su información de llamadas está en una base de datos del gobierno?

2222

Contenido de la lección

Introducción: Flujo de información

Minería de Datos: Ejemplos de aplicación

Minería de Datos & Descubrimiento de Conocimiento

Minería de Datos: Tareas

2323

Definición de Descubrimiento de Conocimiento

Descubrimiento de Conocimiento en Información es el proceso no trivial de identificación válida

nueva

potencialmente útil

Y finalmente patrones entendibles en la información.

Ref. Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Capítulo 1), AAAI/MIT Press 1996

2424

Áreas Relacionadas

Estadística

Aprendizajede Máquina

Base de Datos

Visualización

Minería de Datos yDescubrimiento de Conocimiento

2525

Estadística, Aprendizaje de Máquina y Minería de Datos Estadística:

más base teórica más centrado en prueba de hipótesis

Apendizaje de Máquina más heurístico centrado en el mejoramiento de la performance de un agente de

aprendizaje también buscar por aprendizaje y robótica en tiempo real – areas que no

son parte de minería de datos

Minería de Datos y Descubrimiento de Conocimiento integra teoría y heurística centrado en el proceso entero de descubrimiento de conocimiento,

incluyendo limpieza de datos, aprendizaje, integración y visualización de resultados

Distinciones son difusas

witten&eibe

2626

Flujo del Proceso de Descubrimiento de Conocimiento, de acuerdo a CRISP-DM

Monitoring

vea www.crisp-dm.orgpara más información

2727

Notas Históricas: Muchos Nombres de Minería de Datos Pesca de datos, Succión de datos: 1960-

Usado por Estadístico (como un mal nombre)

Minería de Datos (Data Mining) :1990 -- usado por BD, negocios

en 2003 – mala imagen debido a TIA

Descubrimiento de Conocimiento en Base de Datos (1989-) usado en IA, Comunidad de Aprendizaje de Máquina

también Arqueología de Datos, Cosecha de Información, Descubrimiento de Información, Extracción de Conocimiento, ...

Actualmente: Minería de Datos y Descubrimiento deConocimiento son usados indistintamente

2828

Contenido de la lección

Introducción: Flujo de Información

Minería de Datos: Ejemplos de Aplicación

Minería de Datos & Descubrimiento de Conocimiento

Minería de Datos: Tareas

2929

Mayores tareas en Minería de Datos

Clasificación: predicción de la clase de un item

Clustering: encontrar clusters en datos

Asociaciones ej. A,B & C ocurren frecuentemente

Visualización: para facilitar el descubrimiento

Sumarización: describiendo un grupo

Detección de Desviación: encontrando cambios

Estimación: predicción de valores continuos

Análisis de Link: encontrando relaciones

3030

Tareas de Minería de Datos:Clasificación

Aprender un método para predecir la clase de un elemento a partir de instancias pre-definidas (clasificadas)

Varios enfoques: Estadístico, Árboles de Decisión, Redes Neuronales, ...

3131

Tareas de Minería de Datos:Clustering

Encontrar el “natural” agrupamiento de instancias dada información no identificada

3232

Resumen:

La tecnología tiende a guiar el flujo de información minería de datos es necesaria para dar sentido a

la información

Minería de Datos tiene varias aplicaciones, exitosas y no

Proceso de Descubrimiento de Información

Tareas de la Minería de Datos clasificación, clustering, …

top related