semana3 3 introduccion bi

18
Dr. Manuel Sánchez Chero Rapid Miner INTELIGENCIA DE NEGOCIO Minería de Datos [email protected]

Upload: nicoleanarella

Post on 24-Dec-2015

232 views

Category:

Documents


3 download

DESCRIPTION

Introduccion BI

TRANSCRIPT

Dr. Manuel Sánchez Chero

Rapid Miner

INTELIGENCIA DE NEGOCIO

Minería de Datos

[email protected]

INTELIGENCIA DE NEGOCIO

INDICE

MINERIA DE DATOS RAPID MINER

INTELIGENCIA DE NEGOCIOS

1.

2.

Habilidad para transformar los datos en información, y la información en conocimiento, de forma que se pueda optimizar el proceso de toma de decisiones en los negocios.

Es básicamente un proceso de tratamiento e integración de los datos para convertirlos en información relevante que involucra conceptos, métodos de trabajo y herramientas.

Ejecutivo

Reportes Operacionales

Export Excel, pdf

Origen de Datos Almacén de Datos

INTELIG

ENC

IA DE N

EGO

CIO

S

Un almacén de datos se prepara para admitir: Procesamiento analítico en línea, Minería de datos

Conocimiento

InformaciónDato

INTELIGENCIA DE NEGOCIOS

INTELIGENCIA DE NEGOCIOS

Plataformas de Inteligencia de Negocios

MINERIA DE DATOS

Conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

Esta técnica es posible por que se fundamenta en tres campos de la tecnología suficientemente maduros como:

RECOLECCIÓN MASIVA DE DATOS

ALTA CAPACIDAD DE COMPUTO

ALGORITMOS DE DATA MINING

En sí la minería de datos produce 5 tipos de información

ASOCIACIONES SECUENCIAS

CLASIFICACIONES AGRUPAMIENTOS

PRONÓSTICOS

MINERIA DE DATOS

PROCESO DE LA MINERIA DE DATOS

DataObjetivo

DataPre-procesada

DataTransformada Patrones

Fuentes de datos Pre-procesamientoExploración y

transformaciónReconocimiento de

PatronesEvaluación e Interpretación

DatacrudaDHW

DBMS

Texto

Evaluación y Entendimiento

Muestreo y Selección• Muestreo • Selección

Limpieza de Datos• Datos que no existen• Datos no clasificados• Identificación de

extremos• Eliminación de Ruido

Transformación de Datos• Reducción de

Dimensionalidad• Creación de

Características• Normalización de Datos• Variables Correlacionadas• Discretización

Reportes y VisualizaciónModelado• Clasificación• Regresión• Agrupamiento• Asociación• Secuenciación

PREPARACIÒN DE LOS DATOS – LIMPIEZA DE LOS DATOS

MINERIA DE DATOS

Limpieza de datos

Integración de Datos

Transformación de datos

Reducción de datos

Valores extremos Valores null Valores con ruido Valores inconsistentes Valores mal clasificados

Problemas de semántica ¿significa lo mismo?Problemas de temporalidad ¿cuándo fue registrado?Problemas de codificación y formato.Problemas de idioma.Problemas de duplicidad ¿cuál vale?Problema de medio de almacenamiento.

Filas: suma y agregación de datos Columnas: log, sin, exp, tan, etc…Funciones entre columnas.

60% del tiempo

MINERIA DE DATOS

CONSTRUCCIÓN DEL MODELO

¿Qué técnicas de modelado usar para el proyecto?

Usar experiencias de otros Calibrar los parámetros del

modelo.

• El modelado es un proceso iterativo.• Es un proceso de prueba y error.• Es diferente del aprendizaje

supervisado y no supervisado• Se modela para describir o predecir.

DP

Modelos de predicción para regresión y clasificación

Algoritmos de regresión, predecir resultado numérico.

Modelos descriptivos para agrupamiento y búsqueda de asociacionesAlgoritmos de Clustering y asociación y secuenciación

MINERIA DE DATOS

Clasificación. Clasificar objetos en clases (categórico)

Regresión. Mapeo de variables (continuo) Pronóstico. Series de tiempo. Agrupamiento. Identificar grupos en los datos Reglas de Buscar relaciones en los datos Asociación.

Secuenciación Identificar el siguiente de la secuencia.

P

D

D

D

P

MODELOS DE MINERIA DE DATOS

MINERIA DE DATOS

HERRAMIENTAS

PRIVADAS IBM Intelligent Miner for

Data. SPSS Clementina. DB2 DataWarehouse Suite. Statica Data Miner.

LIBRES Rapid Miner. Orange. Weka. Knime. Jhep Work

RAPID MINER

Programa Informático para el análisis y minería de Datos

Información

Rapid Miner

Grandes Volúmen

es de Datos

Hospedado

Se Distribuye

AGPL-Diseñada para asegurar la cooperación con la comunidad en el caso de software que corra en servidores de red

RAPID MINER

CARACTERÍSTICAS

OPEN SOURCE

DISEÑO INTUITIVO

MULTIPLATAFORMA JAVA

MULTIPLES OPERACIONE

S

EXTENSIBLE

RAPID MINER

FUNCIONALIDADES

Programación basado en controles. Operadores conjuntos de algoritmos

estandarizados. Repositorio corresponden almacén de datos

y de proyectos.

RAPID MINER

TECNICAS

Dichas técnicas, no son más que algoritmos, que se aplican sobre un conjunto de datos para obtener unos resultados.

IA ESTADISTICA

Provienen

ÁRBOL DE DECISIONES REDES NEURONALES REGRESIÓN LINEAL

Dr. Manuel Sánchez Chero

Rapid Miner

INTELIGENCIA DE NEGOCIO

Minería de Datos

[email protected]

Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp.

Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004).

Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp.

Introducción a la minería de datos. J. Hernández, J. Ramírez.