data mining y aplicaciones en riesgo de crédito
DESCRIPTION
Data Mining y Aplicaciones en Riesgo de Crédito. Contenido. Un caso real: Fraude en Aduanas Proceso KDD, Estadística y Minería de Datos (Data mining ) Segmentación de clientes Aplicaciones en empresas e instituciones chilenas. El Vértigo de la Inteligencia de Negocios. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/1.jpg)
Profesor: Richard Weber ([email protected])
Universidad de ChileDepartamento de Ingeniería Industrial
Data Mining y Aplicaciones en Riesgo de Crédito
1
![Page 2: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/2.jpg)
Contenido
•Un caso real: Fraude en Aduanas •Proceso KDD, Estadística y Minería de Datos (Data mining) •Segmentación de clientes •Aplicaciones en empresas e instituciones chilenas
2
![Page 3: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/3.jpg)
El Vértigo de la Inteligencia de NegociosData
Warehouse / Data Mart
Data Mining:
Minería de datos
Balanced Scorecard
Inteligencia Artificial
CRM: Customer Relationship Management (Gestión de la relación con el
cliente)
Inteligencia de Negocios (Business Intelligence)
KPI: Key Performance
Indicators
CMR: ???
OLAP: Online
Analytical Processing
Knowledge Management
BIG DATA
![Page 4: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/4.jpg)
Volumen
Big Data – Una definición
Los 3 V:
Velocidad
Variedad
![Page 5: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/5.jpg)
¿Qué no es?
•Una tecnología solamente para grandes empresas.
•Una Base de Datos / un Data Warehouse más grande.
•Un fenómeno nuevo.
![Page 6: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/6.jpg)
Volumen
• Grandes volúmenes de datos
• Muchos objetos (ejemplo: Clientes, …).
• Muchos atributos (ejemplo: Edad, Ingreso, …).
• Datos no balanceados
![Page 7: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/7.jpg)
Velocidad
•Data Streams:
• Llamadas telefónicas,
• Transacciones bancarias,
• Visitas en página web,
• …
![Page 8: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/8.jpg)
Variedad
•Distintos tipos de “datos”:
• Textos,
• Imágenes,
• Videos,
• …
![Page 9: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/9.jpg)
Los 3 V´s juntos
Por ejemplo: Análisis de información en redes sociales:
• Alto volumen,
• Alta velocidad,
• Todo tipo de “datos”
![Page 10: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/10.jpg)
Generación de datos • The World Wide Web contains about 170 terabytes of information on its surface;
in volume this is seventeen times the size of the Library of Congress print collections.
• Instant messaging generates five billion messages a day (750GB), or 274 Terabytes a year.
• Email generates about 400,000 terabytes of new information each year worldwide.
Fuente: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/
Código Barra
RFID: Radio Frequency Identification
Código QR
![Page 11: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/11.jpg)
Costos para guardar datos
0.0
5.0
10.0
15.0
20.0
25.0
30.0
1990 1992 1994 1996 1998 2000 2002
Costos de un disco duro (US-$) / Capacidad (MB) Fuente: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/
![Page 12: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/12.jpg)
Disponibilidad de datos
Capacidad de nuevos discos duros (PB)Fuente: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/
0
2000
4000
6000
8000
10000
12000
14000
16000
1995 1996 1997 1998 1999 2000 2001 2002 2003
![Page 13: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/13.jpg)
Disponibilidad de datos
![Page 14: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/14.jpg)
Disponibilidad de datos
![Page 15: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/15.jpg)
15
Business Intelligence – Definición
Business Intelligence
The term Business Intelligence (BI) represents the tools and systems that play a key role in the strategic planning process of the corporation. These systems allow a company to gather, store, access and analyze corporate data to aid in decision-making.
Generally these systems will illustrate business intelligence in the areas of customer profiling, customer support, market research, market segmentation, product profitability, statistical analysis, and inventory and distribution analysis to name a few.
http://www.webopedia.com/TERM/B/Business_Intelligence.html
![Page 16: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/16.jpg)
16
Data Warehouse – Definición Data Warehouse:
Abbreviated DW, a collection of data designed to support management decision making. Data warehouses contain a wide variety of data that present a coherent picture of business conditions at a single point in time.
Development of a data warehouse includes development of systems to extract data from operating systems plus installation of a warehouse database systems that provides managers flexible access to the data.
The term data warehousing generally refers to the combination of many different databases across an entire enterprise. Contrast with data mart.
Fuente: http://www.webopedia.com/TERM/D/data_warehouse.html
![Page 17: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/17.jpg)
17
Arquitectura de un Data Warehouse
Información
detallada Resumen
Meta Datos
Datos Información Decisión
Fuente: Anahory, Murray (1997): Data Warehousing in the Real World.
Datos
operacionales
Datos
externos
Herramientas
de Data Mining
Herramientas
de OLAP
![Page 18: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/18.jpg)
18
Diferencias entre Bases de Datos y Data Warehouses Características Bases de Datos Data
Warehouses
Volumen alto bajo o
medio
Tiempo de muy rápido normal
respuesta
Frecuencia de alta, baja
actualizaciones permanentemente
Nivel de los datos en detalle agregado
![Page 19: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/19.jpg)
19
OLAP - Online Analytical Processing
Ubicación
Producto
Tiempo
![Page 20: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/20.jpg)
20
Navegación en un cubo OLAP
Ubicación
Producto
Tiempo
P1
U1
Drill down:
profundizar una dimensión
![Page 21: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/21.jpg)
21
Motivaciones para Almacenar Datos Razones iniciales:
En telecomunicación:Facturación de llamadas
Potenciales:
En telecomunicación:Detección de fraude
En supermercados: Gestión del inventario
En bancos: Manejo de cuentas
En supermercados: Asociación de ventas
En bancos: Segmentación de clientes
![Page 22: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/22.jpg)
Idea básica y potenciales de data miningEmpresas y Organizaciones tienen gran cantidad de datos almacenados.
Los datos disponibles contienen información importante.
La información está escondida en los datos.
Data mining puede encontrar información
nueva y potencialmente útil en los datos
![Page 23: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/23.jpg)
Proceso de KDD Knowledge Discovery in Databases
Transformación
Datos Datos se-leccionados
Preprocesamiento
Datos pre-procesados
Datos transformados
Data Mining
Patrones
Interpretación yEvaluación
Selección
“KDD es el proceso no-trivial de identificar patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles dentro de los datos“
![Page 24: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/24.jpg)
SEMMA (SAS Institute)
S: Sample (Training, Validation, Test) E: Explore (get an idea of the data at hand) M: Modify (select, transform) M: Model (create data mining model) A: Assess (validate model)
24
![Page 25: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/25.jpg)
CRISP-DM
25
http://www.crisp-dm.org/index.htm
![Page 26: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/26.jpg)
Potenciales de Data Mining - 1
![Page 27: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/27.jpg)
Potenciales de Data Mining - 2
![Page 28: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/28.jpg)
Nivel Significado Ejemplo Operación permitida
Escala nominal “Nombre” de objetos número de telef. comparación
Escala ordinal “Orden” de objetos Notas (1, …, 7) Transformación (sin distancia) monótona
Escala de Punto cero y unidad Temp. en grados f(x)=ax + b intervalo arbitrario Cel. (a>0)
Escala de Dado el punto cero Peso en kg f(x)=ax proporción Unidad arbitraria Ingreso en $
Escala Dado el punto cero Contar objetos f(x)=x absoluta y la unidad número de autos
Nivel de datos
![Page 29: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/29.jpg)
29
Clasificación de técnicas para la selección de atributos • Filter
• Wrapper
• Embedded methods
![Page 30: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/30.jpg)
30
Filter
• Correlación entre atributos y variable dependiente
• Relación entre atributo y variable dependiente – Test chi-cuadrado para atributos categóricos – ANOVA (Analysis of Variance), test KS para
atributos numéricos
![Page 31: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/31.jpg)
31
Test Chi-cuadrado
• Goodness of Fit • Independence of two variables • Hypotheses concerning proportions
![Page 32: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/32.jpg)
32
Test Chi-cuadrado: Independencia de dos variables
• Tenemos 2 variables categóricas • Hipótesis: estas variables son independiente• Independencia significa: Conocimiento de una
de las dos variables no afecta la probabilidad de tomar ciertos valores de la otra variable
![Page 33: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/33.jpg)
33
Test Chi-cuadrado: Tabla de contingencia
• Tabla de contingencia: matriz con r filas y k columnas, donde
r=número de valores de variable 1 k=número de valores de variable 2
![Page 34: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/34.jpg)
34
Test Chi-cuadrado: Tabla de contingencia
• Ejemplo: Variable 1=Edad, variable 2=sexo Grado de libertad (degree of freedom): df=(r-1)(k-1)
Idea: Comparar frecuencia esperada con frecuencia observada
Hipótesis nula: variables son independientes
r=2
k=2
Sexo
Edad masculino femenino Total
< 30 60 50 110
>= 30 80 10 90
Total 140 60 200
![Page 35: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/35.jpg)
35
Test Chi-cuadrado: Test
Frecuencia esperada de una celda fe:
fe = (fr*fk)/ncon: fr = frecuencia total en fila rfk = frecuencia total en columna k Ejemplo: r=k=1; fr=110; fk=140; n=200fe = (110*140)/200=77
Sexo
Edad masculino femenino Total
< 30 60 50 110
>= 30 80 10 90
Total 140 60 200
![Page 36: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/36.jpg)
36
Test Chi-cuadrado: Frecuencia esperada
Frecuencia esperada vs. observada para todas las celdas:
Sexo
Edad masculino femenino Total
< 30 60 50 110
>= 30 80 10 90
Total 140 60 200
Sexo
Edad masculino femenino Total
< 30 77 33 110
>= 30 63 27 90
Total 140 60 200
![Page 37: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/37.jpg)
37
Test Chi-cuadrado
H0: Edad y sexo son independiente H1: Edad y sexo son dependiente (hay una relación entre edad y sexo) df = 1 = (r-1)*(k-1)
Valor crítico de chi-cuadrado (df=1, α=0,01)=6,63 (ver tabla)
Chi-cuadrado =
=27,8 > 6,63 => hay que rechazar H0=>edad y sexo son dependiente 27633377
)2710()6380()3350()7760()( 22222
feeo ff
![Page 38: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/38.jpg)
38
Test KS
![Page 39: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/39.jpg)
39
Limpieza de datos
• Tipos de Datos perdidos (Taxonomía Clásica) [Little and Rubin, 1987]:– Missing Completely at Random (MCAR):
• Los valores perdidos no se relacionan con las variables en la base de datos
– Missing at Random (MAR):• Los valores perdidos se relacionan con los valores de las
otras variables dentro de la base de datos.– Not Missing at Random or Nonignorable (NMAR):
• Los valores perdidos dependen del valor de la variable.
![Page 40: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/40.jpg)
40
Transformación de Atributos
F22, monto demanda 502 demandas, Valparaíso
F22, ln(monto demanda +1)502 demandas , Valparaíso
![Page 41: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/41.jpg)
41
Recency = tiempo entre hoy y última compra Frequency = frecuencia de compras Monetary value = monto total de las compras
R
F
M
hoy
Historial de compras
Transformación de Atributos
![Page 42: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/42.jpg)
42
Métodos de Data Mining
Estadística Agrupamiento (Clustering) Análisis Discriminante
Redes Neuronales Árboles de Decisión Reglas de Asociación Bayesian (Belief) NetworksSupport Vector Machines (SVM)
![Page 43: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/43.jpg)
43
Base de lógica difusa
30 36 42 Edad
1
m ( A ) Función de pertenencia
Variable lingüística
“Cliente joven”
![Page 44: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/44.jpg)
44
Agrupamiento con lógica difusa
B utte rfly
Cluster Centres =̂x1
x2
x3
x4
x5
x6
x7 x8 x9
x10
x11
x12
x13
x14
x15
Cluster Centres =̂
1
1 1
1
1
1 1
1
0
0
0
0
0
0
0
Grupos estrictos
X X.01
.06
.06
.03
.14
.14
.14
.50.86.99
.94
.94
.97
.86
.86 Cluster Centres =̂
XX
Cluster Centres =̂
.03 .01
.06
.06
.14
.14
.1 4 .5 0 .8 6
.86
.86
.9 4
.9 9 .97
.9 4
Grupo difuso 2 Grupo difuso 1
![Page 45: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/45.jpg)
45
Agrupamiento con Lógica DifusaAlgoritmo: Fuzzy c-means (FCM)
n objetos, c clases ui,j = grado de pertenencia de objeto i a clase j (i=1, ..., n; j=1, ..., c) U = (ui,j)i,j ui,j [0,1; ui,j = 1; i = 1, ..., n
Función objetivo: min (ui,j)m d2(xi, cj)
xi : objeto i; cj : centro de clase j; d2(xi, cj): distancia entre xi y cj m : parámetro difuso (1<m<)
![Page 46: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/46.jpg)
46
1. Determina una matriz U con ui,j [0,1; =1 2. Determina los centros de las clases:
cj =
3. Actualiza los grados de pertenencia:
ui,j = Uk = matriz en iteración k
4. Criterio para detener: Uk+1 - Uk <
Algoritmo: Fuzzy c-means (FCM)
c
k ki
jim
cxdcxd
1
12
),(),(
1
n
i
ji
n
i
iji
m
m
u
xu
1
,
1
,
c
j
jiu1
,
![Page 47: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/47.jpg)
47
Segmentación de Clientes
Banco
Producto 1
Producto n
Clientes
Requerimientos
Requerimientos
¿Qué producto para qué cliente?
?
?
?
?
?
![Page 48: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/48.jpg)
48
Segmentación de Clientes
Selección
de atributos
Segmen- tación de clientes
Agrupamiento Clasificación
![Page 49: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/49.jpg)
49
Segmentación de Clientes usando Agrupamiento Difuso
Modelo Objetos: clientes; Atributos: ingreso, edad, propiedades, ...
Método Fuzzy c-means con c=2, ..., 10 clases
![Page 50: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/50.jpg)
50
Centros de 6 Clases
Clase Edad Ingreso Propiedades Crédito Margen de C.
A 32,8 1.946,92 6.315,78 -4.509,91 21,92
B 59,28 1.951,87 9.518,03 -3.667,27 62,94
C 47,58 3.905,84 29.317,29 -13.816,90 171,15
D 10,45 135,03 2.607,43 -467,65 6,18
E 75,49 1.552,54 21.957,89 -1.983,58 203,71
F 41 3.921,11 12.661,52 -8.144,57 68,48
![Page 51: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/51.jpg)
51
Redes Neuronales
å
Conexiones con pesos
Neurona
artificial natural
![Page 52: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/52.jpg)
52
Neuronas Artificiales• Neuronas “Verdaderas”
• Neuronas Artificiales
Núcleo
Cuerpo Celular
AxonDendritas
sinapsis
w1
w2…
x1(t)
x2(t)
xn(t) wn
a(t)
y=f(a)y
aw0
o(t+1)
![Page 53: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/53.jpg)
53
Perceptron (1962)
• Generalización y formalización de las redes neuronales.
…
x1 x2 x3 xn……
o1 o2 op
n
kkikii xwfafo
0
pi ,,1
![Page 54: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/54.jpg)
54
Perceptron la falla• La función XOR (exclusive or):
x1 x2 y
0 0 00 1 11 0 11 1 0
00 1
1
x2
x1
Minsky, Papert (1969)
![Page 55: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/55.jpg)
55
Multilayer Perceptron (MLP)• El 90% de las aplicaciones de redes
neuronales están referidas a MLP
• ¿Cómo resuelvo esto?, Backpropagation, Un ejemplo:
n
j
n
kkikji xwfWfo
0 0
Es una función no lineal, de una combinación lineal de funciones nolineales de funciones de combinaciones lineales de los datos de entrada; => Clasificación y Regresión no lineal!!
))(()( 1'
3
1
2
1
'1 bbxwGwGxf ji
iji
jj
![Page 56: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/56.jpg)
56
Backpropagation un ejemplo
r=3
n=2s=1
w11
w21w12
w13
w22
w23
w’11
w’12xp
op yp
))((')( '3
1
2
1
'1 ijj
jij
iippp bbxwGwGoy
jpjii
jipj wbxwG 1
3
1
' ')(
pi
iijijp bxwGw
3
1
'1 )(
pjijip xw
)(3
1ii
iji bxwG
))('(3
1
2
11 jii
iji
jj bbxwGwG
![Page 57: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/57.jpg)
57
Multilayer Perceptron
Aplicaciones: Clasificación Regresión
Redes Neuronales
å
Capa de entrada Capa escondida
Capa de salida
Conexiones con pesos
![Page 58: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/58.jpg)
58
Inducción de un árbol de decisión a partir de ejemplos Edad Renta Fuga? C1 medio alto sí C2 alto alto sí C3 bajo bajo no C4 alto medio sí C5 bajo medio no C6 alto bajo no
C1, ..., C6
C2, C4, C6
C1 C3, C5
Fuga = sí Fuga = no
E=a E=m E=b
Reglas a partir del árbol: Si E = a y R = aFuga = síSi E = a y R = bFuga = no ...
C2
Fuga = sí Fuga = sí Fuga = no
C4 C6
R=aR=b
![Page 59: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/59.jpg)
59
Inducción de un árbol de decisión a partir de ejemplos Algoritmos: ID3, C4.5 (Quinlan); CART (Breiman et al.)
Construcción del árbol: criterio de detención, criterio para seleccionar atributo discriminante
Idea básica de ID3: (ejemplos tienen 2 clases: positivo, negativo)
Criterio de detención: Detiene la construcción del árbol si cada hoja del árbol tiene solamente ejemplos de una clase (pos. o neg.)
E2(K) = - p+ * log2p+ - p- * log2p- (Entropía de un nodo) K: Nodo considerado p+ / p- frecuencia relativa de ejemplos positivos/negativos en nodo K p+ + p- = 1; 0*log20 := 0E2(K) 0 E2(K) = 0 p+ = 0 o p- = 0.Entropía de K es máximo p+ = p-
![Page 60: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/60.jpg)
60
Inducción de un árbol de decisión a partir de ejemplos
Para cada atributo calcula:
MI := (Medida de Información)
m: Número de valores del atributo considerado
pi: Probabilidad que ejemplo tiene el valor i del atributo considerado(frecuencia relativa del valor i en el nodo considerado)
Ki: nodo i sucediendo al nodo K (i=1, ..., m)
E2(Ki): Entropía del nodo Ki (i=1, ..., m)
Criterio para seleccionar un atributo discriminante: Selecciona el atributo con mínimo valor MI !
m
i
ii KEp1
2 )(*
![Page 61: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/61.jpg)
Regresión Logística (1/2)
Yi = Número de “éxitos” de un experimento con ni repeticiones (ni conocido) donde la probabilidad de éxito es pi (pi no conocido).
Yi ~ B(ni, pi), i = 1, …, N : Distribución Binominal
Supuesto: pi depende del vector de atributos (Xi) del objeto i.
![Page 62: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/62.jpg)
Regresión LogísticaMétodo de clasificación (m clases)
p = probabilidad de pertenecer a la clase 1 (m=2)
p = β0 + β1*x1 + β2*x2 + … + βn*xn (no necesariamente en [0,1])
p = (siempre en [0,1])
Odds = p / (1-p) p = Odds / (1+Odds)
Odds =
Log(Odds) = β0 + β1*x1 + β2*x2 + … + βn*xn (= logit)
Estimar βi con maximum likelihood.
e nnxxx )...( 2211011
e nnxxx )...( 22110
![Page 63: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/63.jpg)
Support Vector Machines Ejemplo Introductorio
• Caso Retención de Clientes: “detección de fuga”. – Dada ciertas características del cliente (edad, ingreso,
crédito, saldo promedio, comportamiento en general) (atributos)
– Determinar si el cliente cerrará su cuenta corriente en los próximos meses.
Aprender de información de otros clientes, generar alguna“Regla” y aplicar esta regla a casos nuevos.
![Page 64: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/64.jpg)
Teoría de Aprendizaje Estadístico
• Minimización del riesgo empíricoQueremos encontrar una función f que minimice:
Donde y es el valor conocido del objeto x, f(x) es la función de inducción y n es el número de objetos
n
1i
ii )(x - y 2 n1 ][Remp ff
![Page 65: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/65.jpg)
MotivaciónCaso particular de dos conjuntos linealmente disjuntos en R2
Antigüedad
Saldo promedio : No cierra: Cierra
![Page 66: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/66.jpg)
Motivación SVMCaso particular de dos conjuntos linealmente disjuntos en R2
Antigüedad
Saldo promedio : No cierra: Cierra
W
![Page 67: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/67.jpg)
Support Vector Machines(Para Clasificación)
IDEA:• Construir una función clasificadora que:
– Minimice el error en la separación de los objetos dados (del conjunto de entrenamiento)
– Maximice el margen de separación (mejora la generalización del clasificador en conjunto de test)
Dos objetivos:Minimizar Error(ajuste del modelo)
Maximizar Margen(generalización)
![Page 68: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/68.jpg)
SVM Lineal – Caso SeparableN objetos que consistenten del par : xi Rm, i=1,…,n y de su “etiqueta” asociada yi {-1,1}
Supongamos que un hyperplano separador wx+b=0 que separa los ejemplos positivos de los ejemplos negativos. Esto es, Todos los objetos del conjunto de entrenamiento satisfacen: 1 cuando 1
1 cuando 1
ii
ii
ybwxybwx
ibwxy ii 01)(
Sean d+ (d-) las distancias más cercanas desde el hiperplano separador al ejemplo positivo (negativo) más cercano. El margen del hiperplano separador se define como d+ + d-
equivalentemente:
![Page 69: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/69.jpg)
wx+b=0(0,0) desde |1|
wb
(0,0) desde |1|w
b
w2
![Page 70: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/70.jpg)
SVM Lineal – Caso No-Separable
N objetos que consistenten del par : xi Rm, i=1,…,n y de su “etiqueta” asociada yi {-1,1}
Se introducen variables de holgura positivas i:
1 cuando 11 cuando 1
iii
iii
ybwxybwx
)(22 iw
Corresponde al caso linealmente separable
Y se modifica la función objetivo a:
![Page 71: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/71.jpg)
Formulación matemática (SVM primal)
Error en clasificación
1/Margen
0
0 1b
:a sujeto
C 21Minimizar
i
i i i
i2
wxy
W W: Normal al hiperplano separador.b : Posición del hiperplanoXi: Objetos de entrenamientoYi : Clase del objeto i. : Error en la separacióni
![Page 72: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/72.jpg)
Clasificador
• El clasificador lineal de los SVM es:
• Se determina el signo de la función f(x)– Si signo(f(x)) = +1 pertenece a clase +1– Si signo(f(x)) = -1 pertenece a clase -1
bxyαxxfi
ii b W )(
![Page 73: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/73.jpg)
SVM no lineal
Objetos linealmente no separables en R2, pueden serlo otro espacio
![Page 74: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/74.jpg)
SVM no lineal
• Idea:– Proyectar los objetos a un espacio de mayor
dimensión y realizar una clasificación lineal en este nuevo espacio.
– Función de transformación – – Basta reemplazar xi· xs por K(xi , xs )
)()()()( , sisi xxxxK
![Page 75: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/75.jpg)
Kernel Machines
x X
)(
)()(
xXxX
ii
),( K ),()()( xxxx ii K
)),((sign bKyySi
iii
xx
))()((sign byySi
iii
xx
)()( xxXX ii
Condición de Mercer
)(sign byySi
iii
XX
![Page 76: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/76.jpg)
Características de Support Vector Machines
• Herramienta matemática• No tiene mínimos locales (árboles de decisión)• No tiene el problema de Overfitting (Redes
Neuronales)• Solución no depende de estructura del
planteamiento del problema.• Aplicabilidad en distintos tipos de problemas
(Clasificación, Regresión, descubrimiento de patrones en general)
![Page 77: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/77.jpg)
77
Experiencias acerca de proyectos BI 1/2
•Tiempo – proyectos necesitan más tiempo que estimado
• Calidad de los datos – muy importante para lograr resultados válidos
• Cantidad de datos – en general hay muchos datos disponible pero no siempre
para apoyar la toma de decisiones (base de datos transaccional / bodegas de datos)
![Page 78: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/78.jpg)
78
Experiencias acerca de proyectos BI 2/2
•“Mentor” del proyecto – Mentor con alta posición en la jerarquía (proyectos de data
mining necesitan apoyo de varios expertos)
• Demostración del beneficio – Fácil en el área de ventas / Difícil en segmentación de
mercados (por ejemplo)
• Mantenimiento del sistema instalado
![Page 79: Data Mining y Aplicaciones en Riesgo de Crédito](https://reader036.vdocuments.net/reader036/viewer/2022081513/56815bbd550346895dc9bcc9/html5/thumbnails/79.jpg)
Más información
www.kdnuggets.com
http://statpages.org/logistic.html
Hosmer, David W.; Stanley Lemeshow (2000). Applied Logistic
Regression, 2nd ed.. New York; Chichester, Wiley.
Conferencia BAFI 2014, 6-8 de enero de 2014, Santiago (www.bafi.cl)