implementaciÓn y desarrollo de sistemas de …
Post on 18-Nov-2021
12 Views
Preview:
TRANSCRIPT
1
IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE RECOMENDACIÓN PARA
PROFUNDIZACIÓN DE CLIENTES Y CRUCE DE PRODUCTOS EN UN BANCO DE
RETAIL
Sebastián Oliva García
Trabajo de grado dirigido por:
Carlos Felipe Valencia, PhD
UNIVERSIDAD DE LOS ANDES
Maestría en Ingeniería Industrial
Área Investigación de Operaciones y Estadística
Bogotá
2017
2
Resumen
El presente trabajo tiene como objetivo desarrollar un sistema de recomendación híbrido, que
funcione como herramienta de soporte para el área de mercadeo y producto en cuanto a la
optimización de los indicadores de profundización de clientes y cruce de productos en un banco
de retail.
Para el desarrollo de la herramienta, se utiliza toda la información disponible de cada cliente en
cuanto a datos demográficos, transaccionales, hábitos de consumo y comportamiento con
productos en otras entidades del sector, con el fin de entrenar modelos de inteligencia artificial
para predecir el comportamiento de los clientes con los productos del banco. Al mismo tiempo
que se busca identificar la propensión de cada cliente a adquirir cada uno de estos productos.
En este orden de ideas, se compara el desempeño de dos metodologías basadas en ensamblaje de
árboles de decisión como lo son: Random Forest y Gradient Boosting Models (GBM).
Palabras clave: Sistemas de recomendación, filtros colaborativos, recomendación por
contenido, Machine Learning, arboles de decisión, ensamblaje de modelos, Random Forest,
Gradient Boosting Models, banco de retail / retail financiero.
3
Tabla de Contenidos
1. Introducción .......................................................................................................................................... 4
2. Planteamiento del problema .................................................................................................................. 5
3. Descripción de la base de datos ............................................................................................................ 6
4. Arquitectura de las variables de respuesta ............................................................................................ 8
5. Marco teórico ...................................................................................................................................... 11
5.1 Random Forest .................................................................................................................................. 11
5.2 Gradient Boosting Models (GBM) ................................................................................................... 12
6. Metodologías a evaluar ....................................................................................................................... 14
6.1 Metodologías de sistemas de recomendación para predecir ratings ................................................. 14
6.2 Metodología para sistemas de recomendación de cruce de productos .............................................. 19
7. Selección de metodologías .................................................................................................................. 21
7.1 Sistemas de recomendación para predicción de ratings .................................................................... 21
Validación por Backtesting ................................................................................................................. 33
7.2 Modelo para cruce de productos ....................................................................................................... 40
8. Conclusiones ....................................................................................................................................... 44
9. Revisión bibliográfica ......................................................................................................................... 45
10. Anexos ............................................................................................................................................ 46
4
1. Introducción
Los bancos de retail tienen la particularidad de que se enfocan sólo en personas ofreciendo
productos como tarjetas de crédito, créditos de consumo, cuentas de ahorro, cuentas corrientes y
otros productos relacionados, los cuales complementan con productos como seguros. Dado el
creciente desarrollo que han tenido los medios de pago electrónicos en la última década, la banca
de retail se vuelve cada vez más importante en el sector bancario. Los bancos no sólo buscan
ofrecer al cliente el portafolio de productos financieros más completo, sino que a la vez buscan
generar alianzas con todo tipo de comercios desde restaurantes hasta aerolíneas, desarrollan sus
propios programas de fidelización y demás estrategias, lo cual hace que la banca de retail se esté
convirtiendo en un servicio de uso cotidiano para muchos individuos con una tarjeta de crédito, y
al mismo tiempo, los bancos están obteniendo información cada vez más valiosa y más variada
proveniente de sus usuarios.
En este orden de ideas, los bancos están invirtiendo cada vez más recursos para atraer y retener
clientes, lo cual hace que la competencia actual dentro del sector bancario sea un factor que
estimule la innovación e implementación de estrategias en inteligencia de mercados. A raíz de
esto, los bancos están implementando estrategias de administración de relación con clientes (CRM
por sus siglas en ingles), pues con la gran cantidad de información a la cual se tiene acceso hoy en
día, es necesario conocer a los clientes para llegarles con las ofertas adecuadas en el momento
correcto. Es decir, conocer a los clientes de tal forma que se puedan identificar sus hábitos de
consumo, su comportamiento financiero y hasta sus gustos personales, y mediante el uso de
herramientas analíticas, poder predecir el siguiente producto o servicio a ofrecerle de tal manera
que se minimice el riesgo de saturarlo con demasiada información, y se maximice la posibilidad
de acertar en la oferta y mantener al cliente satisfecho.
De acuerdo con lo anterior, en los últimos años se han venido desarrollando herramientas
analíticas, que, complementadas con los avances computacionales modernos, permiten la
manipulación e implementación de modelos de aprendizaje artificial en grandes bases de datos.
Entre las metodologías en las cuales se han hecho avances importantes se encuentran los sistemas
de recomendación, los cuales, a partir de la información disponible, ya sea información entre
usuarios, entre ítems o información demográfica, transaccional, personal o de contenido, permiten
seleccionar la mejor opción para el cliente entre una gran variedad de ofertas de productos
(Aggarwal. 2016).
5
2. Planteamiento del problema
En el presente trabajo, se desarrollan dos metodologías basadas en sistemas de recomendación que
utilizan una estructura de ratings que permiten predecir el comportamiento del cliente con cada
producto, y se complementará con otra metodología de sistemas de recomendación para predecir
cuál es el producto con mayor propensión a ser aceptado por el cliente. Lo anterior, se logra
mediante herramientas analíticas de aprendizaje estadístico, donde los ratings se van a predecir
por medio de una regresión como variable continua de uno a cinco, y la probabilidad de cruce
como un problema de clasificación con una variable binaria.
De esta manera, se plantea resolver los problemas tanto de profundización como de cruce de
productos para un banco de retail, lo que desemboca en un objetivo global el cual es la retención
de clientes actuales. La razón por la cual el enfoque se dirige a la retención de clientes y no a la
adquisición de nuevos clientes, es en primera medida porque es más rentable retener clientes
actuales que generar relaciones nuevas (Luck. 2009) y segundo, porque los clientes actuales
brindan información más amplia y robusta para procesar con modelos analíticos, mientras que la
adquisición de clientes nuevos se basa más que todo en estrategias de publicidad y mercadeo.
Partiendo de lo anterior, es necesario aclarar algunos conceptos claves como lo es el concepto de
clientes profundizados para el banco en el cual se está realizando el estudio. Un cliente
profundizado es aquel que cuenta con dos o más productos y que, además, presenta un
comportamiento deseable para el banco con dichos productos (más adelante se explica en que
consiste un comportamiento deseable para cada producto). Adicionalmente, el concepto de cruce
de productos corresponde a lograr que el cliente diversifique su portafolio con el banco adquiriendo
productos nuevos por medio de ofertas especializadas.
Es así como, el sistema de recomendación de ratings engranado con el sistema de recomendación
de cruce de productos, presentan indicadores clave para poder diferenciar las estrategias
comerciales a ejecutar entre los clientes, ya que a partir de esta información, se pueden
implementar estrategias simples y de forma masiva a aquellos clientes con un buen
comportamiento esperado de acuerdo con los ratings y una alta propensión de cruce, y por otro
lado, se pueden aplicar estrategias más agresivas y personalizadas a aquellos clientes con un buen
comportamiento esperado pero con baja propensión de cruce, o aquellos con alta propensión de
cruce pero con un comportamiento esperado regular. O, simplemente, se puede decidir no
desgastar recursos en aquellos clientes con bajos desempeños esperados en los dos indicadores.
6
3. Descripción de la base de datos
Para poder construir cualquier modelo analítico lo más importante es contar con una base de datos
robusta, y para el banco en cuestión, los datos, representados en variables por cliente, provienen
de diversas fuentes que se describen en la siguiente tabla.
Tabla 1: Resumen de las variables utilizadas en el modelo
El procesamiento de los datos se hizo a través del motor de bases de datos SQL Server de
Microsoft. La base final cuenta con 1,835,745 registros y tiene 97 variables con información
distribuida de acuerdo con la tabla anterior. Es importante anotar que la mayoría de las variables,
excluyendo las demográficas, por naturaleza tienen valores faltantes, pues una variable
transaccional para un cliente que no tiene la tarjeta de crédito o el hábito de pago en el sector para
un cliente que no cuenta con tarjetas de crédito en otros bancos, no tienen información alguna.
Esto representa un problema en el momento de escoger un modelo predictivo, pues la mayoría de
modelos no asimilan los valores faltantes en las variables numéricas, mientras que para las
variables categóricas el valor faltante se puede convertir en una categoría más o se puede asociar
a una categoría ya existente.
Para dar solución a este problema, se consideraron métodos tradicionales como eliminar a aquellos
clientes con valores faltantes, pero prácticamente todos los clientes presentan valores faltantes por
lo menos en una variable, por lo tanto, esta no era una opción. Otro método fue la imputación de
datos a partir del promedio o la media de la variable, pero a simple vista carece de sentido, ya que
no existe razón alguna para asumir el comportamiento del cliente en algún producto que no tiene
o en algún habito de consumo como el promedio de los demás clientes. Adicionalmente, la
imputación de datos en las variables funciona cuando los datos faltantes representan un porcentaje
menor al 5% de los datos (Hastie, Tibshirani, Friedman. 2009), donde este no es el caso.
Finalmente, se probó un método de imputación de datos por medio de descomposición de valores
singulares de la matriz. Este es un procedimiento más robusto que utiliza los vectores propios de
la matriz incompleta, y de manera predictiva imputa los valores faltantes, sin embargo, se retorna
al mismo problema de asumir comportamientos de los clientes en las variables, lo cual no
representa información real, simplemente se está utilizando la información que está disponible en
las otras variables y en los otros usuarios. Esto sin contar que este método realiza la imputación a
partir de valores numéricos, por lo que las variables categóricas no estarían aportando información
en la imputación, o sería necesario transformarlas en variables numéricas por medio de variables
Tipo de variables Fuente Descripción
DemográficasFormularios de apertura y lugares de
uso de los productos
Variables referentes a edad, genero, ubicación geográfica,
ingresos, estrato socioeconómico, entre otras
Personales banco Bases de datos internas
Variables referentes a antigüedad de productos, cupos
aprobados, hábitos de pago, inactividad, programas de
fidelización, entre otras
Transaccionales banco Bases de datos internas y Redeban
Variables referentes a frecuencias y montos de
transacciones, utilización de cupos, situación de cartera,
comercios donde compra, compras en línea, entre otras
Transaccionales externas Centrales de riesgo y Redeban
Variables referentes a que productos financieros tiene por
fuera del banco, hábitos de pago, indicadores de
endeudamiento, entre otras
7
dummies, lo cual generaría aún más ruido en los datos. Es decir, con la imputación se estaría
solucionando un problema técnico, mas no el problema fundamental del modelaje (Hastie,
Tibshirani, Wainwright. 2015).
Al final, se llega a la conclusión que aquella falta de datos provee también información valiosa
para predecir, pues la falta de información tiene un significado, y es que un cliente puede
pertenecer al tipo de personas que no utilizan cuentas de ahorro o que simplemente no son aptos
para desembolsar un crédito de consumo y, por lo tanto, tienen ese vacío en la información.
La imputación de datos tendría sentido si las variables contaran con un porcentaje pequeño de
datos faltantes, y así no se correría el riesgo de distorsionar la información. Pero dado que se cuenta
con un gran número de variables, y, que además contienen un gran porcentaje de valores faltantes
debido a su naturaleza, es normal tener datos faltantes y, por consiguiente, es necesario encontrar
modelos que absorban dicha falta de información y la conviertan en información predictiva, por
ejemplo, como lo hacen los arboles de decisión.
Por otra parte, otro aspecto fundamental en el pre procesamiento de datos, es revisar si existe
correlación entre las variables de la base. Para el caso de las variables continuas, se utilizó el
método clásico de construir una matriz con las correlaciones de Pearson, y se encontraron algunas
pocas relaciones lineales entre variables, las cuales eran fácilmente predecibles desde el principio.
Por ejemplo, el cupo de avance de un cliente está muy correlacionado con su cupo total en la tarjeta
de crédito y lo mismo sucede con el sector, el cupo que tenga con algún producto financiero tiene
una relación lineal marcada con el cupo total que tenga. Para estos casos, se hizo la selección
analizando que variable tenía mayor correlación con la variable de respuesta, bien fuera frente a
los ratings o frente al indicador de cruce de productos.
Para el caso de las variables categóricas, se realizaron pruebas chi-cuadrado para cada par de
variables e, igualmente, se encontraron muy pocos casos donde las variables contenían
información equivalente y, aquella variable que mayor información aportara a la variable de
respuesta sería seleccionada.
Finalmente, dado que las variables provienen de fuentes de información muy variadas y dado que,
las variables de respuesta incluyen toma de decisiones entre múltiples productos, cada variable
explicativa puede contener información valiosa para la predicción de ratings o cruce dependiendo
del producto, y puede que esa misma información no aporte información para la predicción de
estos indicadores en los demás productos. Para lo cual, más que realizar los análisis tradicionales
de selección de variables, los modelos que fueron seleccionados para aprender a partir de los datos
de la base, incluyen criterios robustos de selección de variables con componentes aleatorios
incorporados ya dentro del algoritmo, como se explicará más adelante.
8
4. Arquitectura de las variables de respuesta
Como se mencionó anteriormente, se van a construir dos sistemas de recomendación, donde uno
de ellos predice el comportamiento esperado del cliente con cada producto por medio de ratings,
y el otro predice la probabilidad de cruce en cada producto por medio de un modelo de
clasificación.
Para el primer caso, es necesario diseñar una medida de desempeño que permita medir el uso de
los clientes con su portafolio de productos actuales, y de esta manera, entrenar el modelo. Es decir,
se debe crear una variable de respuesta que permita saber si un cliente está teniendo o no un uso
del producto que resulte deseable para el banco. Al buscar en la literatura, se encontró la
metodología de ratings implementada en el sistema de recomendación de Netflix, donde los
usuarios puntúan las películas que han visto de acuerdo con una escala de uno a cinco, y de esta
manera, esta película puede ser recomendada a otros usuarios. Además, el usuario empieza a
recibir recomendaciones de otras películas a medida que amplía el número de películas puntuadas
(Bell, Koren. 2010). Sin embargo, es evidente que no es posible, o por lo menos no es una práctica
eficiente solicitar a los usuarios del banco que puntúen sus productos de acuerdo con su criterio.
En primera medida, tendría que plantearse un método de comunicación masivo que logre persuadir
a los clientes de calificar sus productos, crear algún sistema de incentivos que los motive a hacerlo,
donde se sabe ya por datos históricos que no todos los clientes se tomarían el tiempo de hacer dicha
evaluación, y además, si lo hicieran, nada garantiza que lo estén haciendo a conciencia e inclusive,
aun si lo hicieran, sería demasiado subjetivo, pues a un cliente le puede gustar el producto o no,
mas sin embargo, no hay correlación con que lo esté usando bien o mal.
En este orden de ideas, fue necesario elaborar una metodología un poco más compleja para obtener
las puntuaciones en los productos. Dado que el banco cuenta con la información histórica
transaccional de los clientes con cada producto, se hizo una revisión con el área de producto y
marketing para seleccionar que variables definen un comportamiento bueno o malo de los clientes
con cada producto. Paso a seguir, se diseñó un sistema de ratings diferenciado por producto, pues
no se puede medir de la misma manera el comportamiento de un cliente en un producto de consumo
y en un producto de ahorro. En la siguiente tabla se resumen las variables y la metodología que se
utilizó en cada producto para el cálculo de los ratings.
9
Tabla 2: Descripción de metodologías para calcular los ratings actuales por producto
Es así como se propone un sistema de ratings para los productos de consumo como lo son la tarjeta
de crédito, créditos de consumo y avances, a partir de indicadores como monto, frecuencia y plazos
en un periodo determinado por producto. Para el caso de los productos de ahorros como lo son
cuentas de ahorro, cuentas corrientes, cuentas de nómina, CDT’s, entre otros, se dio mayor
importancia a la recurrencia, es decir, que en productos como las cuentas de ahorro y cuentas
corrientes, se identificó que el principal problema de los clientes era la falta de uso, y por lo tanto,
un cliente que haga transacciones ya sean de depósito, retiro, transferencias o pagos electrónicos,
es un clientes que tiene buen uso de estos productos sin importar el monto que muevan. Mientras
que para una cuenta de nómina se tuvo en cuenta la recurrencia, pero a la vez se revisó el monto
que transaban, pues el banco tiene establecido un límite mínimo de monto depositado al mes para
definir una cuenta como cuenta de nómina.
Por el otro lado, para el segundo sistema de recomendación, el cual corresponde al cruce de
productos, la variable de respuesta se construyó como una variable binaria, donde toma el valor de
uno si el cliente adquirió el producto, durante una ventana de tiempo de 6 meses a partir de un mes
focal o mes de corte (para este caso se utilizó Julio de 2016). Y toma un valor de cero si el cliente
no realizó ninguna acción con dicho producto. Cada producto tiene una variable de respuesta, y de
esta manera, se puede entrenar un modelo estadístico que determine la probabilidad de cada cliente
de adquirir cada uno de los productos.
Producto Naturaleza Variables de desempeño Tiempo de observación Metodología
Tarjeta de crédito Consumo- Frecuencia
- Monto
Último año de uso
promediado en meses
Adecuación de
metodología RFM
Crédito de consumo Consumo
- Número de desembolsos
- Montos desembolsados
- Cuotas promedio pagadas
Últimos 3 años de uso
promediados en meses
Adecuación de
metodología RFM
Avances Consumo- Número de desembolsos
- Montos desembolsados
Últimos 3 años de uso
promediados en meses
Adecuación de
metodología RFM
Cuenta de ahorros Ahorro - MovimientosÚltimo año de uso
promediado en meses
Rangos proporcionados
por área de mercadeo
Cuenta corriente Ahorro - MovimientosÚltimo año de uso
promediado en meses
Rangos proporcionados
por área de mercadeo
Cuenta de nomina Ahorro
- Montos depositados
mayores a valor establecido
por el banco
Depósitos realizados en
el último año
A partir del número de
meses que cumple con
el criterio de monto
mínimo establecido
CDT Ahorro
- Número de aperturas
- Monto
- Plazos promedio
Aperturas realizadas en
los últimos 2 años
Adecuación de
metodología RFM
Ahorro opcional Ahorro
- Montos depositados
mayores a valor establecido
por el banco
Depósitos realizados en
el último año
A partir del número de
meses que cumple con
el criterio de monto
mínimo establecido
10
Es importante resaltar que se identificaron algunos productos que presentan un comportamiento
estacional, es decir, hay meses del año donde se presenta un mayor número de adquisiciones de un
producto que en otros meses, como es el caso de los productos de consumo. Por ejemplo, es de
esperarse que la cantidad de créditos de consumo desembolsados en meses como noviembre y
diciembre sea mayor a la cantidad de créditos desembolsados en meses como marzo o abril.
Mientras que para los productos de ahorro no se identificó dicha estacionalidad, pues se observó
un comportamiento de apertura uniforme sin importar la época del año. Este es un problema que
por cuestiones de tiempo y carga computacional no fue posible abordarlo en este trabajo, sin
embargo, es necesario darle solución en una etapa posterior mediante modelos que incorporen
series de tiempo.
11
5. Marco teórico
Continuando con el desarrollo del problema, es necesario seleccionar un modelo de aprendizaje
estadístico, que sirva para procesar la información y poder predecir tanto los ratings en los
productos financieros como la probabilidad de adquisición de cada uno de ellos por parte de los
clientes. Para el caso de la predicción de ratings, se abordará como un modelo de regresión que
pueda predecir calificaciones entre uno y cinco representados como una variable continua, y para
el caso de la predicción de probabilidad de cruce de productos, se abordará como un modelo de
clasificación binario en donde se predice la probabilidad que el cliente adquiera cada uno de los
productos del banco.
Como se explicó anteriormente, la base de datos consta de un gran número de variables de
naturaleza numérica y categórica que contienen datos faltantes. Teniendo en cuenta lo anterior, los
modelos de aprendizaje artificial basados en reglas y en árboles de decisión, ofrecen ventajas que
se ajustan a la naturaleza de los datos de la base a utilizar, pues son ideales para manejar grandes
cantidades de variables, ya que cuentan con métodos de selección de variables implícitos y no se
ven afectados con la presencia de datos faltantes, dado que al ser modelos basados en arboles de
decisión, estos mismos realizan la partición de las variables a utilizar, y de esta manera, crean sus
propias categorias, eliminando así el inconveniente de los datos faltantes, los cuales son asignados
dentro de alguna categoría. Adicionalmente, estos modelos pueden ser utilizados tanto para
regresión como para clasificación (Ricci, Rokach, Shapira. 2015).
En este orden de ideas, los modelos seleccionados para implementar serán Random Forest y
Gradient Boosting Models. Estas dos metodologías comparten un gran número de características,
pues parten de un modelo simple, inestable y con bajo poder de predicción como lo es un árbol de
decisiones y, al adicionar un componente aleatorio combinado con el ensamblaje de un gran
número de árboles, que al final se promedian, en el caso de Random Forest, o se adicionan, en el
caso de GBM, y así se logra obtener un modelo robusto con varianza mínima.
Es importante resaltar que, para implementar dichos modelos en grandes sets de datos se utilizó el
software estadístico R, el cual es reconocido como uno de los más potentes en manejo de
algoritmos de aprendizaje artificial. Este software funciona por medio de paquetes, los cuales
tienen funcionalidades especificas dependiendo del objetivo del modelo. Para este caso, se
investigaron varios paquetes como ‘randomForest’, ‘gbm’, ‘Caret’, ‘XGBoost’ y ‘h2o’. Al final,
se determinó que ‘h2o’, un paquete desarrollado por la comunidad científica ‘Apache’ y que utiliza
algoritmos de procesamiento de datos basados en ‘Map-reduce’ (H2O.ai team. 2017), es la mejor
alternativa para este caso, junto con el paquete ‘data.table’, el cual se utilizó para el cargue de la
base y transformación de algunas variables.
A continuación, se explica la estructura de cada uno de los modelos a evaluar.
5.1 Random Forest
Este algoritmo desarrollado en la década de los 90, utiliza la metodología de Bootstraping, donde
realiza una selección aleatoria de las muestras para el entrenamiento del modelo (para el paquete
‘h2o’ esta predeterminado utilizar 50% de la base en entrenamiento y 50% Out-of-bag), y de esta
manera, cada árbol utilizaría una base sustancialmente diferente a las demás, y aquellos datos por
fuera de la muestra, denominados Out-of-bag, sirven para realizar la validación de las
predicciones. Esta metodología tiene la ventaja que no requiere particionar la base inicial en base
12
de entrenamiento y base de validación y, además, es equivalente a la metodología Cross-
validation, la cual se sabe es altamente eficiente para la reducción de la varianza. Al final, se
promedia el resultado de los arboles generados y se obtiene un modelo estadístico ensamblado con
baja varianza.
La reducción de varianza en los modelos ensamblados se puede entender de la siguiente manera:
Si se parte del hecho que un modelo tiene varianza 𝜎2, por definición, para n modelos, la varianza
del ensamblaje será 𝜎2/𝑛, la cual es evidentemente más pequeña que la del modelo individual.
Adicionalmente, este modelo también tiene un componente aleatorio en el momento de seleccionar
las variables a utilizar, pues en cada árbol no utiliza el total de las variables, sino que utiliza una
fracción (el paquete esta predeterminado para utilizar p/3 variables para regresión y √𝑝 variables
para clasificación).
De esta manera, no sólo se garantiza la independencia entre las muestras, sino que también se
garantiza que las relaciones condicionales entre las variables independientes y la variable de
respuesta no sea siempre la misma, creando diferentes reglas de asociación en cada árbol, pues al
considerar sólo una fracción de las variables predictoras, las variables fuertes no son consideradas
en 𝑝−𝑚
𝑝 de los casos y esto brinda una oportunidad a aquellas variables no tan fuertes para aparecer
en el modelo. Teniendo en cuenta lo anterior, es aconsejable sintonizar el modelo con un número
robusto de árboles (300 en este caso) para que la combinación de estos modelos de aprendizaje
independientes, reduzca la varianza en el error considerablemente respecto a un árbol individual
por medio de la selección de los predictores más fuertes y menos sesgados (Hastie, Tibshirani,
Friedman. 2009).
5.2 Gradient Boosting Models (GBM)
Los Gradient Boosting Models, o GBM, difieren con Random Forest en el ensamblaje de los
árboles, ya que GBM utiliza una función de perdida, donde el algoritmo busca encontrar un modelo
aditivo que minimice dicha función. Primero, el algoritmo es inicializado con un árbol el cual se
utiliza como estimación inicial, se calcula el gradiente asociado al residual, y después se adapta un
modelo a los residuales para minimizar la función de perdida. Este modelo se adiciona al modelo
anterior, y el procedimiento continúa cuantas veces se haya predeterminado en las iteraciones (300
árboles para este caso).
Otra diferencia con Random Forest, es que cada árbol se calcula para ser el óptimo en cada etapa
del modelo y es adicionado de acuerdo con una tasa de aprendizaje, además, no realiza bootstrap
en la muestra, sino que cada árbol es construido sobre una versión modificada de los datos
originales. Cabe resaltar que la construcción de cada árbol depende fuertemente en los árboles que
se han construido previamente, lo que hace que pueda caer fácilmente en un problema conocido
como sobre estimación en la muestra de entrenamiento. Mientras que el Random Forest calcula
cada árbol de forma independiente en cada estimación, y al final, promedia todos estos modelos
débiles para crear uno fuerte, lo cual le proporciona cierto blindaje a la sobre estimación.
Para evitar la sobre estimación, GBM cuenta con un número mayor de parámetros, los cuales al
estar sintonizados de manera óptima se traducen en un mayor poder predictivo. Es claro que lo
anterior significa un mayor tiempo computacional.
13
El ensamblaje de modelos muestra múltiples ventajas en cuanto a la variabilidad de las
predicciones, sin embargo, estos modelos ensamblados tienen un problema, pues a diferencia de
un árbol de decisión individual, el cual devuelve al usuario las reglas de asociación de una forma
clara, son imposibles de interpretar debido a su naturaleza de ensamblaje ya que pierden toda su
capacidad de ser interpretados, y al final, lo único que se puede saber acerca del modelo es la
importancia que tienen cada una de las variables respecto a la variable de respuesta.
Finalmente, se van a utilizar estos dos modelos en las metodologías tanto de predicción de ratings
como de cruce de productos, y se seleccionara la que mejor resultados retorne en cuanto a los
indicadores de error cuadrático medio (MSE), para regresión, y al área bajo la curva (AUC), para
clasificación.
14
6. Metodologías a evaluar
6.1 Metodologías de sistemas de recomendación para predecir ratings
Una vez definido todo lo anterior, la primera base de datos que se puede apreciar, consta de filas
que representan los clientes, y columnas que representan los productos. Después de haber
calculado la calificación de cada producto que tiene cada uno de los clientes, se llega a una matriz
que contiene números de uno a cinco en cada espacio donde el cliente tiene el producto, y espacios
vacíos o nulos en donde el cliente presenta ausencia del mismo. De esta manera, se llega a una
matriz de tipo incompleto como se aprecia en la siguiente ilustración.
Ilustración 1: Matriz de ratings por cliente
Cabe resaltar que existe una gran similitud con la matriz de ratings de Netflix. Pues, cada cliente
ha visto un determinado número de películas, pero no las ha visto todas, y lo mismo sucede en el
banco: los clientes con un portafolio amplio de productos pueden llegar a tener cuatro o hasta cinco
productos, más es poco probable que los tenga todos, por lo tanto, estas dos matrices se pueden
ver como matrices incompletas.
De acuerdo con lo anterior, al remitirse al concurso desarrollado por Netflix en el 2009,
denominado Netflix Prize, donde se ofrecía un premio de un millón de dólares a aquella persona u
organización que fuera capaz de desarrollar un sistema de recomendación, que pudiera mejorar en
un 10% la raíz de la desviación del error (RMSE) del sistema de recomendación que en ese
momento implementaba Netflix (el sistema se llama CineMatch) (Bell, Koren. 2010). Entre los
participantes, se encontraba un grupo de ingenieros denominado ‘Pragmatic Chaos’, los cuales
propusieron un sistema de recomendación de filtros colaborativos utilizando imputación de datos
en matrices dispersas, por medio de la regularización de la norma nuclear de la matriz (Hastie,
Tibshirani, Wainwright. 2015).
Esta metodología parte del principio de la descomposición de valores singulares de la matriz para
realizar la imputación de valores faltantes, sin embargo, se aplican una relajación a la función
objetivo no convexa con el fin de evitar el sobre aprendizaje, la cual se presenta en la siguiente
ecuación (Hastie, Tibshirani, Wainwright. 2015).
𝑀𝑖𝑛‖𝑀‖∗ 𝑠𝑢𝑏𝑗𝑒𝑐𝑡 𝑡𝑜 𝑚𝑖𝑗 = 𝑧𝑖𝑗 𝑓𝑜𝑟 𝑎𝑙𝑙 (𝑖, 𝑗) ∈ Ω
La cual, también se puede ver en su forma relajada llamada regularización espectral
P1 P2 P3 . . . Pm
1 3 NA NA 5
2 NA 4 5 NA
3 NA NA NA . . . 3
. . .
. . .
. . .
n 1 NA 1 . . . 5
Cli
en
tes
Productos
15
𝑀𝑖𝑛 𝑀 {1
2∑ (𝑧𝑖𝑗 − 𝑚𝑖𝑗)
2+ 𝜆‖𝑀‖∗
(𝑖,𝑗)∈Ω
}
Donde ‖𝑀‖∗ es la norma nuclear de la matriz o la suma de los valores singulares, 𝑧𝑖𝑗 representa
las predicciones de los ratings y 𝑚𝑖𝑗 los ratings actuales. El parámetro λ sirve para sintonizar el
nivel de ruido óptimo que se debe introducir para evitar la sobre estimación en las predicciones.
Esta metodología se puede revisar en detalle en el capítulo siete del libro Statistical Learning with
Sparsity de Hastie, Tibshirani y Wainwright, donde también se expone el paquete en R que
desarrollaron, denominado ‘Soft Impute’, el cual realiza imputación de matrices por diferentes
metodologías, incluyendo SVD.
Para tener una idea más intuitiva de este modelo, la lógica de este algoritmo se puede ver ilustrada
a continuación.
Ilustración 2: Imputación de datos en matrices dispersas
A pesar de ser este un método que en su momento pudo superar al sistema de recomendación de
Netflix, se presentaron algunos inconvenientes al momento de implementarlo para la matriz del
banco, los cuales se enumeran a continuación:
1. Este es un método puramente de filtros colaborativos entre ítems, es decir, el sistema se
alimenta únicamente de los ratings que cada usuario tiene en cada producto y esto
representa dos inconvenientes para la matriz del banco:
a. El primero es que los ratings entre los productos financieros fueron calculados cada
uno con metodologías y variables diferentes, es decir, no son completamente
comparables, pues a diferencia de Netflix, donde todos sus productos son películas
o material audiovisual, el banco tiene productos muy diferentes entre sí, donde
algunos son de naturaleza permanente, pues una vez el cliente tenga una cuenta de
ahorros, es de esperarse que la conserve y no adquiera más cuentas de ahorros. Por
otro lado, también puede adquirir productos de naturaleza perecedera, los cuales
puede adquirir cuantas veces desee, como por ejemplo, créditos de consumo.
b. Segundo, se descubrió que la matriz del banco, a diferencia de la matriz de Netflix,
carece de dispersión (sparsity).
16
Para entender mejor el concepto de matriz dispersa en este caso, se debe tener en
cuenta que este algoritmo posee un problema llamado inicio en frio o Cold Start
Problem, y consiste en que, si un usuario no ha calificado ninguna película o por lo
menos un número suficiente de ellas, que para el caso de Netflix se requirieron
mínimo 20 películas, el sistema no está en capacidad de brindar recomendaciones
robustas.
Para el caso del banco, se observó que un 74% de los clientes poseen sólo un
producto, la tarjeta de crédito, y en la actualidad unicamente el 17% de los clientes
están profundizados. En las siguientes graficas se ilustra como el problema de Cold
Start afecta al banco.
Ilustración 3: Descripción del problema de inicio en frio para la metodología Soft Impute
Inclusive los clientes con 2 productos no pueden generar recomendaciones robustas, para
este caso se requieren clientes con mínimo tres productos, los cuales sólo representan el
9% de los clientes del banco.
2. Por otro lado, al ser esta es una metodología netamente colaborativa entre productos, no
tiene en cuenta otro tipo de información que puede ser valiosa como lo es la información
demográfica, transaccional y de comportamiento en el sector financiero. Es de
conocimiento general que compañías como Netflix o Amazon, tienen sistemas de
17
recomendación lo suficientemente robustos que utilizan toda la información disponible y
lo hacen mediante algoritmos híbridos, es decir, desarrollan un ensamblaje entre diferentes
tipos de sistemas de recomendación, como por ejemplo uno por contenido y otro por filtros
colaborativos.
Esto último es lo que se quiere implementar para el banco, un sistema de recomendación
que pueda utilizar la información del cliente tanto en su comportamiento con el portafolio
de productos, a la vez que utilice toda su información personal y transaccional, pero como
se mencionó en el punto uno, el método de imputación de datos en matrices dispersas no
es la mejor opción para este caso.
De acuerdo con lo anterior, fue necesario investigar otros métodos que permitan combinar toda la
información disponible. Uno de los documentos que se investigó para este trabajo, Three-Way
Recommender Systems based on Random Forest (Zhang, Min. 2015), expone una metodología
mixta bastante interesante que se escogió para ser adaptada e implementada en este caso.
Esta metodología, que se mencionara de ahora en adelante como metodología unificada, cuenta
inicialmente con una base en la cual se tienen los ratings de cada usuario en columnas por
producto, y adicionalmente, en las demás columnas contiene toda la información de contenido de
los clientes, como variables demográficas, transaccionales y del sector. Como se puede ver en la
parte superior de la ilustración 4.
A continuación, Esta base se modifica de tal manera que las columnas de los ratings de todos los
productos, se transforman en sólo dos columnas, una que contiene el nombre del producto, y la
otra contiene el rating asociado a dicho producto, de esta forma, el perfil de un cliente se va a ver
repetido las veces equivalentes al número de productos que este tenga. Lo anterior, se puede
apreciar en la parte inferior de la ilustración.
Ilustración 4: Descripción de la metodología unificada para predicción de ratings
18
Por otra parte, la segunda metodología propuesta para la predicción de los ratings, denominada de
ahora en adelante como metodología combinada, se basa en generar de forma iterativa un modelo
para cada uno de los productos, utilizando tanto las variables personales de cada cliente, al igual
que las variables de los ratings en los otros productos. En primera instancia, se cuenta con la misma
base inicial que se mencionó en la metodología unificada. Seguidamente, para entrenar cada
modelo por producto, se selecciona la columna de los ratings de un producto como variable de
respuesta, y todas las demás como variables independientes (incluyendo los ratings de los demás
productos). Paso a seguir, se eliminan aquellas filas que tengan faltantes los ratings de la variable
de respuesta, y se entrena el modelo con los datos que quedan. De la misma manera, se pasa al
siguiente producto y se repite el procedimiento tantas veces como productos haya y, por
consiguiente, cada uno de los modelos es entrenado con todas las variables disponibles de los
clientes, lo que lo hace un sistema hibrido entre las variables de contenido y colaborativo entre
productos. Este tipo de sistemas ensamblados se denominan Feature Combination Hybrids
(Aggarwal. 2016).
A diferencia de la metodología unificada, esta tiene la aparente ventaja que, en cada modelo, existe
una selección de variables independiente por producto, lo cual puede jugar un papel importante a
favor de la precisión en las predicciones. En la siguiente ilustración se puede ver representado el
algoritmo para el sistema de recomendación combinado.
Ilustración5: Descripción de la metodología combinada para predicción de ratings
La finalidad de cada una de las metodologías es poder predecir los ratings para cada cliente en
aquellos productos que aún no tiene, y así mismo, la información que le proporcionaría al área de
mercadeo le permitiría poder determinar cómo se comportaría un cliente si adquiriera el producto,
19
y de esta manera, se pueden seleccionar los clientes a quienes se van a dirigir las ofertas
diferenciadas de cada producto.
Sin embargo, hasta ahora el sistema de recomendación sólo ofrece información sobre el posible
comportamiento en los productos si los llegasen a adquirir, lo que ofrece una gran ayuda para la
profundización de los clientes, pero aún hace falta saber que tan probable es que el cliente acepte
el producto ofrecido o que tan propenso sea a buscar aquellos productos del banco que aún no
tiene.
6.2 Metodología para sistemas de recomendación de cruce de productos
Como se mencionó anteriormente, no basta con tener una predicción del comportamiento esperado
de los clientes con cada producto, pues es necesario contar también con información que permita
seleccionar aquellos clientes con mayor propensión a aceptar una oferta sobre cada producto para
poder alcanzar el objetivo global. Es así como se propone complementar la información de los
ratings, con la propensión de cruce que tiene cada cliente en cada producto de acuerdo con todas
las variables que se tienen disponibles (incluyendo los ratings actuales en los productos).
De igual manera, se propone un sistema de recomendación que utilice la misma metodología
combinada. Pero a diferencia de la implementación para el cálculo de los ratings, las variables de
respuesta cuentan con las siguientes características:
• Se aborda como un problema de clasificación donde el indicador de cruce es representado
por una variable binaria, la cual toma el valor de uno si el cliente adquiere el producto y
cero de lo contrario.
• Los indicadores de cruce en los demás productos no se utilizarán de modo colaborativo, de
hecho, no se utilizarán como variables independientes en ningún momento.
• No dependen del comportamiento histórico del cliente, por el contrario, es necesario
analizar una ventana de tiempo futura para observar que decisión toma el cliente. La
ventana de tiempo utilizada en este caso será de seis meses para todos los productos.
• Por último, se ha observado que esta variable presenta desbalanceo en los datos, pues
porcentajes por el orden del 1% al 5% de los clientes muestran la adquisición en ese periodo
de tiempo dependiendo del producto observado. Esto es un problema que se presenta a
menudo y más adelante se explica cómo se abordó para este caso.
En este caso, a la matriz expuesta anteriormente, se adicionaron columnas por producto que
indican, si en una ventana de seis meses posteriores al mes de corte, el cliente adquiere cada
uno de esos productos. Es decir, se adicionan columnas binarias con valores de cero y uno que
indican que productos adicionó cada cliente a su portafolio durante dicho periodo, y a partir de
estas columnas, se procede a entrenar un modelo de clasificación que permita calcular la
probabilidad de cruce en cada producto.
20
Ilustración 6: Descripción de metodología de predicción de probabilidad de cruce por producto
De esta manera, se procede a entrenar un modelo por producto, sólo que esta vez, se utiliza un
modelo de clasificación binaria, donde también se prueba con Random Forest y Gradient Boosted
Models para predecir las probabilidades de cruce.
Al final, se quiere llegar un sistema de recomendación hibrido de dos fases, diseñado
específicamente para atender las necesidades de cruce de productos y profundización de clientes
en el banco, resultante de la unión de las dos metodologías. Se espera este modelo sea una
herramienta interactiva con las áreas de producto y marketing, que sirva como cimiento para
estructurar las campañas de apertura y uso de los productos con bases bien segmentadas, lo cual
de paso ayuda a evitar la saturación de los clientes con las comunicaciones.
21
7. Selección de metodologías
Como se mencionó anteriormente, se debe seleccionar la metodología que mejores predicciones
ofrezca, y para lo cual, el primer paso es seleccionar cual es el mejor modelo en cada una de las
metodologías.
7.1 Sistemas de recomendación para predicción de ratings
El primer paso fue evaluar los modelos para cada una de las metodologías de ratings, donde para
la metodología unificada, se corrieron los modelos de Random Forest y GBM variando los
parámetros de profundidad y tasa de aprendizaje (Learning Rate) respectivamente. Para lograr
esto, se implementó la función ‘h2o.grid’ del paquete ‘h2o’, la cual permite probar el modelo con
todas las combinaciones de acuerdo con los criterios de los parámetros. Al final, la función
devuelve un resumen de las combinaciones con la medida de desempeño correspondiente (para el
caso de los ratings al ser un modelo de regresión se medirá con MSE).
Las combinaciones de parámetros que se escogieron por modelo fueron:
• Profundidades de 12, 15 y 18 nodos para Random Forest
• Profundidades de 12, 15 y 18 y tasas de aprendizaje de 0.1, 0.01 y 0.005 para GBM
Para los dos modelos se seleccionó una cantidad fija de 300 árboles, ya que es una cantidad robusta
en la que se llega a la estabilidad del MSE en la base de validación como se podrá observar en los
gráficos más adelante.
En resumen, se obtuvieron tres modelos para Random Forest y nueve modelos para GBM, de
acuerdo con la combinación de los parámetros escogidos. Para la metodología unificada, el
resultado fue escoger un modelo GBM con tasa de aprendizaje 0.1 y 18 nodos de profundidad,
pues fue el modelo que mejor desempeño presentó de acuerdo con el MSE en la muestra de
validación, como se puede apreciar en las siguientes tablas.
Tabla 3: Selección del mejor modelo para la metodología unificada de Ratings
Grid GBM Ratings Metodologia Unificada Grid RF Ratings Metodologia Unificada
Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE
1 0.1 18 1.0914 1 18 1.1587
2 0.01 18 1.1314 2 15 1.1690
3 0.1 15 1.1398 3 12 1.1999
4 0.01 15 1.1409
5 0.1 12 1.1500
6 0.01 12 1.1537
7 0.001 18 1.1688
8 0.001 15 1.1711
9 0.001 12 1.1868
22
Como se acaba de mencionar, se puede ver que el MSE logra su estabilidad antes de llegar a los
50 árboles, y las variables que muestran mayor importancia se pueden ver ordenadas en la gráfica
de la derecha.
Ilustración 7: Resultados de la metodología unificada para Ratings
Es importante resaltar que entre las variables más importantes se encuentra la variable producto,
la cual se construyó artificialmente en el momento que se transformó la base inicial para convertir
los ratings en una sola columna. Entre las otras variables importantes para el modelo, se encuentran
variables como el número de categorias, puntos acumulados, transacciones en comercios aliados
y visitas al comercio propio, entre otras. Lo anterior, resalta la importancia de las variables
transaccionales en la determinación de las calificaciones. También es de notar las variables
relacionadas con seguros, pues es de esperarse que un cliente que utiliza los productos
complementarios tiene un comportamiento deseable con los productos financieros.
A partir de esto, primera conclusión a la que se llega, es que el comportamiento de los clientes esta
dado más por su comportamiento transaccional, de manejo y uso con los productos del banco, y
las variables demográficas poco influyen en las predicciones.
Ahora, el paso a seguir es evaluar la metodología combinada, la cual, como ya se explicó
anteriormente, se basa en construir un modelo independiente por producto utilizando toda la
información disponible.
Para esta metodología se debe seleccionar primero un modelo de aprendizaje estadístico por
producto, entre Random Forest y GBM, y al final se hace una compilación de los mejores modelos
por producto. En la siguiente tabla se presentan los modelos seleccionados por producto, el detalle
se adjunta en el anexo uno de este documento.
23
Tabla 4: Mejor modelo seleccionado por producto en metodología combinada de Ratings
De igual manera, se analizan también la importancia de variables y la evolución del MSE respecto
al número de árboles, sólo que, para este caso es necesario revisarlos por cada uno de los productos
por separado. En las siguientes ilustraciones se pueden apreciar las selecciones de variables y la
estabilidad del MSE por producto.
Producto Modelo Depth Nodes Learning Rate Validation MSE
TDC GBM 15 0.1 1.0477
TRD GBM 15 0.01 1.2659
PAC RF 18 1.1418
AVA RF 18 1.1924
CCO GBM 15 0.01 1.0368
CTE RF 15 1.6502
ABR GBM 15 0.01 1.7378
CDT RF 15 1.3319
24
25
Ilustración 8: Importancia de variables y evolución del MSE vs número de árboles para la metodología combinada de Ratings
26
El primero punto a observar en la metodología combinada, es que el número de árboles es
suficiente para estabilizar el MSE en cada uno de los modelos, aunque no sobra mencionar que los
modelos se estabilizan mucho más rápido para Random Forest que para GBM.
Segundo, al igual que en la metodología unificada, al observar las variables más relevantes por
producto, casi todas son variables transaccionales o internas del banco, y de igual manera, la
variable demográfica más recurrente entre los productos es la edad. Esto último es importante
resaltarlo, dado que se pensaba que la ventaja de la metodología combinada sobre la metodología
unificada iba a ser la libertad que se tendría para la selección de variables para cada producto,
donde se pensaba que el comportamiento en cada producto debería ser descrito por variables
diferentes en cada caso, y, por el contrario, se encontró que las dos metodologías están apuntando
en la misma dirección al momento de predecir los ratings
De forma más específica, existe un producto en la metodología combinada que presenta casi los
mismos resultados que en la metodología unificada, y es la tarjeta de crédito, donde tienen el 50%
de las variables más importantes en común. Esto es de esperarse, pues la tarjeta de crédito es el
producto más importante del banco, por lo tanto, es el producto que más información proporciona
para el cálculo de los ratings en los modelos.
El paso a seguir para poder escoger una de las dos metodologías, es obtener el MSE por producto
en la metodología unificada para poder compararla con la metodología combinada y así,
determinar cual tiene mejor poder predictivo. En la siguiente tabla se presenta el MSE por
producto.
Tabla 5: Comparación de metodologías por producto
En la tabla anterior se puede observar que no existe una metodología dominante sobre la otra, pues
en la última columna se pude ver que la metodología combinada supera a la metodología unificada
sólo en la mitad de los productos. Hasta ahora, el MSE no es un criterio suficiente para realizar la
selección de una metodología para el sistema de recomendación de ratings.
Producto
Metodologia
Unificada
Metodologia
Combinada
M Comb outperforms
M Unif
TDC 1.0535 1.0477 0.5%
TRD 1.1785 1.2659 -7.4%
PAC 0.9299 1.1418 -22.8%
AVA 1.2825 1.1924 7.0%
CCO 1.1251 1.0368 7.8%
CTE 1.4749 1.6502 -11.9%
ABR 1.4455 1.7378 -20.2%
CDT 1.4572 1.3319 8.6%
Validation MSE
27
Adicionalmente, se elaboraron análisis más profundos, como comparar la distribución de los
ratings de las metodologías respecto a la distribución real, como se muestra a continuación en los
histogramas de los ratings.
28
29
Ilustración 9: Comparación de histogramas de ratings por producto vs ratings reales
De la misma manera, los histogramas por producto entre la metodología unificada y la metodología
combinada son prácticamente equivalentes, lo que significa que las metodologías también se
encuentran alineadas en las distribuciones de las predicciones y aun no se tienen criterios
suficientes para seleccionar una sobre la otra.
Adicional a la distribución de las predicciones, se realizó un análisis de gráficos de caja o Box-
Plot, donde se puede analizar la relación ordinal que tienen las predicciones con la variable de
respuesta. Es decir, lo que se quiere mirar con estos gráficos es la consistencia de los ratings
predichos vs los ratings reales. Los gráficos ubicados en el lado izquierdo corresponden a la
metodología unificada y los de la derecha a la metodología combinada.
30
Ilustración 10: Gráficos de caja para analizar coherencia de predicciones vs ratings actuales en los productos más representativos del banco
31
Estos primeros cuatro gráficos corresponden a los cuatro productos que más peso tienen respecto
al total de clientes, que son tarjeta de crédito, cuenta de ahorros, crédito de consumo y avances. El
eje horizontal, o eje x, de los gráficos de cajas representa los ratings reales y el eje vertical, o eje
y, representa las predicciones. Para estos productos se puede apreciar que las predicciones tienen
una clara relación creciente respecto a los ratings reales, es decir, se puede apreciar la forma
escalonada en los gráficos. Sin embargo, es fácil identificar que las predicciones presentan un
comportamiento de sub estimación de los ratings en las calificaciones altas. Es decir, un usuario
que en la actualidad tiene un comportamiento catalogado como cinco en un crédito de consumo,
el modelo le asignaría un valor dentro de un rango entre 2.9 y 4.2 aproximadamente.
Esto último se debe a que la mayoría de las calificaciones con las que se entrenaron los modelos
son bajas, como se puede observar en los histogramas de los ratings actuales. La mayoría de los
clientes presentan un comportamiento no deseable para el banco y sólo unos pocos si lo presentan,
lo cual genera un poco de distorsión en las predicciones, pues las predicciones de aquellos clientes
que deberían tener calificaciones altas en determinado producto, tenderán a estar subestimadas
debido a lo anterior.
Este es un problema que se esperaba desde el inicio, pues este banco en particular es nuevo y está
en etapa de consolidación en el mercado, y por eso mismo, se encuentran pocos clientes que
cumplan con los criterios para ser buenos. Lo anterior, representa un problema en la estabilidad
del modelo, pues a medida que se van implementando estrategias especializadas de mercadeo
sobre los clientes, y si estas llegaran ser efectivas, los diferentes perfiles de clientes se irán
definiendo y se podría identificar segmentos más marcados, por lo que sería necesario realizar
calibraciones periódicas del modelo para que este se vaya adaptando a la nueva información.
Por otra parte, para los productos que no tienen tanto peso en el total de clientes, y que además son
los menos fuertes y de menos promoción, como lo son productos alternativos de ahorro, CDTs,
cuentas corriente y cuentas de nómina, los gráficos de caja no muestran unos resultados
alentadores, como se puede ver en las siguientes ilustraciones.
32
Ilustración 11: Gráficos de caja para analizar coherencia de predicciones vs ratings actuales en los productos menos representativos del banco
33
Para este grupo de productos, que en su totalidad son productos de ahorro, se puede observar un
comportamiento un poco más plano y sin diferenciación en las predicciones. Estos son productos
que cuentan con un porcentaje muy bajo de usuarios y que el banco ha manifestado problemas en
su promoción y continuidad (entre el 3% y el 6% de los clientes presentan comportamientos
deseables), por lo que no se cuenta con un criterio lo suficientemente sólido para diferenciar los
clientes buenos en ninguna de las dos metodologías.
Hasta el momento, se tiene que las dos metodologías son funcionalmente equivalentes, pues
presentan un poder predictivo similar, y al contrario de lo que se esperaba, la metodología
combinada no muestra resultados con mejoras significativas en aquellos productos no
representativos para el banco respecto a la metodología unificada. Pues, una hipótesis que se tenía
antes de analizar los resultados, era que la metodología combinada, al tener un modelo
independiente por producto, tenía la ventaja de recoger información de mejor calidad por medio
de la selección de variables. De acuerdo con los análisis expuestos, esta hipótesis se descarta, pues
todo parece indicar que la estructura de los ratings puede ser descrita por las mismas variables
para todos los productos.
Otro análisis a realizar para la selección de la metodología para predecir ratings, dado que hasta
ahora no se tiene evidencia suficiente para descartar una de las dos, es realizar una prueba de
Backtesting, es decir, aplicar el modelo y calcular las predicciones sobre una muestra tomada en
un periodo de tiempo diferente al que se utilizó para el entrenamiento. Para este caso se tomó la
base de clientes con un rezago de tres meses posteriores respecto a la base de entrenamiento. Esto
con el fin de mirar el poder predictivo y la estabilidad de cada metodología en el tiempo. A
continuación, se presentan los resultados.
Validación por Backtesting
Dados los resultados tan similares entre las dos metodologías propuestas para la predicción de
ratings, se decidió probar los modelos en una base diferente a la de entrenamiento. Para esto, se
tomó una base de tres meses después (octubre de 2016) y se calificó con ambas metodologías.
Tabla 6: MSE por producto en base de Backtesting
Training
Producto
Metodologia
Unificada
Metodologia
Combinada
M Comb outperforms
M Unif
M Comb outperforms
M Unif
TDC 1.0680 1.0667 0.1% 0.5%
TRD 1.1211 1.2039 -7.4% -7.4%
PAC 0.8723 1.1057 -26.8% -22.8%
AVA 1.1679 1.1467 1.8% 7.0%
CCO 1.0269 1.0071 1.9% 7.8%
CTE 1.3571 1.6390 -20.8% -11.9%
ABR 1.5079 1.6833 -11.6% -20.2%
CDT 1.2220 1.1768 3.7% 8.6%
Backtest
34
El primer análisis es mirar el MSE, donde se puede verificar que la metodología combinada
continúa superando a la metodología unificada en los mismos cuatro productos, sin embargo, al
revisar el indicador de mejora porcentual de la metodología combinada sobre la metodología
unificada, se puede ver que esta última muestra mejoras más significativas más grandes en su
desempeño respecto a la metodología combinada. Esto último puede ser decisivo en el momento
de tomar una decisión sobre que metodología elegir.
Seguidamente, se analizan las distribuciones de las predicciones, se observa que estas permanecen
igual que con la base de entrenamiento y, además, siguen siendo equivalentes entre las dos
metodologías. Esto, aunque no aporta mucha información para decidir que metodología escoger,
el hecho que el MSE se mantenga o mejore y, además, que las distribuciones de las predicciones
se conserven en una base diferente a la de entrenamiento, son buenos indicadores de estabilidad
del modelo.
35
36
Ilustración 12: Histogramas de ratings de las 2 metodologías en base de Backtesting
Por último, se realizó el análisis con los gráficos de caja para revisar la consistencia de las
predicciones respecto a los ratings reales y, de la misma manera, se siguen comportando de manera
37
similar las dos metodologías y siguen conservando la misma consistencia que con la base de
entrenamiento, lo que una vez más demuestra un buen síntoma de estabilidad del modelo.
38
Ilustración 13: Gráficos de caja de los cuatro productos más representativos del banco con la base de Backtest
Para los cuatro productos más representativos se puede observar que se sigue conservando una
buena diferenciación ordinal de los ratings, y de igual manera, para los productos menos
representativos, las predicciones no muestran resultados deseados, como se puede ver en los
siguientes 4 gráficos. Esto último reitera que el comportamiento de los clientes esta dado más que
todo por sus hábitos de consumo.
39
Ilustración 14: Gráficos de caja de los cuatro productos menos representativos del banco con la base de Backtest
Finalmente, después de todos los análisis y pruebas realizados, se seleccionará la metodología
unificada para la predicción de los ratings de los clientes en los productos del banco. La decisión
se toma a partir de las mejoras marginales sobre la metodología combinada y además, debido a la
40
simplicidad, pues al utilizar un sólo modelo para todos los productos permite eficiencias marcadas
en tiempo computacional, implementación y calibración.
7.2 Modelo para cruce de productos
En este punto, se cuenta con una herramienta analítica que permite predecir el comportamiento de
un cliente con cada uno de los productos financieros del banco, lo cual provee información que
puede ser utilizada en estrategias para lograr la profundización de los clientes. Sin embargo, esta
información no permite al banco saber si el cliente está interesado en aceptar dichos productos.
En este orden de ideas, es de gran interés para el banco lograr que las ofertas dirigidas a los clientes
tengan la mayor efectividad posible, es decir, un cliente puede tener un muy buen comportamiento
esperado con un crédito de consumo, debido a sus ingresos y su perfil demográfico, pero su nivel
de endeudamiento con otros bancos o su comportamiento con los otros productos, pueden indicar
que no esté interesado en adquirir este producto. Lo cual se traduce en mala utilización de las
comunicaciones y posible saturación de los clientes
Para lo cual, se decidió desarrollar, de manera paralela al sistema de recomendación de ratings, un
modelo que permita conocer la propensión de un cliente a aceptar cada uno de los productos del
banco, en caso que le sean ofrecidos.
Este modelo, denominado modelo de cruce, se desarrolla a partir de la misma base que se utilizó
en la metodología combinada del sistema de recomendación de ratings, con la diferencia que la
variable de respuesta es ahora un indicador binario, que se traduce en si el cliente adquirió o no el
producto en una ventana de tiempo de seis meses a partir del mes focal.
Para ilustrar mejor lo anterior, en el siguiente grafico se muestra la estructura de la base de datos
que se utilizó para este modelo, que como se dijo antes, es similar a la de la base de datos de la
metodología combinada de ratings, ya que se selecciona de manera iterativa una variable de
respuesta, la cual corresponde al vector de adquisición por producto en una ventana de tiempo
observada de seis meses. Sin embargo, para este caso no se utilizan los demás vectores de respuesta
como variable independiente. Pues, dichos vectores corresponden a variables de clasificación
observadas en un momento futuro, a diferencia de los ratings que se basan en información
observada en el pasado.
41
Ilustración 12: Estructura de la base de datos para modelo de predicción de cruce de productos
Antes de proceder a implementar los modelos predictivos, cabe resaltar que las variables de
respuesta presentan un problema conocido como desbalanceo de los datos. Esto hace referencia a
que la cantidad de casos positivos que se encuentran en el periodo observado, representa una
porción muy pequeña del total de clientes, entre el 1% y el 3% dependiendo del producto. Esto
último genera que las predicciones estén sesgadas hacia los valores negativos y se puedan observar
indicadores de desempeño muy altos en los modelos, pero estos no son del todo acertados, pues
un modelo podría clasificar todas, o casi todas las predicciones como no ocurrencia del evento, y
acertaría en más del 95% de los casos.
Para resolver lo anterior, el problema se abordó con la ayuda de una función de R llamada
‘ovun.sample’. El balanceo de los datos se puede realizar de varias maneras, se puede hacer over
sampling, que se refiere a replicar algunos casos donde se presenta el evento a partir de la
simulación de nuevos perfiles. También existe el under sampling, que, por el contrario, elimina
algunos de los perfiles donde no se presenta el evento.
Al final, las dos metodologías persiguen el mismo objetivo, que es aumentar el porcentaje de casos
positivos y balancear la muestra. Aunque no se puede afirmar que una metodología sea mejor que
la otra, ya que depende de las características de la base, una buena alternativa es utilizar una
heurística que las combine ambas metodologías, que es lo que hace la función mencionada
anteriormente. De esta manera, se aplicó la función a la base de datos, también de forma iterativa
por producto, y se fijó el balanceo para que llegara a que el 10% de los casos presentaran el cruce
del producto.
Una vez se cuentan con las bases balanceadas por producto, al igual que se hizo con las
metodologías de ratings, se van a utilizar los modelos Random Forrest y GBM para calcular las
predicciones. Como se mencionó anteriormente, estos modelos son de gran versatilidad y también
sirven como modelos de clasificación, donde en este caso, se quiere predecir la probabilidad que
el cliente acepte el producto. Además, dado que es la misma base de clientes, se sabe que hay
variables que contienen datos faltantes, por lo tanto, los modelos basados en arboles de decisión
siguen siendo la mejor alternativa.
42
Adicionalmente, en esta metodología se decidió incluir las predicciones de cruce para productos
como los seguros de fraude, vehículo, vida y otros; que no son productos netamente financieros,
pero están asociados a la banca de retail y son una buena alternativa para complementar el
portafolio de los clientes logrando la profundización.
A continuación, se resume en una tabla cual modelo se seleccionó por producto de acuerdo con el
indicador de área bajo la curva (AUC). El detalle de los modelos por producto se puede encontrar
en el anexo dos.
Tabla 7: Selección de mejor modelo por producto para cruce de productos
En la columna modelo se encuentra la referencia del modelo seleccionado, donde ‘GBM 0.01 15’
corresponde a un modelo GBM con tasa de aprendizaje de 0.01 y profundidad de 15 nodos. De
igual manera, ‘RF 18’, por ejemplo, corresponde a un Random Forest con 18 nodos de
profundidad.
En el anexo 2 se puede apreciar la importancia de variables, curva ROC y las distribuciones de
probabilidades para cada uno de los productos.
Para los productos de consumo, como lo son la tarjeta de crédito, avances y créditos de consumo,
se observar una curva ROC con una sensibilidad marcada y con área bajo la curva mayor a 0.87.
Adicionalmente, los gráficos de distribución de probabilidades muestran que el modelo muestra
una discriminación marcada en cuanto a la clasificación de cruce en los productos.
Por otro lado, para los productos de ahorro como lo son las cuentas de ahorro, cuentas corrientes,
cuentas de nómina, CDTs y productos de ahorro alternativo, se observa un comportamiento más
inestable, donde las cuentas de ahorro y el producto de ahorro alternativo no presentan una
sensibilidad marcada en la curva ROC y el grafico de distribución de probabilidades ratifica lo
anterior al exponer una baja discriminación en el cruce. Por el contrario, los productos como
cuentas corrientes, cuentas de nómina y CDTs, que de paso cabe aclarar son productos que poseen
menos del 5% de los usuarios del banco, presentan una curva ROC con una sensibilidad mucho
Modelo Producto Validation AUC Validation Gini
GBM 0.01 15 TDC 0.8796 0.7593
RF 18 TRD 0.7488 0.4975
RF 18 PAC 0.7676 0.5353
GBM 0.01 15 AVA 0.8712 0.7424
RF 18 CCO 0.8861 0.7722
RF 15 CTE 0.9547 0.9094
RF 15 ABR 0.7452 0.4903
RF 15 CDT 0.9561 0.9121
RF 18 FRD 0.7377 0.4753
RF 18 OTR 0.7377 0.4753
RF 15 VEH 0.7217 0.4433
RF 15 VDA 0.8607 0.7214
43
más marcada y distribución de probabilidades con buena discriminación. Sin embargo, al revisar
las variables más importantes en estos últimos tres productos, es de notar que las cuentas corrientes
dependen básicamente del uso de los clientes con el crédito de consumo y los CDTs dependen de
la interacción que haya tenido el cliente con CDTs en el pasado, pues prácticamente los clientes
que han tenido o tienen un CDT tienden a renovarlo y, por último, las cuentas de nómina son
prácticamente un sub producto de las cuentas de ahorro.
Finalmente, los productos complementarios como los seguros de vida, vehículo, fraude y otros,
presentan baja sensibilidad en las curvas ROC y su distribución de probabilidades tampoco
muestra buena discriminación, por lo que los perfiles de las variables más importantes no ofrecen
información de buena calidad para predecir la probabilidad de adquisición de estos productos.
En conclusión, el modelo de cruce desarrollado se muestra como una buena herramienta en cuanto
a los productos de consumo y con puntos a mejorar para los demás productos. Sin embargo, son
precisamente los productos de consumo los más rentables y finalmente, aquellos productos como
los seguros, presentan una gran dependencia de las variables relacionadas con la tarjeta de crédito
como lo son el indicador de uso, antigüedad, cuotas promedio y hábito de pago, y por otro lado,
es la tarjeta de crédito el producto base de los créditos de consumo, y por consiguiente, mejorar
los indicadores de uso y cruce en los productos de consumo, se espera sirva para mejorar los
indicadores de cruce con los demás productos, o por lo menos, mejorar la información de las
variables relacionadas con estos.
44
8. Conclusiones
En definitiva, el objetivo del trabajo se centra en ofrecer una estructura de herramientas analíticas
que sirvan como base para la toma de decisiones en un banco de retail en cuanto a profundización
y cruce de productos entre sus clientes. Para lo cual, se desarrollaron modelos de inteligencia
artificial como el sistema de recomendación por medio de ratings para predecir el comportamiento
de los clientes, y el modelo de cruce de productos para predecir la probabilidad de los clientes
actuales a aceptar ofertas sobre los productos que aún no tiene.
En este orden de ideas, se analizó si las herramientas propuestas en el presente documento cumplen
satisfactoriamente los dos objetivos mencionados en el párrafo anterior, y en cuanto al
comportamiento de los clientes con los productos, se puede observar un buen desempeño en
aquellos productos relacionados con el consumo y un desempeño un poco menos satisfactorio para
los productos de ahorro. De acuerdo con las variables seleccionadas por el modelo, es de esperarse
que los productos de consumo tiendan a tener un comportamiento más predecible debido a la
mayor frecuencia de interacción del cliente con ellos, y la evidente relación que existe entre la
variable de respuesta y la información brindada por el banco. Lo anterior, lleva a plantear un
análisis más profundo para aquellos productos de ahorro, ya sea para incluir información de mejor
calidad o inclusive, modificar la arquitectura de las variables de respuesta de estos productos.
Por el lado del cruce de productos, los resultados más satisfactorios fueron arrojados también por
los productos de consumo. Al igual que en el modelo de comportamiento, los clientes presentan
mayor interacción en cuanto al cruce de productos de consumo y, por lo tanto, la información
disponible está relacionada con estos mismos. En este caso, debido a la simplicidad de la variable
de respuesta binaria, todo parece indicar que los resultados menos satisfactorios para algunos
productos de ahorro y los productos de seguros, se debe a falta de información en las variables
independientes, por lo que una etapa posterior de calibración de los datos se hace necesaria.
Al final, los modelos desarrollados demuestran una gran capacidad predictiva en cuanto al
comportamiento de los clientes y probabilidad de cruce de los productos del banco. A pesar de
presentar algunas falencias, es una herramienta poderosa en cuanto a los productos de consumo,
que, en resumen, son los más importantes en cuanto a rentabilidad e impulso de la marca para el
banco. Dicho lo anterior, al lograr unas predicciones con alto nivel de precisión en los productos
más importantes, los objetivos de profundización de clientes y cruce de productos tendrán una
herramienta analítica que proporciona información fundamental de los clientes, y de igual forma,
proporciona información valiosa inclusive para aquellos productos donde la precisión de las
predicciones no mostro los resultados esperados. Esto último, aunque no es lo ideal en un modelo
de aprendizaje estadístico, es bastante común empezar con un modelo no tan preciso, y a partir del
análisis de resultados se puede obtener información valiosa para calibrar el modelo o inclusive,
identificar aquella información que puede estar haciendo falta.
45
9. Revisión bibliográfica
1. Aggarwal, C. (2016). Recommender Systems: The Textbook. Doi: 10.1007/978-3-319-
29659-3.
2. Bell, R. Koren, Y. (2010). Lessons from the Netflix Prize Challenge. Recuperado de:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.401.8553&rep=rep1&type=pdf
3. Bobadilla, J. Ortega, F. Hernando, A. Gutiérrez, A. (2013). Recommender Systems Survey.
Knowledge-Based Systems, 46, 109-132.
4. Elahi, M. Ricci, F. Rubens, N. (2016). A Survey of Active Learning in Collaborative
Filtering Recommender Systems. Computer Science Review, 20, 29-50.
5. H2O.ai team. (2017). Package ‘h2o’. Rdocumentation CRAN repository. Recuperado de:
https://cran.r-project.org/web/packages/h2o/h2o.pdf
6. Hastie, T. Tibshirani, R. Friedman, J. (2009). The Elements of Statistical Learning. New
York: Springer
7. Hastie, T. Tibshirani, R. Wainwright, M. (2015). Statistical Learning with Sparsity.
Recuperado de:
https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS_corrected_1.4.16.pdf
8. Kuhn, M. Johnson, K. (2013). Applied Predictive Modeling. Doi: 10.1007/978-1-4614-
6849-3
9. Luck, D. (2009). The Importance of Data within Contemporary CRM. The Book Data
Mining Applications for Empowering Knowledge Societies, 96–109. Doi: 10.4018/978-1-
59904-657-0.ch006.
10. Ricci, F. Rokach, L. Shapira, B. (2015). Recommender Systems Handbook. Doi:
10.1007/978-1-4899-7637-6
11. Zhang, H. Min, F. (2015). Three-way Recommender Systems Based on Random Forests.
Knowledge-Based Systems, 91, 275-286.
46
10. Anexos
Anexo 1: Selección de modelo por producto metodología combinada de Ratings
TRD GBM TRD Random Forest
Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE
1 0.1 15 1.2659 1 15 1.3194
2 0.01 15 1.2659 2 18 1.3094
3 0.005 15 1.3171
4 0.1 18 1.2798
5 0.01 18 1.2694
6 0.005 18 1.3161
PAC GBM PAC Random Forest
Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE
1 0.1 15 1.1895 1 15 1.1434
2 0.01 15 1.1460 2 18 1.1418
3 0.005 15 1.1566
4 0.1 18 1.1991
5 0.01 18 1.1530
6 0.005 18 1.1610
CDT GBM CDT Random Forest
Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE
1 0.1 15 1.3850 1 15 1.3319
2 0.01 15 1.3585 2 18 1.3343
3 0.005 15 1.3667
4 0.1 18 1.3882
5 0.01 18 1.3636
6 0.005 18 1.3723
CCO GBM CCO Random Forest
Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE
1 0.1 15 1.0652 1 15 1.0590
2 0.01 15 1.0368 2 18 1.0566
3 0.005 15 1.0791
4 0.1 18 1.0719
5 0.01 18 1.0493
6 0.005 18 1.0860
47
TDC GBM TDC Random Forest
Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE
1 0.1 15 1.0477 1 15 1.1178
2 0.01 15 1.0533 2 18 1.1089
3 0.005 15 1.1139
4 0.1 18 1.0545
5 0.01 18 1.0548
6 0.005 18 1.1110
CTE GBM CTE Random Forest
Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE
1 0.1 15 1.6957 1 15 1.6502
2 0.01 15 1.6561 2 18 1.6522
3 0.005 15 1.6866
4 0.1 18 1.7084
5 0.01 18 1.6621
6 0.005 18 1.6908
AVA GBM AVA Random Forest
Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE
1 0.1 15 1.2346 1 15 1.1945
2 0.01 15 1.2014 2 18 1.1924
3 0.005 15 1.2219
4 0.1 18 1.2478
5 0.01 18 1.2114
6 0.005 18 1.2290
ABR GBM ABR Random Forest
Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE
1 0.1 15 1.7690 1 15 1.8009
2 0.01 15 1.7378 2 18 1.7984
3 0.005 15 1.8302
4 0.1 18 1.7764
5 0.01 18 1.7525
6 0.005 18 1.8276
48
Anexo 2: Selección de modelo por producto para cruce
TRD GBM TRD Random Forest
Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini
1 0.1 15 0.7068 0.4137 1 15 0.7458 0.4916
2 0.01 15 0.7290 0.4579 2 18 0.7488 0.4975
3 0.005 15 0.7275 0.4551
4 0.1 18 0.6684 0.3369
5 0.01 18 0.7030 0.4060
6 0.005 18 0.7006 0.4011
PAC GBM PAC Random Forest
Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini
1 0.1 15 0.7473 0.4945 1 15 0.7670 0.5339
2 0.01 15 0.7607 0.5214 2 18 0.7676 0.5353
3 0.005 15 0.7563 0.5126
4 0.1 18 0.7241 0.4483
5 0.01 18 0.7443 0.4886
6 0.005 18 0.7393 0.4786
CDT GBM CDT Random Forest
Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini
1 0.1 15 0.9355 0.8711 1 15 0.9561 0.9121
2 0.01 15 0.9393 0.8786 2 18 0.9557 0.9114
3 0.005 15 0.9350 0.8700
4 0.1 18 0.9394 0.8788
5 0.01 18 0.9264 0.8528
6 0.005 18 0.9270 0.8541
CCO GBM CCO Random Forest
Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini
1 0.1 15 0.8663 0.7325 1 15 0.8855 0.7710
2 0.01 15 0.8809 0.7617 2 18 0.8861 0.7722
3 0.005 15 0.8780 0.7559
4 0.1 18 0.8317 0.6634
5 0.01 18 0.8744 0.7488
6 0.005 18 0.8685 0.7370
TDC GBM TDC Random Forest
Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini
1 0.1 15 0.8641 0.7282 1 15 0.8436 0.6872
2 0.01 15 0.8796 0.7593 2 18 0.8472 0.6944
3 0.005 15 0.8617 0.7235
4 0.1 18 0.8708 0.7415
5 0.01 18 0.8710 0.7420
6 0.005 18 0.8501 0.7002
CTE GBM CTE Random Forest
Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini
1 0.1 15 0.8582 0.7165 1 15 0.9547 0.9094
2 0.01 15 0.9273 0.8546 2 18 0.9540 0.9080
3 0.005 15 0.9163 0.8327
4 0.1 18 0.7934 0.5868
5 0.01 18 0.8870 0.7739
6 0.005 18 0.8480 0.6959
49
AVA GBM AVA Random Forest
Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini
1 0.1 15 0.8658 0.7316 1 15 0.8689 0.7378
2 0.01 15 0.8712 0.7424 2 18 0.8695 0.7390
3 0.005 15 0.8680 0.7361
4 0.1 18 0.8615 0.7231
5 0.01 18 0.8681 0.7361
6 0.005 18 0.8632 0.7264
ABR GBM ABR Random Forest
Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini
1 0.1 15 0.5119 0.0239 1 15 0.7452 0.4903
2 0.01 15 0.6265 0.2531 2 18 0.7405 0.4810
3 0.005 15 0.6490 0.2979
4 0.1 18 0.5531 0.1062
5 0.01 18 0.6027 0.2054
6 0.005 18 0.5913 0.1826
FRD GBM FRD Random Forest
Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini
1 0.1 15 0.7117 0.4233 1 15 0.7355 0.4709
2 0.01 15 0.7372 0.4743 2 18 0.7389 0.4779
3 0.005 15 0.7302 0.4604
4 0.1 18 0.6766 0.3533
5 0.01 18 0.7186 0.4372
6 0.005 18 0.7107 0.4215
OTR GBM OTR Random Forest
Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini
1 0.1 15 0.5516 0.1031 1 15 0.7370 0.4739
2 0.01 15 0.7085 0.4171 2 18 0.7377 0.4753
3 0.005 15 0.7093 0.4185
4 0.1 18 0.5536 0.1072
5 0.01 18 0.6769 0.3538
6 0.005 18 0.6747 0.3494
VEH GBM VEH Random Forest
Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini
1 0.1 15 0.6631 0.3262 1 15 0.7217 0.4433
2 0.01 15 0.7008 0.4016 2 18 0.7215 0.4430
3 0.005 15 0.7023 0.4046
4 0.1 18 0.6399 0.2799
5 0.01 18 0.6809 0.3617
6 0.005 18 0.6824 0.3648
VDA GBM VDA Random Forest
Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini
1 0.1 15 0.7070 0.4140 1 15 0.8607 0.7214
2 0.01 15 0.8142 0.6284 2 18 0.8584 0.7167
3 0.005 15 0.8136 0.6272
4 0.1 18 0.7353 0.4706
5 0.01 18 0.7741 0.5482
6 0.005 18 0.7651 0.5302
50
Anexo 3: Importancia de variables, curva ROC y distribución de probabilidades para modelo de Cruce
51
52
top related