implementaciÓn y desarrollo de sistemas de …

52
1 IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE RECOMENDACIÓN PARA PROFUNDIZACIÓN DE CLIENTES Y CRUCE DE PRODUCTOS EN UN BANCO DE RETAIL Sebastián Oliva García Trabajo de grado dirigido por: Carlos Felipe Valencia, PhD UNIVERSIDAD DE LOS ANDES Maestría en Ingeniería Industrial Área Investigación de Operaciones y Estadística Bogotá 2017

Upload: others

Post on 18-Nov-2021

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

1

IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE RECOMENDACIÓN PARA

PROFUNDIZACIÓN DE CLIENTES Y CRUCE DE PRODUCTOS EN UN BANCO DE

RETAIL

Sebastián Oliva García

Trabajo de grado dirigido por:

Carlos Felipe Valencia, PhD

UNIVERSIDAD DE LOS ANDES

Maestría en Ingeniería Industrial

Área Investigación de Operaciones y Estadística

Bogotá

2017

Page 2: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

2

Resumen

El presente trabajo tiene como objetivo desarrollar un sistema de recomendación híbrido, que

funcione como herramienta de soporte para el área de mercadeo y producto en cuanto a la

optimización de los indicadores de profundización de clientes y cruce de productos en un banco

de retail.

Para el desarrollo de la herramienta, se utiliza toda la información disponible de cada cliente en

cuanto a datos demográficos, transaccionales, hábitos de consumo y comportamiento con

productos en otras entidades del sector, con el fin de entrenar modelos de inteligencia artificial

para predecir el comportamiento de los clientes con los productos del banco. Al mismo tiempo

que se busca identificar la propensión de cada cliente a adquirir cada uno de estos productos.

En este orden de ideas, se compara el desempeño de dos metodologías basadas en ensamblaje de

árboles de decisión como lo son: Random Forest y Gradient Boosting Models (GBM).

Palabras clave: Sistemas de recomendación, filtros colaborativos, recomendación por

contenido, Machine Learning, arboles de decisión, ensamblaje de modelos, Random Forest,

Gradient Boosting Models, banco de retail / retail financiero.

Page 3: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

3

Tabla de Contenidos

1. Introducción .......................................................................................................................................... 4

2. Planteamiento del problema .................................................................................................................. 5

3. Descripción de la base de datos ............................................................................................................ 6

4. Arquitectura de las variables de respuesta ............................................................................................ 8

5. Marco teórico ...................................................................................................................................... 11

5.1 Random Forest .................................................................................................................................. 11

5.2 Gradient Boosting Models (GBM) ................................................................................................... 12

6. Metodologías a evaluar ....................................................................................................................... 14

6.1 Metodologías de sistemas de recomendación para predecir ratings ................................................. 14

6.2 Metodología para sistemas de recomendación de cruce de productos .............................................. 19

7. Selección de metodologías .................................................................................................................. 21

7.1 Sistemas de recomendación para predicción de ratings .................................................................... 21

Validación por Backtesting ................................................................................................................. 33

7.2 Modelo para cruce de productos ....................................................................................................... 40

8. Conclusiones ....................................................................................................................................... 44

9. Revisión bibliográfica ......................................................................................................................... 45

10. Anexos ............................................................................................................................................ 46

Page 4: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

4

1. Introducción

Los bancos de retail tienen la particularidad de que se enfocan sólo en personas ofreciendo

productos como tarjetas de crédito, créditos de consumo, cuentas de ahorro, cuentas corrientes y

otros productos relacionados, los cuales complementan con productos como seguros. Dado el

creciente desarrollo que han tenido los medios de pago electrónicos en la última década, la banca

de retail se vuelve cada vez más importante en el sector bancario. Los bancos no sólo buscan

ofrecer al cliente el portafolio de productos financieros más completo, sino que a la vez buscan

generar alianzas con todo tipo de comercios desde restaurantes hasta aerolíneas, desarrollan sus

propios programas de fidelización y demás estrategias, lo cual hace que la banca de retail se esté

convirtiendo en un servicio de uso cotidiano para muchos individuos con una tarjeta de crédito, y

al mismo tiempo, los bancos están obteniendo información cada vez más valiosa y más variada

proveniente de sus usuarios.

En este orden de ideas, los bancos están invirtiendo cada vez más recursos para atraer y retener

clientes, lo cual hace que la competencia actual dentro del sector bancario sea un factor que

estimule la innovación e implementación de estrategias en inteligencia de mercados. A raíz de

esto, los bancos están implementando estrategias de administración de relación con clientes (CRM

por sus siglas en ingles), pues con la gran cantidad de información a la cual se tiene acceso hoy en

día, es necesario conocer a los clientes para llegarles con las ofertas adecuadas en el momento

correcto. Es decir, conocer a los clientes de tal forma que se puedan identificar sus hábitos de

consumo, su comportamiento financiero y hasta sus gustos personales, y mediante el uso de

herramientas analíticas, poder predecir el siguiente producto o servicio a ofrecerle de tal manera

que se minimice el riesgo de saturarlo con demasiada información, y se maximice la posibilidad

de acertar en la oferta y mantener al cliente satisfecho.

De acuerdo con lo anterior, en los últimos años se han venido desarrollando herramientas

analíticas, que, complementadas con los avances computacionales modernos, permiten la

manipulación e implementación de modelos de aprendizaje artificial en grandes bases de datos.

Entre las metodologías en las cuales se han hecho avances importantes se encuentran los sistemas

de recomendación, los cuales, a partir de la información disponible, ya sea información entre

usuarios, entre ítems o información demográfica, transaccional, personal o de contenido, permiten

seleccionar la mejor opción para el cliente entre una gran variedad de ofertas de productos

(Aggarwal. 2016).

Page 5: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

5

2. Planteamiento del problema

En el presente trabajo, se desarrollan dos metodologías basadas en sistemas de recomendación que

utilizan una estructura de ratings que permiten predecir el comportamiento del cliente con cada

producto, y se complementará con otra metodología de sistemas de recomendación para predecir

cuál es el producto con mayor propensión a ser aceptado por el cliente. Lo anterior, se logra

mediante herramientas analíticas de aprendizaje estadístico, donde los ratings se van a predecir

por medio de una regresión como variable continua de uno a cinco, y la probabilidad de cruce

como un problema de clasificación con una variable binaria.

De esta manera, se plantea resolver los problemas tanto de profundización como de cruce de

productos para un banco de retail, lo que desemboca en un objetivo global el cual es la retención

de clientes actuales. La razón por la cual el enfoque se dirige a la retención de clientes y no a la

adquisición de nuevos clientes, es en primera medida porque es más rentable retener clientes

actuales que generar relaciones nuevas (Luck. 2009) y segundo, porque los clientes actuales

brindan información más amplia y robusta para procesar con modelos analíticos, mientras que la

adquisición de clientes nuevos se basa más que todo en estrategias de publicidad y mercadeo.

Partiendo de lo anterior, es necesario aclarar algunos conceptos claves como lo es el concepto de

clientes profundizados para el banco en el cual se está realizando el estudio. Un cliente

profundizado es aquel que cuenta con dos o más productos y que, además, presenta un

comportamiento deseable para el banco con dichos productos (más adelante se explica en que

consiste un comportamiento deseable para cada producto). Adicionalmente, el concepto de cruce

de productos corresponde a lograr que el cliente diversifique su portafolio con el banco adquiriendo

productos nuevos por medio de ofertas especializadas.

Es así como, el sistema de recomendación de ratings engranado con el sistema de recomendación

de cruce de productos, presentan indicadores clave para poder diferenciar las estrategias

comerciales a ejecutar entre los clientes, ya que a partir de esta información, se pueden

implementar estrategias simples y de forma masiva a aquellos clientes con un buen

comportamiento esperado de acuerdo con los ratings y una alta propensión de cruce, y por otro

lado, se pueden aplicar estrategias más agresivas y personalizadas a aquellos clientes con un buen

comportamiento esperado pero con baja propensión de cruce, o aquellos con alta propensión de

cruce pero con un comportamiento esperado regular. O, simplemente, se puede decidir no

desgastar recursos en aquellos clientes con bajos desempeños esperados en los dos indicadores.

Page 6: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

6

3. Descripción de la base de datos

Para poder construir cualquier modelo analítico lo más importante es contar con una base de datos

robusta, y para el banco en cuestión, los datos, representados en variables por cliente, provienen

de diversas fuentes que se describen en la siguiente tabla.

Tabla 1: Resumen de las variables utilizadas en el modelo

El procesamiento de los datos se hizo a través del motor de bases de datos SQL Server de

Microsoft. La base final cuenta con 1,835,745 registros y tiene 97 variables con información

distribuida de acuerdo con la tabla anterior. Es importante anotar que la mayoría de las variables,

excluyendo las demográficas, por naturaleza tienen valores faltantes, pues una variable

transaccional para un cliente que no tiene la tarjeta de crédito o el hábito de pago en el sector para

un cliente que no cuenta con tarjetas de crédito en otros bancos, no tienen información alguna.

Esto representa un problema en el momento de escoger un modelo predictivo, pues la mayoría de

modelos no asimilan los valores faltantes en las variables numéricas, mientras que para las

variables categóricas el valor faltante se puede convertir en una categoría más o se puede asociar

a una categoría ya existente.

Para dar solución a este problema, se consideraron métodos tradicionales como eliminar a aquellos

clientes con valores faltantes, pero prácticamente todos los clientes presentan valores faltantes por

lo menos en una variable, por lo tanto, esta no era una opción. Otro método fue la imputación de

datos a partir del promedio o la media de la variable, pero a simple vista carece de sentido, ya que

no existe razón alguna para asumir el comportamiento del cliente en algún producto que no tiene

o en algún habito de consumo como el promedio de los demás clientes. Adicionalmente, la

imputación de datos en las variables funciona cuando los datos faltantes representan un porcentaje

menor al 5% de los datos (Hastie, Tibshirani, Friedman. 2009), donde este no es el caso.

Finalmente, se probó un método de imputación de datos por medio de descomposición de valores

singulares de la matriz. Este es un procedimiento más robusto que utiliza los vectores propios de

la matriz incompleta, y de manera predictiva imputa los valores faltantes, sin embargo, se retorna

al mismo problema de asumir comportamientos de los clientes en las variables, lo cual no

representa información real, simplemente se está utilizando la información que está disponible en

las otras variables y en los otros usuarios. Esto sin contar que este método realiza la imputación a

partir de valores numéricos, por lo que las variables categóricas no estarían aportando información

en la imputación, o sería necesario transformarlas en variables numéricas por medio de variables

Tipo de variables Fuente Descripción

DemográficasFormularios de apertura y lugares de

uso de los productos

Variables referentes a edad, genero, ubicación geográfica,

ingresos, estrato socioeconómico, entre otras

Personales banco Bases de datos internas

Variables referentes a antigüedad de productos, cupos

aprobados, hábitos de pago, inactividad, programas de

fidelización, entre otras

Transaccionales banco Bases de datos internas y Redeban

Variables referentes a frecuencias y montos de

transacciones, utilización de cupos, situación de cartera,

comercios donde compra, compras en línea, entre otras

Transaccionales externas Centrales de riesgo y Redeban

Variables referentes a que productos financieros tiene por

fuera del banco, hábitos de pago, indicadores de

endeudamiento, entre otras

Page 7: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

7

dummies, lo cual generaría aún más ruido en los datos. Es decir, con la imputación se estaría

solucionando un problema técnico, mas no el problema fundamental del modelaje (Hastie,

Tibshirani, Wainwright. 2015).

Al final, se llega a la conclusión que aquella falta de datos provee también información valiosa

para predecir, pues la falta de información tiene un significado, y es que un cliente puede

pertenecer al tipo de personas que no utilizan cuentas de ahorro o que simplemente no son aptos

para desembolsar un crédito de consumo y, por lo tanto, tienen ese vacío en la información.

La imputación de datos tendría sentido si las variables contaran con un porcentaje pequeño de

datos faltantes, y así no se correría el riesgo de distorsionar la información. Pero dado que se cuenta

con un gran número de variables, y, que además contienen un gran porcentaje de valores faltantes

debido a su naturaleza, es normal tener datos faltantes y, por consiguiente, es necesario encontrar

modelos que absorban dicha falta de información y la conviertan en información predictiva, por

ejemplo, como lo hacen los arboles de decisión.

Por otra parte, otro aspecto fundamental en el pre procesamiento de datos, es revisar si existe

correlación entre las variables de la base. Para el caso de las variables continuas, se utilizó el

método clásico de construir una matriz con las correlaciones de Pearson, y se encontraron algunas

pocas relaciones lineales entre variables, las cuales eran fácilmente predecibles desde el principio.

Por ejemplo, el cupo de avance de un cliente está muy correlacionado con su cupo total en la tarjeta

de crédito y lo mismo sucede con el sector, el cupo que tenga con algún producto financiero tiene

una relación lineal marcada con el cupo total que tenga. Para estos casos, se hizo la selección

analizando que variable tenía mayor correlación con la variable de respuesta, bien fuera frente a

los ratings o frente al indicador de cruce de productos.

Para el caso de las variables categóricas, se realizaron pruebas chi-cuadrado para cada par de

variables e, igualmente, se encontraron muy pocos casos donde las variables contenían

información equivalente y, aquella variable que mayor información aportara a la variable de

respuesta sería seleccionada.

Finalmente, dado que las variables provienen de fuentes de información muy variadas y dado que,

las variables de respuesta incluyen toma de decisiones entre múltiples productos, cada variable

explicativa puede contener información valiosa para la predicción de ratings o cruce dependiendo

del producto, y puede que esa misma información no aporte información para la predicción de

estos indicadores en los demás productos. Para lo cual, más que realizar los análisis tradicionales

de selección de variables, los modelos que fueron seleccionados para aprender a partir de los datos

de la base, incluyen criterios robustos de selección de variables con componentes aleatorios

incorporados ya dentro del algoritmo, como se explicará más adelante.

Page 8: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

8

4. Arquitectura de las variables de respuesta

Como se mencionó anteriormente, se van a construir dos sistemas de recomendación, donde uno

de ellos predice el comportamiento esperado del cliente con cada producto por medio de ratings,

y el otro predice la probabilidad de cruce en cada producto por medio de un modelo de

clasificación.

Para el primer caso, es necesario diseñar una medida de desempeño que permita medir el uso de

los clientes con su portafolio de productos actuales, y de esta manera, entrenar el modelo. Es decir,

se debe crear una variable de respuesta que permita saber si un cliente está teniendo o no un uso

del producto que resulte deseable para el banco. Al buscar en la literatura, se encontró la

metodología de ratings implementada en el sistema de recomendación de Netflix, donde los

usuarios puntúan las películas que han visto de acuerdo con una escala de uno a cinco, y de esta

manera, esta película puede ser recomendada a otros usuarios. Además, el usuario empieza a

recibir recomendaciones de otras películas a medida que amplía el número de películas puntuadas

(Bell, Koren. 2010). Sin embargo, es evidente que no es posible, o por lo menos no es una práctica

eficiente solicitar a los usuarios del banco que puntúen sus productos de acuerdo con su criterio.

En primera medida, tendría que plantearse un método de comunicación masivo que logre persuadir

a los clientes de calificar sus productos, crear algún sistema de incentivos que los motive a hacerlo,

donde se sabe ya por datos históricos que no todos los clientes se tomarían el tiempo de hacer dicha

evaluación, y además, si lo hicieran, nada garantiza que lo estén haciendo a conciencia e inclusive,

aun si lo hicieran, sería demasiado subjetivo, pues a un cliente le puede gustar el producto o no,

mas sin embargo, no hay correlación con que lo esté usando bien o mal.

En este orden de ideas, fue necesario elaborar una metodología un poco más compleja para obtener

las puntuaciones en los productos. Dado que el banco cuenta con la información histórica

transaccional de los clientes con cada producto, se hizo una revisión con el área de producto y

marketing para seleccionar que variables definen un comportamiento bueno o malo de los clientes

con cada producto. Paso a seguir, se diseñó un sistema de ratings diferenciado por producto, pues

no se puede medir de la misma manera el comportamiento de un cliente en un producto de consumo

y en un producto de ahorro. En la siguiente tabla se resumen las variables y la metodología que se

utilizó en cada producto para el cálculo de los ratings.

Page 9: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

9

Tabla 2: Descripción de metodologías para calcular los ratings actuales por producto

Es así como se propone un sistema de ratings para los productos de consumo como lo son la tarjeta

de crédito, créditos de consumo y avances, a partir de indicadores como monto, frecuencia y plazos

en un periodo determinado por producto. Para el caso de los productos de ahorros como lo son

cuentas de ahorro, cuentas corrientes, cuentas de nómina, CDT’s, entre otros, se dio mayor

importancia a la recurrencia, es decir, que en productos como las cuentas de ahorro y cuentas

corrientes, se identificó que el principal problema de los clientes era la falta de uso, y por lo tanto,

un cliente que haga transacciones ya sean de depósito, retiro, transferencias o pagos electrónicos,

es un clientes que tiene buen uso de estos productos sin importar el monto que muevan. Mientras

que para una cuenta de nómina se tuvo en cuenta la recurrencia, pero a la vez se revisó el monto

que transaban, pues el banco tiene establecido un límite mínimo de monto depositado al mes para

definir una cuenta como cuenta de nómina.

Por el otro lado, para el segundo sistema de recomendación, el cual corresponde al cruce de

productos, la variable de respuesta se construyó como una variable binaria, donde toma el valor de

uno si el cliente adquirió el producto, durante una ventana de tiempo de 6 meses a partir de un mes

focal o mes de corte (para este caso se utilizó Julio de 2016). Y toma un valor de cero si el cliente

no realizó ninguna acción con dicho producto. Cada producto tiene una variable de respuesta, y de

esta manera, se puede entrenar un modelo estadístico que determine la probabilidad de cada cliente

de adquirir cada uno de los productos.

Producto Naturaleza Variables de desempeño Tiempo de observación Metodología

Tarjeta de crédito Consumo- Frecuencia

- Monto

Último año de uso

promediado en meses

Adecuación de

metodología RFM

Crédito de consumo Consumo

- Número de desembolsos

- Montos desembolsados

- Cuotas promedio pagadas

Últimos 3 años de uso

promediados en meses

Adecuación de

metodología RFM

Avances Consumo- Número de desembolsos

- Montos desembolsados

Últimos 3 años de uso

promediados en meses

Adecuación de

metodología RFM

Cuenta de ahorros Ahorro - MovimientosÚltimo año de uso

promediado en meses

Rangos proporcionados

por área de mercadeo

Cuenta corriente Ahorro - MovimientosÚltimo año de uso

promediado en meses

Rangos proporcionados

por área de mercadeo

Cuenta de nomina Ahorro

- Montos depositados

mayores a valor establecido

por el banco

Depósitos realizados en

el último año

A partir del número de

meses que cumple con

el criterio de monto

mínimo establecido

CDT Ahorro

- Número de aperturas

- Monto

- Plazos promedio

Aperturas realizadas en

los últimos 2 años

Adecuación de

metodología RFM

Ahorro opcional Ahorro

- Montos depositados

mayores a valor establecido

por el banco

Depósitos realizados en

el último año

A partir del número de

meses que cumple con

el criterio de monto

mínimo establecido

Page 10: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

10

Es importante resaltar que se identificaron algunos productos que presentan un comportamiento

estacional, es decir, hay meses del año donde se presenta un mayor número de adquisiciones de un

producto que en otros meses, como es el caso de los productos de consumo. Por ejemplo, es de

esperarse que la cantidad de créditos de consumo desembolsados en meses como noviembre y

diciembre sea mayor a la cantidad de créditos desembolsados en meses como marzo o abril.

Mientras que para los productos de ahorro no se identificó dicha estacionalidad, pues se observó

un comportamiento de apertura uniforme sin importar la época del año. Este es un problema que

por cuestiones de tiempo y carga computacional no fue posible abordarlo en este trabajo, sin

embargo, es necesario darle solución en una etapa posterior mediante modelos que incorporen

series de tiempo.

Page 11: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

11

5. Marco teórico

Continuando con el desarrollo del problema, es necesario seleccionar un modelo de aprendizaje

estadístico, que sirva para procesar la información y poder predecir tanto los ratings en los

productos financieros como la probabilidad de adquisición de cada uno de ellos por parte de los

clientes. Para el caso de la predicción de ratings, se abordará como un modelo de regresión que

pueda predecir calificaciones entre uno y cinco representados como una variable continua, y para

el caso de la predicción de probabilidad de cruce de productos, se abordará como un modelo de

clasificación binario en donde se predice la probabilidad que el cliente adquiera cada uno de los

productos del banco.

Como se explicó anteriormente, la base de datos consta de un gran número de variables de

naturaleza numérica y categórica que contienen datos faltantes. Teniendo en cuenta lo anterior, los

modelos de aprendizaje artificial basados en reglas y en árboles de decisión, ofrecen ventajas que

se ajustan a la naturaleza de los datos de la base a utilizar, pues son ideales para manejar grandes

cantidades de variables, ya que cuentan con métodos de selección de variables implícitos y no se

ven afectados con la presencia de datos faltantes, dado que al ser modelos basados en arboles de

decisión, estos mismos realizan la partición de las variables a utilizar, y de esta manera, crean sus

propias categorias, eliminando así el inconveniente de los datos faltantes, los cuales son asignados

dentro de alguna categoría. Adicionalmente, estos modelos pueden ser utilizados tanto para

regresión como para clasificación (Ricci, Rokach, Shapira. 2015).

En este orden de ideas, los modelos seleccionados para implementar serán Random Forest y

Gradient Boosting Models. Estas dos metodologías comparten un gran número de características,

pues parten de un modelo simple, inestable y con bajo poder de predicción como lo es un árbol de

decisiones y, al adicionar un componente aleatorio combinado con el ensamblaje de un gran

número de árboles, que al final se promedian, en el caso de Random Forest, o se adicionan, en el

caso de GBM, y así se logra obtener un modelo robusto con varianza mínima.

Es importante resaltar que, para implementar dichos modelos en grandes sets de datos se utilizó el

software estadístico R, el cual es reconocido como uno de los más potentes en manejo de

algoritmos de aprendizaje artificial. Este software funciona por medio de paquetes, los cuales

tienen funcionalidades especificas dependiendo del objetivo del modelo. Para este caso, se

investigaron varios paquetes como ‘randomForest’, ‘gbm’, ‘Caret’, ‘XGBoost’ y ‘h2o’. Al final,

se determinó que ‘h2o’, un paquete desarrollado por la comunidad científica ‘Apache’ y que utiliza

algoritmos de procesamiento de datos basados en ‘Map-reduce’ (H2O.ai team. 2017), es la mejor

alternativa para este caso, junto con el paquete ‘data.table’, el cual se utilizó para el cargue de la

base y transformación de algunas variables.

A continuación, se explica la estructura de cada uno de los modelos a evaluar.

5.1 Random Forest

Este algoritmo desarrollado en la década de los 90, utiliza la metodología de Bootstraping, donde

realiza una selección aleatoria de las muestras para el entrenamiento del modelo (para el paquete

‘h2o’ esta predeterminado utilizar 50% de la base en entrenamiento y 50% Out-of-bag), y de esta

manera, cada árbol utilizaría una base sustancialmente diferente a las demás, y aquellos datos por

fuera de la muestra, denominados Out-of-bag, sirven para realizar la validación de las

predicciones. Esta metodología tiene la ventaja que no requiere particionar la base inicial en base

Page 12: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

12

de entrenamiento y base de validación y, además, es equivalente a la metodología Cross-

validation, la cual se sabe es altamente eficiente para la reducción de la varianza. Al final, se

promedia el resultado de los arboles generados y se obtiene un modelo estadístico ensamblado con

baja varianza.

La reducción de varianza en los modelos ensamblados se puede entender de la siguiente manera:

Si se parte del hecho que un modelo tiene varianza 𝜎2, por definición, para n modelos, la varianza

del ensamblaje será 𝜎2/𝑛, la cual es evidentemente más pequeña que la del modelo individual.

Adicionalmente, este modelo también tiene un componente aleatorio en el momento de seleccionar

las variables a utilizar, pues en cada árbol no utiliza el total de las variables, sino que utiliza una

fracción (el paquete esta predeterminado para utilizar p/3 variables para regresión y √𝑝 variables

para clasificación).

De esta manera, no sólo se garantiza la independencia entre las muestras, sino que también se

garantiza que las relaciones condicionales entre las variables independientes y la variable de

respuesta no sea siempre la misma, creando diferentes reglas de asociación en cada árbol, pues al

considerar sólo una fracción de las variables predictoras, las variables fuertes no son consideradas

en 𝑝−𝑚

𝑝 de los casos y esto brinda una oportunidad a aquellas variables no tan fuertes para aparecer

en el modelo. Teniendo en cuenta lo anterior, es aconsejable sintonizar el modelo con un número

robusto de árboles (300 en este caso) para que la combinación de estos modelos de aprendizaje

independientes, reduzca la varianza en el error considerablemente respecto a un árbol individual

por medio de la selección de los predictores más fuertes y menos sesgados (Hastie, Tibshirani,

Friedman. 2009).

5.2 Gradient Boosting Models (GBM)

Los Gradient Boosting Models, o GBM, difieren con Random Forest en el ensamblaje de los

árboles, ya que GBM utiliza una función de perdida, donde el algoritmo busca encontrar un modelo

aditivo que minimice dicha función. Primero, el algoritmo es inicializado con un árbol el cual se

utiliza como estimación inicial, se calcula el gradiente asociado al residual, y después se adapta un

modelo a los residuales para minimizar la función de perdida. Este modelo se adiciona al modelo

anterior, y el procedimiento continúa cuantas veces se haya predeterminado en las iteraciones (300

árboles para este caso).

Otra diferencia con Random Forest, es que cada árbol se calcula para ser el óptimo en cada etapa

del modelo y es adicionado de acuerdo con una tasa de aprendizaje, además, no realiza bootstrap

en la muestra, sino que cada árbol es construido sobre una versión modificada de los datos

originales. Cabe resaltar que la construcción de cada árbol depende fuertemente en los árboles que

se han construido previamente, lo que hace que pueda caer fácilmente en un problema conocido

como sobre estimación en la muestra de entrenamiento. Mientras que el Random Forest calcula

cada árbol de forma independiente en cada estimación, y al final, promedia todos estos modelos

débiles para crear uno fuerte, lo cual le proporciona cierto blindaje a la sobre estimación.

Para evitar la sobre estimación, GBM cuenta con un número mayor de parámetros, los cuales al

estar sintonizados de manera óptima se traducen en un mayor poder predictivo. Es claro que lo

anterior significa un mayor tiempo computacional.

Page 13: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

13

El ensamblaje de modelos muestra múltiples ventajas en cuanto a la variabilidad de las

predicciones, sin embargo, estos modelos ensamblados tienen un problema, pues a diferencia de

un árbol de decisión individual, el cual devuelve al usuario las reglas de asociación de una forma

clara, son imposibles de interpretar debido a su naturaleza de ensamblaje ya que pierden toda su

capacidad de ser interpretados, y al final, lo único que se puede saber acerca del modelo es la

importancia que tienen cada una de las variables respecto a la variable de respuesta.

Finalmente, se van a utilizar estos dos modelos en las metodologías tanto de predicción de ratings

como de cruce de productos, y se seleccionara la que mejor resultados retorne en cuanto a los

indicadores de error cuadrático medio (MSE), para regresión, y al área bajo la curva (AUC), para

clasificación.

Page 14: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

14

6. Metodologías a evaluar

6.1 Metodologías de sistemas de recomendación para predecir ratings

Una vez definido todo lo anterior, la primera base de datos que se puede apreciar, consta de filas

que representan los clientes, y columnas que representan los productos. Después de haber

calculado la calificación de cada producto que tiene cada uno de los clientes, se llega a una matriz

que contiene números de uno a cinco en cada espacio donde el cliente tiene el producto, y espacios

vacíos o nulos en donde el cliente presenta ausencia del mismo. De esta manera, se llega a una

matriz de tipo incompleto como se aprecia en la siguiente ilustración.

Ilustración 1: Matriz de ratings por cliente

Cabe resaltar que existe una gran similitud con la matriz de ratings de Netflix. Pues, cada cliente

ha visto un determinado número de películas, pero no las ha visto todas, y lo mismo sucede en el

banco: los clientes con un portafolio amplio de productos pueden llegar a tener cuatro o hasta cinco

productos, más es poco probable que los tenga todos, por lo tanto, estas dos matrices se pueden

ver como matrices incompletas.

De acuerdo con lo anterior, al remitirse al concurso desarrollado por Netflix en el 2009,

denominado Netflix Prize, donde se ofrecía un premio de un millón de dólares a aquella persona u

organización que fuera capaz de desarrollar un sistema de recomendación, que pudiera mejorar en

un 10% la raíz de la desviación del error (RMSE) del sistema de recomendación que en ese

momento implementaba Netflix (el sistema se llama CineMatch) (Bell, Koren. 2010). Entre los

participantes, se encontraba un grupo de ingenieros denominado ‘Pragmatic Chaos’, los cuales

propusieron un sistema de recomendación de filtros colaborativos utilizando imputación de datos

en matrices dispersas, por medio de la regularización de la norma nuclear de la matriz (Hastie,

Tibshirani, Wainwright. 2015).

Esta metodología parte del principio de la descomposición de valores singulares de la matriz para

realizar la imputación de valores faltantes, sin embargo, se aplican una relajación a la función

objetivo no convexa con el fin de evitar el sobre aprendizaje, la cual se presenta en la siguiente

ecuación (Hastie, Tibshirani, Wainwright. 2015).

𝑀𝑖𝑛‖𝑀‖∗ 𝑠𝑢𝑏𝑗𝑒𝑐𝑡 𝑡𝑜 𝑚𝑖𝑗 = 𝑧𝑖𝑗 𝑓𝑜𝑟 𝑎𝑙𝑙 (𝑖, 𝑗) ∈ Ω

La cual, también se puede ver en su forma relajada llamada regularización espectral

P1 P2 P3 . . . Pm

1 3 NA NA 5

2 NA 4 5 NA

3 NA NA NA . . . 3

. . .

. . .

. . .

n 1 NA 1 . . . 5

Cli

en

tes

Productos

Page 15: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

15

𝑀𝑖𝑛 𝑀 {1

2∑ (𝑧𝑖𝑗 − 𝑚𝑖𝑗)

2+ 𝜆‖𝑀‖∗

(𝑖,𝑗)∈Ω

}

Donde ‖𝑀‖∗ es la norma nuclear de la matriz o la suma de los valores singulares, 𝑧𝑖𝑗 representa

las predicciones de los ratings y 𝑚𝑖𝑗 los ratings actuales. El parámetro λ sirve para sintonizar el

nivel de ruido óptimo que se debe introducir para evitar la sobre estimación en las predicciones.

Esta metodología se puede revisar en detalle en el capítulo siete del libro Statistical Learning with

Sparsity de Hastie, Tibshirani y Wainwright, donde también se expone el paquete en R que

desarrollaron, denominado ‘Soft Impute’, el cual realiza imputación de matrices por diferentes

metodologías, incluyendo SVD.

Para tener una idea más intuitiva de este modelo, la lógica de este algoritmo se puede ver ilustrada

a continuación.

Ilustración 2: Imputación de datos en matrices dispersas

A pesar de ser este un método que en su momento pudo superar al sistema de recomendación de

Netflix, se presentaron algunos inconvenientes al momento de implementarlo para la matriz del

banco, los cuales se enumeran a continuación:

1. Este es un método puramente de filtros colaborativos entre ítems, es decir, el sistema se

alimenta únicamente de los ratings que cada usuario tiene en cada producto y esto

representa dos inconvenientes para la matriz del banco:

a. El primero es que los ratings entre los productos financieros fueron calculados cada

uno con metodologías y variables diferentes, es decir, no son completamente

comparables, pues a diferencia de Netflix, donde todos sus productos son películas

o material audiovisual, el banco tiene productos muy diferentes entre sí, donde

algunos son de naturaleza permanente, pues una vez el cliente tenga una cuenta de

ahorros, es de esperarse que la conserve y no adquiera más cuentas de ahorros. Por

otro lado, también puede adquirir productos de naturaleza perecedera, los cuales

puede adquirir cuantas veces desee, como por ejemplo, créditos de consumo.

b. Segundo, se descubrió que la matriz del banco, a diferencia de la matriz de Netflix,

carece de dispersión (sparsity).

Page 16: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

16

Para entender mejor el concepto de matriz dispersa en este caso, se debe tener en

cuenta que este algoritmo posee un problema llamado inicio en frio o Cold Start

Problem, y consiste en que, si un usuario no ha calificado ninguna película o por lo

menos un número suficiente de ellas, que para el caso de Netflix se requirieron

mínimo 20 películas, el sistema no está en capacidad de brindar recomendaciones

robustas.

Para el caso del banco, se observó que un 74% de los clientes poseen sólo un

producto, la tarjeta de crédito, y en la actualidad unicamente el 17% de los clientes

están profundizados. En las siguientes graficas se ilustra como el problema de Cold

Start afecta al banco.

Ilustración 3: Descripción del problema de inicio en frio para la metodología Soft Impute

Inclusive los clientes con 2 productos no pueden generar recomendaciones robustas, para

este caso se requieren clientes con mínimo tres productos, los cuales sólo representan el

9% de los clientes del banco.

2. Por otro lado, al ser esta es una metodología netamente colaborativa entre productos, no

tiene en cuenta otro tipo de información que puede ser valiosa como lo es la información

demográfica, transaccional y de comportamiento en el sector financiero. Es de

conocimiento general que compañías como Netflix o Amazon, tienen sistemas de

Page 17: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

17

recomendación lo suficientemente robustos que utilizan toda la información disponible y

lo hacen mediante algoritmos híbridos, es decir, desarrollan un ensamblaje entre diferentes

tipos de sistemas de recomendación, como por ejemplo uno por contenido y otro por filtros

colaborativos.

Esto último es lo que se quiere implementar para el banco, un sistema de recomendación

que pueda utilizar la información del cliente tanto en su comportamiento con el portafolio

de productos, a la vez que utilice toda su información personal y transaccional, pero como

se mencionó en el punto uno, el método de imputación de datos en matrices dispersas no

es la mejor opción para este caso.

De acuerdo con lo anterior, fue necesario investigar otros métodos que permitan combinar toda la

información disponible. Uno de los documentos que se investigó para este trabajo, Three-Way

Recommender Systems based on Random Forest (Zhang, Min. 2015), expone una metodología

mixta bastante interesante que se escogió para ser adaptada e implementada en este caso.

Esta metodología, que se mencionara de ahora en adelante como metodología unificada, cuenta

inicialmente con una base en la cual se tienen los ratings de cada usuario en columnas por

producto, y adicionalmente, en las demás columnas contiene toda la información de contenido de

los clientes, como variables demográficas, transaccionales y del sector. Como se puede ver en la

parte superior de la ilustración 4.

A continuación, Esta base se modifica de tal manera que las columnas de los ratings de todos los

productos, se transforman en sólo dos columnas, una que contiene el nombre del producto, y la

otra contiene el rating asociado a dicho producto, de esta forma, el perfil de un cliente se va a ver

repetido las veces equivalentes al número de productos que este tenga. Lo anterior, se puede

apreciar en la parte inferior de la ilustración.

Ilustración 4: Descripción de la metodología unificada para predicción de ratings

Page 18: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

18

Por otra parte, la segunda metodología propuesta para la predicción de los ratings, denominada de

ahora en adelante como metodología combinada, se basa en generar de forma iterativa un modelo

para cada uno de los productos, utilizando tanto las variables personales de cada cliente, al igual

que las variables de los ratings en los otros productos. En primera instancia, se cuenta con la misma

base inicial que se mencionó en la metodología unificada. Seguidamente, para entrenar cada

modelo por producto, se selecciona la columna de los ratings de un producto como variable de

respuesta, y todas las demás como variables independientes (incluyendo los ratings de los demás

productos). Paso a seguir, se eliminan aquellas filas que tengan faltantes los ratings de la variable

de respuesta, y se entrena el modelo con los datos que quedan. De la misma manera, se pasa al

siguiente producto y se repite el procedimiento tantas veces como productos haya y, por

consiguiente, cada uno de los modelos es entrenado con todas las variables disponibles de los

clientes, lo que lo hace un sistema hibrido entre las variables de contenido y colaborativo entre

productos. Este tipo de sistemas ensamblados se denominan Feature Combination Hybrids

(Aggarwal. 2016).

A diferencia de la metodología unificada, esta tiene la aparente ventaja que, en cada modelo, existe

una selección de variables independiente por producto, lo cual puede jugar un papel importante a

favor de la precisión en las predicciones. En la siguiente ilustración se puede ver representado el

algoritmo para el sistema de recomendación combinado.

Ilustración5: Descripción de la metodología combinada para predicción de ratings

La finalidad de cada una de las metodologías es poder predecir los ratings para cada cliente en

aquellos productos que aún no tiene, y así mismo, la información que le proporcionaría al área de

mercadeo le permitiría poder determinar cómo se comportaría un cliente si adquiriera el producto,

Page 19: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

19

y de esta manera, se pueden seleccionar los clientes a quienes se van a dirigir las ofertas

diferenciadas de cada producto.

Sin embargo, hasta ahora el sistema de recomendación sólo ofrece información sobre el posible

comportamiento en los productos si los llegasen a adquirir, lo que ofrece una gran ayuda para la

profundización de los clientes, pero aún hace falta saber que tan probable es que el cliente acepte

el producto ofrecido o que tan propenso sea a buscar aquellos productos del banco que aún no

tiene.

6.2 Metodología para sistemas de recomendación de cruce de productos

Como se mencionó anteriormente, no basta con tener una predicción del comportamiento esperado

de los clientes con cada producto, pues es necesario contar también con información que permita

seleccionar aquellos clientes con mayor propensión a aceptar una oferta sobre cada producto para

poder alcanzar el objetivo global. Es así como se propone complementar la información de los

ratings, con la propensión de cruce que tiene cada cliente en cada producto de acuerdo con todas

las variables que se tienen disponibles (incluyendo los ratings actuales en los productos).

De igual manera, se propone un sistema de recomendación que utilice la misma metodología

combinada. Pero a diferencia de la implementación para el cálculo de los ratings, las variables de

respuesta cuentan con las siguientes características:

• Se aborda como un problema de clasificación donde el indicador de cruce es representado

por una variable binaria, la cual toma el valor de uno si el cliente adquiere el producto y

cero de lo contrario.

• Los indicadores de cruce en los demás productos no se utilizarán de modo colaborativo, de

hecho, no se utilizarán como variables independientes en ningún momento.

• No dependen del comportamiento histórico del cliente, por el contrario, es necesario

analizar una ventana de tiempo futura para observar que decisión toma el cliente. La

ventana de tiempo utilizada en este caso será de seis meses para todos los productos.

• Por último, se ha observado que esta variable presenta desbalanceo en los datos, pues

porcentajes por el orden del 1% al 5% de los clientes muestran la adquisición en ese periodo

de tiempo dependiendo del producto observado. Esto es un problema que se presenta a

menudo y más adelante se explica cómo se abordó para este caso.

En este caso, a la matriz expuesta anteriormente, se adicionaron columnas por producto que

indican, si en una ventana de seis meses posteriores al mes de corte, el cliente adquiere cada

uno de esos productos. Es decir, se adicionan columnas binarias con valores de cero y uno que

indican que productos adicionó cada cliente a su portafolio durante dicho periodo, y a partir de

estas columnas, se procede a entrenar un modelo de clasificación que permita calcular la

probabilidad de cruce en cada producto.

Page 20: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

20

Ilustración 6: Descripción de metodología de predicción de probabilidad de cruce por producto

De esta manera, se procede a entrenar un modelo por producto, sólo que esta vez, se utiliza un

modelo de clasificación binaria, donde también se prueba con Random Forest y Gradient Boosted

Models para predecir las probabilidades de cruce.

Al final, se quiere llegar un sistema de recomendación hibrido de dos fases, diseñado

específicamente para atender las necesidades de cruce de productos y profundización de clientes

en el banco, resultante de la unión de las dos metodologías. Se espera este modelo sea una

herramienta interactiva con las áreas de producto y marketing, que sirva como cimiento para

estructurar las campañas de apertura y uso de los productos con bases bien segmentadas, lo cual

de paso ayuda a evitar la saturación de los clientes con las comunicaciones.

Page 21: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

21

7. Selección de metodologías

Como se mencionó anteriormente, se debe seleccionar la metodología que mejores predicciones

ofrezca, y para lo cual, el primer paso es seleccionar cual es el mejor modelo en cada una de las

metodologías.

7.1 Sistemas de recomendación para predicción de ratings

El primer paso fue evaluar los modelos para cada una de las metodologías de ratings, donde para

la metodología unificada, se corrieron los modelos de Random Forest y GBM variando los

parámetros de profundidad y tasa de aprendizaje (Learning Rate) respectivamente. Para lograr

esto, se implementó la función ‘h2o.grid’ del paquete ‘h2o’, la cual permite probar el modelo con

todas las combinaciones de acuerdo con los criterios de los parámetros. Al final, la función

devuelve un resumen de las combinaciones con la medida de desempeño correspondiente (para el

caso de los ratings al ser un modelo de regresión se medirá con MSE).

Las combinaciones de parámetros que se escogieron por modelo fueron:

• Profundidades de 12, 15 y 18 nodos para Random Forest

• Profundidades de 12, 15 y 18 y tasas de aprendizaje de 0.1, 0.01 y 0.005 para GBM

Para los dos modelos se seleccionó una cantidad fija de 300 árboles, ya que es una cantidad robusta

en la que se llega a la estabilidad del MSE en la base de validación como se podrá observar en los

gráficos más adelante.

En resumen, se obtuvieron tres modelos para Random Forest y nueve modelos para GBM, de

acuerdo con la combinación de los parámetros escogidos. Para la metodología unificada, el

resultado fue escoger un modelo GBM con tasa de aprendizaje 0.1 y 18 nodos de profundidad,

pues fue el modelo que mejor desempeño presentó de acuerdo con el MSE en la muestra de

validación, como se puede apreciar en las siguientes tablas.

Tabla 3: Selección del mejor modelo para la metodología unificada de Ratings

Grid GBM Ratings Metodologia Unificada Grid RF Ratings Metodologia Unificada

Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE

1 0.1 18 1.0914 1 18 1.1587

2 0.01 18 1.1314 2 15 1.1690

3 0.1 15 1.1398 3 12 1.1999

4 0.01 15 1.1409

5 0.1 12 1.1500

6 0.01 12 1.1537

7 0.001 18 1.1688

8 0.001 15 1.1711

9 0.001 12 1.1868

Page 22: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

22

Como se acaba de mencionar, se puede ver que el MSE logra su estabilidad antes de llegar a los

50 árboles, y las variables que muestran mayor importancia se pueden ver ordenadas en la gráfica

de la derecha.

Ilustración 7: Resultados de la metodología unificada para Ratings

Es importante resaltar que entre las variables más importantes se encuentra la variable producto,

la cual se construyó artificialmente en el momento que se transformó la base inicial para convertir

los ratings en una sola columna. Entre las otras variables importantes para el modelo, se encuentran

variables como el número de categorias, puntos acumulados, transacciones en comercios aliados

y visitas al comercio propio, entre otras. Lo anterior, resalta la importancia de las variables

transaccionales en la determinación de las calificaciones. También es de notar las variables

relacionadas con seguros, pues es de esperarse que un cliente que utiliza los productos

complementarios tiene un comportamiento deseable con los productos financieros.

A partir de esto, primera conclusión a la que se llega, es que el comportamiento de los clientes esta

dado más por su comportamiento transaccional, de manejo y uso con los productos del banco, y

las variables demográficas poco influyen en las predicciones.

Ahora, el paso a seguir es evaluar la metodología combinada, la cual, como ya se explicó

anteriormente, se basa en construir un modelo independiente por producto utilizando toda la

información disponible.

Para esta metodología se debe seleccionar primero un modelo de aprendizaje estadístico por

producto, entre Random Forest y GBM, y al final se hace una compilación de los mejores modelos

por producto. En la siguiente tabla se presentan los modelos seleccionados por producto, el detalle

se adjunta en el anexo uno de este documento.

Page 23: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

23

Tabla 4: Mejor modelo seleccionado por producto en metodología combinada de Ratings

De igual manera, se analizan también la importancia de variables y la evolución del MSE respecto

al número de árboles, sólo que, para este caso es necesario revisarlos por cada uno de los productos

por separado. En las siguientes ilustraciones se pueden apreciar las selecciones de variables y la

estabilidad del MSE por producto.

Producto Modelo Depth Nodes Learning Rate Validation MSE

TDC GBM 15 0.1 1.0477

TRD GBM 15 0.01 1.2659

PAC RF 18 1.1418

AVA RF 18 1.1924

CCO GBM 15 0.01 1.0368

CTE RF 15 1.6502

ABR GBM 15 0.01 1.7378

CDT RF 15 1.3319

Page 24: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

24

Page 25: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

25

Ilustración 8: Importancia de variables y evolución del MSE vs número de árboles para la metodología combinada de Ratings

Page 26: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

26

El primero punto a observar en la metodología combinada, es que el número de árboles es

suficiente para estabilizar el MSE en cada uno de los modelos, aunque no sobra mencionar que los

modelos se estabilizan mucho más rápido para Random Forest que para GBM.

Segundo, al igual que en la metodología unificada, al observar las variables más relevantes por

producto, casi todas son variables transaccionales o internas del banco, y de igual manera, la

variable demográfica más recurrente entre los productos es la edad. Esto último es importante

resaltarlo, dado que se pensaba que la ventaja de la metodología combinada sobre la metodología

unificada iba a ser la libertad que se tendría para la selección de variables para cada producto,

donde se pensaba que el comportamiento en cada producto debería ser descrito por variables

diferentes en cada caso, y, por el contrario, se encontró que las dos metodologías están apuntando

en la misma dirección al momento de predecir los ratings

De forma más específica, existe un producto en la metodología combinada que presenta casi los

mismos resultados que en la metodología unificada, y es la tarjeta de crédito, donde tienen el 50%

de las variables más importantes en común. Esto es de esperarse, pues la tarjeta de crédito es el

producto más importante del banco, por lo tanto, es el producto que más información proporciona

para el cálculo de los ratings en los modelos.

El paso a seguir para poder escoger una de las dos metodologías, es obtener el MSE por producto

en la metodología unificada para poder compararla con la metodología combinada y así,

determinar cual tiene mejor poder predictivo. En la siguiente tabla se presenta el MSE por

producto.

Tabla 5: Comparación de metodologías por producto

En la tabla anterior se puede observar que no existe una metodología dominante sobre la otra, pues

en la última columna se pude ver que la metodología combinada supera a la metodología unificada

sólo en la mitad de los productos. Hasta ahora, el MSE no es un criterio suficiente para realizar la

selección de una metodología para el sistema de recomendación de ratings.

Producto

Metodologia

Unificada

Metodologia

Combinada

M Comb outperforms

M Unif

TDC 1.0535 1.0477 0.5%

TRD 1.1785 1.2659 -7.4%

PAC 0.9299 1.1418 -22.8%

AVA 1.2825 1.1924 7.0%

CCO 1.1251 1.0368 7.8%

CTE 1.4749 1.6502 -11.9%

ABR 1.4455 1.7378 -20.2%

CDT 1.4572 1.3319 8.6%

Validation MSE

Page 27: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

27

Adicionalmente, se elaboraron análisis más profundos, como comparar la distribución de los

ratings de las metodologías respecto a la distribución real, como se muestra a continuación en los

histogramas de los ratings.

Page 28: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

28

Page 29: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

29

Ilustración 9: Comparación de histogramas de ratings por producto vs ratings reales

De la misma manera, los histogramas por producto entre la metodología unificada y la metodología

combinada son prácticamente equivalentes, lo que significa que las metodologías también se

encuentran alineadas en las distribuciones de las predicciones y aun no se tienen criterios

suficientes para seleccionar una sobre la otra.

Adicional a la distribución de las predicciones, se realizó un análisis de gráficos de caja o Box-

Plot, donde se puede analizar la relación ordinal que tienen las predicciones con la variable de

respuesta. Es decir, lo que se quiere mirar con estos gráficos es la consistencia de los ratings

predichos vs los ratings reales. Los gráficos ubicados en el lado izquierdo corresponden a la

metodología unificada y los de la derecha a la metodología combinada.

Page 30: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

30

Ilustración 10: Gráficos de caja para analizar coherencia de predicciones vs ratings actuales en los productos más representativos del banco

Page 31: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

31

Estos primeros cuatro gráficos corresponden a los cuatro productos que más peso tienen respecto

al total de clientes, que son tarjeta de crédito, cuenta de ahorros, crédito de consumo y avances. El

eje horizontal, o eje x, de los gráficos de cajas representa los ratings reales y el eje vertical, o eje

y, representa las predicciones. Para estos productos se puede apreciar que las predicciones tienen

una clara relación creciente respecto a los ratings reales, es decir, se puede apreciar la forma

escalonada en los gráficos. Sin embargo, es fácil identificar que las predicciones presentan un

comportamiento de sub estimación de los ratings en las calificaciones altas. Es decir, un usuario

que en la actualidad tiene un comportamiento catalogado como cinco en un crédito de consumo,

el modelo le asignaría un valor dentro de un rango entre 2.9 y 4.2 aproximadamente.

Esto último se debe a que la mayoría de las calificaciones con las que se entrenaron los modelos

son bajas, como se puede observar en los histogramas de los ratings actuales. La mayoría de los

clientes presentan un comportamiento no deseable para el banco y sólo unos pocos si lo presentan,

lo cual genera un poco de distorsión en las predicciones, pues las predicciones de aquellos clientes

que deberían tener calificaciones altas en determinado producto, tenderán a estar subestimadas

debido a lo anterior.

Este es un problema que se esperaba desde el inicio, pues este banco en particular es nuevo y está

en etapa de consolidación en el mercado, y por eso mismo, se encuentran pocos clientes que

cumplan con los criterios para ser buenos. Lo anterior, representa un problema en la estabilidad

del modelo, pues a medida que se van implementando estrategias especializadas de mercadeo

sobre los clientes, y si estas llegaran ser efectivas, los diferentes perfiles de clientes se irán

definiendo y se podría identificar segmentos más marcados, por lo que sería necesario realizar

calibraciones periódicas del modelo para que este se vaya adaptando a la nueva información.

Por otra parte, para los productos que no tienen tanto peso en el total de clientes, y que además son

los menos fuertes y de menos promoción, como lo son productos alternativos de ahorro, CDTs,

cuentas corriente y cuentas de nómina, los gráficos de caja no muestran unos resultados

alentadores, como se puede ver en las siguientes ilustraciones.

Page 32: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

32

Ilustración 11: Gráficos de caja para analizar coherencia de predicciones vs ratings actuales en los productos menos representativos del banco

Page 33: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

33

Para este grupo de productos, que en su totalidad son productos de ahorro, se puede observar un

comportamiento un poco más plano y sin diferenciación en las predicciones. Estos son productos

que cuentan con un porcentaje muy bajo de usuarios y que el banco ha manifestado problemas en

su promoción y continuidad (entre el 3% y el 6% de los clientes presentan comportamientos

deseables), por lo que no se cuenta con un criterio lo suficientemente sólido para diferenciar los

clientes buenos en ninguna de las dos metodologías.

Hasta el momento, se tiene que las dos metodologías son funcionalmente equivalentes, pues

presentan un poder predictivo similar, y al contrario de lo que se esperaba, la metodología

combinada no muestra resultados con mejoras significativas en aquellos productos no

representativos para el banco respecto a la metodología unificada. Pues, una hipótesis que se tenía

antes de analizar los resultados, era que la metodología combinada, al tener un modelo

independiente por producto, tenía la ventaja de recoger información de mejor calidad por medio

de la selección de variables. De acuerdo con los análisis expuestos, esta hipótesis se descarta, pues

todo parece indicar que la estructura de los ratings puede ser descrita por las mismas variables

para todos los productos.

Otro análisis a realizar para la selección de la metodología para predecir ratings, dado que hasta

ahora no se tiene evidencia suficiente para descartar una de las dos, es realizar una prueba de

Backtesting, es decir, aplicar el modelo y calcular las predicciones sobre una muestra tomada en

un periodo de tiempo diferente al que se utilizó para el entrenamiento. Para este caso se tomó la

base de clientes con un rezago de tres meses posteriores respecto a la base de entrenamiento. Esto

con el fin de mirar el poder predictivo y la estabilidad de cada metodología en el tiempo. A

continuación, se presentan los resultados.

Validación por Backtesting

Dados los resultados tan similares entre las dos metodologías propuestas para la predicción de

ratings, se decidió probar los modelos en una base diferente a la de entrenamiento. Para esto, se

tomó una base de tres meses después (octubre de 2016) y se calificó con ambas metodologías.

Tabla 6: MSE por producto en base de Backtesting

Training

Producto

Metodologia

Unificada

Metodologia

Combinada

M Comb outperforms

M Unif

M Comb outperforms

M Unif

TDC 1.0680 1.0667 0.1% 0.5%

TRD 1.1211 1.2039 -7.4% -7.4%

PAC 0.8723 1.1057 -26.8% -22.8%

AVA 1.1679 1.1467 1.8% 7.0%

CCO 1.0269 1.0071 1.9% 7.8%

CTE 1.3571 1.6390 -20.8% -11.9%

ABR 1.5079 1.6833 -11.6% -20.2%

CDT 1.2220 1.1768 3.7% 8.6%

Backtest

Page 34: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

34

El primer análisis es mirar el MSE, donde se puede verificar que la metodología combinada

continúa superando a la metodología unificada en los mismos cuatro productos, sin embargo, al

revisar el indicador de mejora porcentual de la metodología combinada sobre la metodología

unificada, se puede ver que esta última muestra mejoras más significativas más grandes en su

desempeño respecto a la metodología combinada. Esto último puede ser decisivo en el momento

de tomar una decisión sobre que metodología elegir.

Seguidamente, se analizan las distribuciones de las predicciones, se observa que estas permanecen

igual que con la base de entrenamiento y, además, siguen siendo equivalentes entre las dos

metodologías. Esto, aunque no aporta mucha información para decidir que metodología escoger,

el hecho que el MSE se mantenga o mejore y, además, que las distribuciones de las predicciones

se conserven en una base diferente a la de entrenamiento, son buenos indicadores de estabilidad

del modelo.

Page 35: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

35

Page 36: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

36

Ilustración 12: Histogramas de ratings de las 2 metodologías en base de Backtesting

Por último, se realizó el análisis con los gráficos de caja para revisar la consistencia de las

predicciones respecto a los ratings reales y, de la misma manera, se siguen comportando de manera

Page 37: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

37

similar las dos metodologías y siguen conservando la misma consistencia que con la base de

entrenamiento, lo que una vez más demuestra un buen síntoma de estabilidad del modelo.

Page 38: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

38

Ilustración 13: Gráficos de caja de los cuatro productos más representativos del banco con la base de Backtest

Para los cuatro productos más representativos se puede observar que se sigue conservando una

buena diferenciación ordinal de los ratings, y de igual manera, para los productos menos

representativos, las predicciones no muestran resultados deseados, como se puede ver en los

siguientes 4 gráficos. Esto último reitera que el comportamiento de los clientes esta dado más que

todo por sus hábitos de consumo.

Page 39: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

39

Ilustración 14: Gráficos de caja de los cuatro productos menos representativos del banco con la base de Backtest

Finalmente, después de todos los análisis y pruebas realizados, se seleccionará la metodología

unificada para la predicción de los ratings de los clientes en los productos del banco. La decisión

se toma a partir de las mejoras marginales sobre la metodología combinada y además, debido a la

Page 40: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

40

simplicidad, pues al utilizar un sólo modelo para todos los productos permite eficiencias marcadas

en tiempo computacional, implementación y calibración.

7.2 Modelo para cruce de productos

En este punto, se cuenta con una herramienta analítica que permite predecir el comportamiento de

un cliente con cada uno de los productos financieros del banco, lo cual provee información que

puede ser utilizada en estrategias para lograr la profundización de los clientes. Sin embargo, esta

información no permite al banco saber si el cliente está interesado en aceptar dichos productos.

En este orden de ideas, es de gran interés para el banco lograr que las ofertas dirigidas a los clientes

tengan la mayor efectividad posible, es decir, un cliente puede tener un muy buen comportamiento

esperado con un crédito de consumo, debido a sus ingresos y su perfil demográfico, pero su nivel

de endeudamiento con otros bancos o su comportamiento con los otros productos, pueden indicar

que no esté interesado en adquirir este producto. Lo cual se traduce en mala utilización de las

comunicaciones y posible saturación de los clientes

Para lo cual, se decidió desarrollar, de manera paralela al sistema de recomendación de ratings, un

modelo que permita conocer la propensión de un cliente a aceptar cada uno de los productos del

banco, en caso que le sean ofrecidos.

Este modelo, denominado modelo de cruce, se desarrolla a partir de la misma base que se utilizó

en la metodología combinada del sistema de recomendación de ratings, con la diferencia que la

variable de respuesta es ahora un indicador binario, que se traduce en si el cliente adquirió o no el

producto en una ventana de tiempo de seis meses a partir del mes focal.

Para ilustrar mejor lo anterior, en el siguiente grafico se muestra la estructura de la base de datos

que se utilizó para este modelo, que como se dijo antes, es similar a la de la base de datos de la

metodología combinada de ratings, ya que se selecciona de manera iterativa una variable de

respuesta, la cual corresponde al vector de adquisición por producto en una ventana de tiempo

observada de seis meses. Sin embargo, para este caso no se utilizan los demás vectores de respuesta

como variable independiente. Pues, dichos vectores corresponden a variables de clasificación

observadas en un momento futuro, a diferencia de los ratings que se basan en información

observada en el pasado.

Page 41: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

41

Ilustración 12: Estructura de la base de datos para modelo de predicción de cruce de productos

Antes de proceder a implementar los modelos predictivos, cabe resaltar que las variables de

respuesta presentan un problema conocido como desbalanceo de los datos. Esto hace referencia a

que la cantidad de casos positivos que se encuentran en el periodo observado, representa una

porción muy pequeña del total de clientes, entre el 1% y el 3% dependiendo del producto. Esto

último genera que las predicciones estén sesgadas hacia los valores negativos y se puedan observar

indicadores de desempeño muy altos en los modelos, pero estos no son del todo acertados, pues

un modelo podría clasificar todas, o casi todas las predicciones como no ocurrencia del evento, y

acertaría en más del 95% de los casos.

Para resolver lo anterior, el problema se abordó con la ayuda de una función de R llamada

‘ovun.sample’. El balanceo de los datos se puede realizar de varias maneras, se puede hacer over

sampling, que se refiere a replicar algunos casos donde se presenta el evento a partir de la

simulación de nuevos perfiles. También existe el under sampling, que, por el contrario, elimina

algunos de los perfiles donde no se presenta el evento.

Al final, las dos metodologías persiguen el mismo objetivo, que es aumentar el porcentaje de casos

positivos y balancear la muestra. Aunque no se puede afirmar que una metodología sea mejor que

la otra, ya que depende de las características de la base, una buena alternativa es utilizar una

heurística que las combine ambas metodologías, que es lo que hace la función mencionada

anteriormente. De esta manera, se aplicó la función a la base de datos, también de forma iterativa

por producto, y se fijó el balanceo para que llegara a que el 10% de los casos presentaran el cruce

del producto.

Una vez se cuentan con las bases balanceadas por producto, al igual que se hizo con las

metodologías de ratings, se van a utilizar los modelos Random Forrest y GBM para calcular las

predicciones. Como se mencionó anteriormente, estos modelos son de gran versatilidad y también

sirven como modelos de clasificación, donde en este caso, se quiere predecir la probabilidad que

el cliente acepte el producto. Además, dado que es la misma base de clientes, se sabe que hay

variables que contienen datos faltantes, por lo tanto, los modelos basados en arboles de decisión

siguen siendo la mejor alternativa.

Page 42: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

42

Adicionalmente, en esta metodología se decidió incluir las predicciones de cruce para productos

como los seguros de fraude, vehículo, vida y otros; que no son productos netamente financieros,

pero están asociados a la banca de retail y son una buena alternativa para complementar el

portafolio de los clientes logrando la profundización.

A continuación, se resume en una tabla cual modelo se seleccionó por producto de acuerdo con el

indicador de área bajo la curva (AUC). El detalle de los modelos por producto se puede encontrar

en el anexo dos.

Tabla 7: Selección de mejor modelo por producto para cruce de productos

En la columna modelo se encuentra la referencia del modelo seleccionado, donde ‘GBM 0.01 15’

corresponde a un modelo GBM con tasa de aprendizaje de 0.01 y profundidad de 15 nodos. De

igual manera, ‘RF 18’, por ejemplo, corresponde a un Random Forest con 18 nodos de

profundidad.

En el anexo 2 se puede apreciar la importancia de variables, curva ROC y las distribuciones de

probabilidades para cada uno de los productos.

Para los productos de consumo, como lo son la tarjeta de crédito, avances y créditos de consumo,

se observar una curva ROC con una sensibilidad marcada y con área bajo la curva mayor a 0.87.

Adicionalmente, los gráficos de distribución de probabilidades muestran que el modelo muestra

una discriminación marcada en cuanto a la clasificación de cruce en los productos.

Por otro lado, para los productos de ahorro como lo son las cuentas de ahorro, cuentas corrientes,

cuentas de nómina, CDTs y productos de ahorro alternativo, se observa un comportamiento más

inestable, donde las cuentas de ahorro y el producto de ahorro alternativo no presentan una

sensibilidad marcada en la curva ROC y el grafico de distribución de probabilidades ratifica lo

anterior al exponer una baja discriminación en el cruce. Por el contrario, los productos como

cuentas corrientes, cuentas de nómina y CDTs, que de paso cabe aclarar son productos que poseen

menos del 5% de los usuarios del banco, presentan una curva ROC con una sensibilidad mucho

Modelo Producto Validation AUC Validation Gini

GBM 0.01 15 TDC 0.8796 0.7593

RF 18 TRD 0.7488 0.4975

RF 18 PAC 0.7676 0.5353

GBM 0.01 15 AVA 0.8712 0.7424

RF 18 CCO 0.8861 0.7722

RF 15 CTE 0.9547 0.9094

RF 15 ABR 0.7452 0.4903

RF 15 CDT 0.9561 0.9121

RF 18 FRD 0.7377 0.4753

RF 18 OTR 0.7377 0.4753

RF 15 VEH 0.7217 0.4433

RF 15 VDA 0.8607 0.7214

Page 43: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

43

más marcada y distribución de probabilidades con buena discriminación. Sin embargo, al revisar

las variables más importantes en estos últimos tres productos, es de notar que las cuentas corrientes

dependen básicamente del uso de los clientes con el crédito de consumo y los CDTs dependen de

la interacción que haya tenido el cliente con CDTs en el pasado, pues prácticamente los clientes

que han tenido o tienen un CDT tienden a renovarlo y, por último, las cuentas de nómina son

prácticamente un sub producto de las cuentas de ahorro.

Finalmente, los productos complementarios como los seguros de vida, vehículo, fraude y otros,

presentan baja sensibilidad en las curvas ROC y su distribución de probabilidades tampoco

muestra buena discriminación, por lo que los perfiles de las variables más importantes no ofrecen

información de buena calidad para predecir la probabilidad de adquisición de estos productos.

En conclusión, el modelo de cruce desarrollado se muestra como una buena herramienta en cuanto

a los productos de consumo y con puntos a mejorar para los demás productos. Sin embargo, son

precisamente los productos de consumo los más rentables y finalmente, aquellos productos como

los seguros, presentan una gran dependencia de las variables relacionadas con la tarjeta de crédito

como lo son el indicador de uso, antigüedad, cuotas promedio y hábito de pago, y por otro lado,

es la tarjeta de crédito el producto base de los créditos de consumo, y por consiguiente, mejorar

los indicadores de uso y cruce en los productos de consumo, se espera sirva para mejorar los

indicadores de cruce con los demás productos, o por lo menos, mejorar la información de las

variables relacionadas con estos.

Page 44: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

44

8. Conclusiones

En definitiva, el objetivo del trabajo se centra en ofrecer una estructura de herramientas analíticas

que sirvan como base para la toma de decisiones en un banco de retail en cuanto a profundización

y cruce de productos entre sus clientes. Para lo cual, se desarrollaron modelos de inteligencia

artificial como el sistema de recomendación por medio de ratings para predecir el comportamiento

de los clientes, y el modelo de cruce de productos para predecir la probabilidad de los clientes

actuales a aceptar ofertas sobre los productos que aún no tiene.

En este orden de ideas, se analizó si las herramientas propuestas en el presente documento cumplen

satisfactoriamente los dos objetivos mencionados en el párrafo anterior, y en cuanto al

comportamiento de los clientes con los productos, se puede observar un buen desempeño en

aquellos productos relacionados con el consumo y un desempeño un poco menos satisfactorio para

los productos de ahorro. De acuerdo con las variables seleccionadas por el modelo, es de esperarse

que los productos de consumo tiendan a tener un comportamiento más predecible debido a la

mayor frecuencia de interacción del cliente con ellos, y la evidente relación que existe entre la

variable de respuesta y la información brindada por el banco. Lo anterior, lleva a plantear un

análisis más profundo para aquellos productos de ahorro, ya sea para incluir información de mejor

calidad o inclusive, modificar la arquitectura de las variables de respuesta de estos productos.

Por el lado del cruce de productos, los resultados más satisfactorios fueron arrojados también por

los productos de consumo. Al igual que en el modelo de comportamiento, los clientes presentan

mayor interacción en cuanto al cruce de productos de consumo y, por lo tanto, la información

disponible está relacionada con estos mismos. En este caso, debido a la simplicidad de la variable

de respuesta binaria, todo parece indicar que los resultados menos satisfactorios para algunos

productos de ahorro y los productos de seguros, se debe a falta de información en las variables

independientes, por lo que una etapa posterior de calibración de los datos se hace necesaria.

Al final, los modelos desarrollados demuestran una gran capacidad predictiva en cuanto al

comportamiento de los clientes y probabilidad de cruce de los productos del banco. A pesar de

presentar algunas falencias, es una herramienta poderosa en cuanto a los productos de consumo,

que, en resumen, son los más importantes en cuanto a rentabilidad e impulso de la marca para el

banco. Dicho lo anterior, al lograr unas predicciones con alto nivel de precisión en los productos

más importantes, los objetivos de profundización de clientes y cruce de productos tendrán una

herramienta analítica que proporciona información fundamental de los clientes, y de igual forma,

proporciona información valiosa inclusive para aquellos productos donde la precisión de las

predicciones no mostro los resultados esperados. Esto último, aunque no es lo ideal en un modelo

de aprendizaje estadístico, es bastante común empezar con un modelo no tan preciso, y a partir del

análisis de resultados se puede obtener información valiosa para calibrar el modelo o inclusive,

identificar aquella información que puede estar haciendo falta.

Page 45: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

45

9. Revisión bibliográfica

1. Aggarwal, C. (2016). Recommender Systems: The Textbook. Doi: 10.1007/978-3-319-

29659-3.

2. Bell, R. Koren, Y. (2010). Lessons from the Netflix Prize Challenge. Recuperado de:

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.401.8553&rep=rep1&type=pdf

3. Bobadilla, J. Ortega, F. Hernando, A. Gutiérrez, A. (2013). Recommender Systems Survey.

Knowledge-Based Systems, 46, 109-132.

4. Elahi, M. Ricci, F. Rubens, N. (2016). A Survey of Active Learning in Collaborative

Filtering Recommender Systems. Computer Science Review, 20, 29-50.

5. H2O.ai team. (2017). Package ‘h2o’. Rdocumentation CRAN repository. Recuperado de:

https://cran.r-project.org/web/packages/h2o/h2o.pdf

6. Hastie, T. Tibshirani, R. Friedman, J. (2009). The Elements of Statistical Learning. New

York: Springer

7. Hastie, T. Tibshirani, R. Wainwright, M. (2015). Statistical Learning with Sparsity.

Recuperado de:

https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS_corrected_1.4.16.pdf

8. Kuhn, M. Johnson, K. (2013). Applied Predictive Modeling. Doi: 10.1007/978-1-4614-

6849-3

9. Luck, D. (2009). The Importance of Data within Contemporary CRM. The Book Data

Mining Applications for Empowering Knowledge Societies, 96–109. Doi: 10.4018/978-1-

59904-657-0.ch006.

10. Ricci, F. Rokach, L. Shapira, B. (2015). Recommender Systems Handbook. Doi:

10.1007/978-1-4899-7637-6

11. Zhang, H. Min, F. (2015). Three-way Recommender Systems Based on Random Forests.

Knowledge-Based Systems, 91, 275-286.

Page 46: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

46

10. Anexos

Anexo 1: Selección de modelo por producto metodología combinada de Ratings

TRD GBM TRD Random Forest

Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE

1 0.1 15 1.2659 1 15 1.3194

2 0.01 15 1.2659 2 18 1.3094

3 0.005 15 1.3171

4 0.1 18 1.2798

5 0.01 18 1.2694

6 0.005 18 1.3161

PAC GBM PAC Random Forest

Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE

1 0.1 15 1.1895 1 15 1.1434

2 0.01 15 1.1460 2 18 1.1418

3 0.005 15 1.1566

4 0.1 18 1.1991

5 0.01 18 1.1530

6 0.005 18 1.1610

CDT GBM CDT Random Forest

Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE

1 0.1 15 1.3850 1 15 1.3319

2 0.01 15 1.3585 2 18 1.3343

3 0.005 15 1.3667

4 0.1 18 1.3882

5 0.01 18 1.3636

6 0.005 18 1.3723

CCO GBM CCO Random Forest

Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE

1 0.1 15 1.0652 1 15 1.0590

2 0.01 15 1.0368 2 18 1.0566

3 0.005 15 1.0791

4 0.1 18 1.0719

5 0.01 18 1.0493

6 0.005 18 1.0860

Page 47: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

47

TDC GBM TDC Random Forest

Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE

1 0.1 15 1.0477 1 15 1.1178

2 0.01 15 1.0533 2 18 1.1089

3 0.005 15 1.1139

4 0.1 18 1.0545

5 0.01 18 1.0548

6 0.005 18 1.1110

CTE GBM CTE Random Forest

Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE

1 0.1 15 1.6957 1 15 1.6502

2 0.01 15 1.6561 2 18 1.6522

3 0.005 15 1.6866

4 0.1 18 1.7084

5 0.01 18 1.6621

6 0.005 18 1.6908

AVA GBM AVA Random Forest

Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE

1 0.1 15 1.2346 1 15 1.1945

2 0.01 15 1.2014 2 18 1.1924

3 0.005 15 1.2219

4 0.1 18 1.2478

5 0.01 18 1.2114

6 0.005 18 1.2290

ABR GBM ABR Random Forest

Iteracion Learning Rate Depth Nodes Validation MSE Iteracion Depth Nodes Validation MSE

1 0.1 15 1.7690 1 15 1.8009

2 0.01 15 1.7378 2 18 1.7984

3 0.005 15 1.8302

4 0.1 18 1.7764

5 0.01 18 1.7525

6 0.005 18 1.8276

Page 48: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

48

Anexo 2: Selección de modelo por producto para cruce

TRD GBM TRD Random Forest

Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini

1 0.1 15 0.7068 0.4137 1 15 0.7458 0.4916

2 0.01 15 0.7290 0.4579 2 18 0.7488 0.4975

3 0.005 15 0.7275 0.4551

4 0.1 18 0.6684 0.3369

5 0.01 18 0.7030 0.4060

6 0.005 18 0.7006 0.4011

PAC GBM PAC Random Forest

Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini

1 0.1 15 0.7473 0.4945 1 15 0.7670 0.5339

2 0.01 15 0.7607 0.5214 2 18 0.7676 0.5353

3 0.005 15 0.7563 0.5126

4 0.1 18 0.7241 0.4483

5 0.01 18 0.7443 0.4886

6 0.005 18 0.7393 0.4786

CDT GBM CDT Random Forest

Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini

1 0.1 15 0.9355 0.8711 1 15 0.9561 0.9121

2 0.01 15 0.9393 0.8786 2 18 0.9557 0.9114

3 0.005 15 0.9350 0.8700

4 0.1 18 0.9394 0.8788

5 0.01 18 0.9264 0.8528

6 0.005 18 0.9270 0.8541

CCO GBM CCO Random Forest

Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini

1 0.1 15 0.8663 0.7325 1 15 0.8855 0.7710

2 0.01 15 0.8809 0.7617 2 18 0.8861 0.7722

3 0.005 15 0.8780 0.7559

4 0.1 18 0.8317 0.6634

5 0.01 18 0.8744 0.7488

6 0.005 18 0.8685 0.7370

TDC GBM TDC Random Forest

Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini

1 0.1 15 0.8641 0.7282 1 15 0.8436 0.6872

2 0.01 15 0.8796 0.7593 2 18 0.8472 0.6944

3 0.005 15 0.8617 0.7235

4 0.1 18 0.8708 0.7415

5 0.01 18 0.8710 0.7420

6 0.005 18 0.8501 0.7002

CTE GBM CTE Random Forest

Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini

1 0.1 15 0.8582 0.7165 1 15 0.9547 0.9094

2 0.01 15 0.9273 0.8546 2 18 0.9540 0.9080

3 0.005 15 0.9163 0.8327

4 0.1 18 0.7934 0.5868

5 0.01 18 0.8870 0.7739

6 0.005 18 0.8480 0.6959

Page 49: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

49

AVA GBM AVA Random Forest

Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini

1 0.1 15 0.8658 0.7316 1 15 0.8689 0.7378

2 0.01 15 0.8712 0.7424 2 18 0.8695 0.7390

3 0.005 15 0.8680 0.7361

4 0.1 18 0.8615 0.7231

5 0.01 18 0.8681 0.7361

6 0.005 18 0.8632 0.7264

ABR GBM ABR Random Forest

Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini

1 0.1 15 0.5119 0.0239 1 15 0.7452 0.4903

2 0.01 15 0.6265 0.2531 2 18 0.7405 0.4810

3 0.005 15 0.6490 0.2979

4 0.1 18 0.5531 0.1062

5 0.01 18 0.6027 0.2054

6 0.005 18 0.5913 0.1826

FRD GBM FRD Random Forest

Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini

1 0.1 15 0.7117 0.4233 1 15 0.7355 0.4709

2 0.01 15 0.7372 0.4743 2 18 0.7389 0.4779

3 0.005 15 0.7302 0.4604

4 0.1 18 0.6766 0.3533

5 0.01 18 0.7186 0.4372

6 0.005 18 0.7107 0.4215

OTR GBM OTR Random Forest

Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini

1 0.1 15 0.5516 0.1031 1 15 0.7370 0.4739

2 0.01 15 0.7085 0.4171 2 18 0.7377 0.4753

3 0.005 15 0.7093 0.4185

4 0.1 18 0.5536 0.1072

5 0.01 18 0.6769 0.3538

6 0.005 18 0.6747 0.3494

VEH GBM VEH Random Forest

Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini

1 0.1 15 0.6631 0.3262 1 15 0.7217 0.4433

2 0.01 15 0.7008 0.4016 2 18 0.7215 0.4430

3 0.005 15 0.7023 0.4046

4 0.1 18 0.6399 0.2799

5 0.01 18 0.6809 0.3617

6 0.005 18 0.6824 0.3648

VDA GBM VDA Random Forest

Iteracion Learning Rate Depth Nodes Validation AUC Gini Iteracion Depth Nodes Validation AUC Gini

1 0.1 15 0.7070 0.4140 1 15 0.8607 0.7214

2 0.01 15 0.8142 0.6284 2 18 0.8584 0.7167

3 0.005 15 0.8136 0.6272

4 0.1 18 0.7353 0.4706

5 0.01 18 0.7741 0.5482

6 0.005 18 0.7651 0.5302

Page 50: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

50

Anexo 3: Importancia de variables, curva ROC y distribución de probabilidades para modelo de Cruce

Page 51: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

51

Page 52: IMPLEMENTACIÓN Y DESARROLLO DE SISTEMAS DE …

52