machine learning for organizations

Ya eres parte de la evolución

Solid Day

#MachineLearning para Organizaciones

Jesus Ramos@xuxoramos

[email protected]/in/xuxoramos

#sgnext

Y éste qué?- Ingeniero de Software de nacimiento (ITESM).- Econometrista Financiero por azar (Unottingham +

UWashington).- Estadístico Computacional por convicción (Coursera, a

mucha honra).- Consultado con 6 firmas (BMV, GBM, ConCredito,

Movistar, etc) para levantar sus capacidades analíticas.- Co fundador de @TheDataPub, comunidad dedicada a

reventar la burbuja y detener el tren del m*** del ML y del Pig Data.

- Gamer los sábados (PSN: xuxoramos).- Foodie los domingos.

En qué ando?

Lo feo del#MachineLearning…

#MachineLearning BubbleMachineLearning

Montaña rusa sin freno…

$232mmdd

Gran Inversión

4%Stats/Maths/Prog

Poco skill Mala cultura

Governance:Datos rehenesde cabal de IT

…y sin cinturón!

El freno para esta montaña rusa…

Roadmap+Riesgos para la banda

SkillSi eres dev,

métele a stats+maths.Si eres de maths+stats,

métele a dev.

Biz IntimacyOlvídate de laHerramienta.Enfócate en el

lenguaje de negocio.

OperationalNo entregues reportes,

entrega APIs.

Sin contexto==

Hacer la preguntaequivocada

No hayescalamiento

Mala predicción + Alto sesgo

==Perder dinero/

lastimar personas

Etapa

Riesgo

Roadmap+Riesgos para orgs

Etapa

Riesgo

DWHTodos los datosen 1 solo lugar.

Gov’nanceTotal apertura ycon conexiones

SelfServ-BIQue gente de negociose sirva reportes sola.

Mayor sesgo +sin

observereffect

DataScience ==

Reporteo/BICorrelación

==Causalidad

Cómo desaceleramos?Con definiciones (ni peiper).

#MachineLearning para todosSW Dev

Máquina(de estados, no la

compu)Datos

Función/Programa

Salida

Machine/Statistical Learning Supervisado

Máquina(de estados, no la

compu)Salida*Datos

Función/Programa**

Contexto

Contexto

* No Supervisado = Sin Salida, ** Reinforcement = Función regresa a datos

#MachineLearning para todos

Objetivo 1: identificar patrones

Error Total


Objetivo 2: reducir el error de la función

Error de Predicción

Error del Fenómeno(Varianza)

Sesgo/Bias

Reducción: más/menosvariables

Reducción: más datos/observaciones.

Reducción:CONTEXTO!

#MachineLearning para todosVarianza vs Sesgo

#MachineLearning para todosTipos: Clasificación

#MachineLearning para todosTipos: Regresión


Tipos: Clustering == Clasificación Sin Output


Tipos: Dimensionality Redux/Feature Engineering

#MachineLearning para todosY cuál uso?

(Los que me den menos varianza y menos bias)

#MachineLearning para todosMetodología

DescribirQué me pareceinteresante demi dataset?

ExplorarQué researchquestion quieroHacerle a midataset?

InferirLa respuestapuedegeneralizarse?

PredecirLa respuestaaplica a nuevasobservaciones?

- Distribuciones- Media- Moda- Kurtosis

- Clustering- Kohonen- DBSCAN- Multidim Scaling

- Hypo Test- GLM- ANOVA- MSE

- Random Forest- Boosting- Bagging- Deep Learning

ML ML

Cross Validation

Data

Training Test Validation

70% 20% 10%

N veces: TestValidation TestValidatio

n TestValidation

Ya le quitamos el m*me al tren. Ahora...?

Aplicaciones!

B*n*m*x• Conversión de cliente de nómina a TC en

29%.• $2.7mmdp en revenue al año desde

2010.• Cómo lo hizo?• Clasificación!

f(edad, género, monto, antigüedad, …) = tiene TCPredictores / variables independientes variable respuesta /

dependiente

UPS• Ahorro de combustible haciendo que

camiones sólo den vuelta a la derecha.• Ahorro de $47mdd al año.• Cómo lo hicieron?• Diseño de experimentos!

Exploratorio -> Recolección de datos -> Hypothesis Testing -> GLMs -> Clasificación

T*lc*l• Identificación de usrs consumiendo $7K

MXN semanales de tiempo aire en prepago.• Creación de producto de crédito de

tiempo aire de hasta $2K.• $4mmdp al año de revenue.• Cómo lo hicieron?• Clustering!

Multidimensional Scaling + K-means/DBSCAN

Western Union• Prevención de fraude en remesas en

automático y personalizado.• $32mdd en ahorro operativo en 2012.

$21mdd son de transacciones detenidas al momento.• Cómo le hicieron?• Clasificación!• Similar a algoritmos de spam/ham.

Gr*p* *xp*ns**n• Bajar bounce rate y mantener al visitante

en sitios de las marcas del grupo.• Aumentar ad impressions.• Cómo lo están haciendo?• Recommender Systems!

Clasif 1 + Clasif 2 + … + Clasif N

Quémúsica prefiere?

Quécomidaprefiere?

Quépelisha visto?

Y las startups?

En la delantera!• Konfio, Kueski, Prestadero + ensemble

learning = credit scoring.• Piggo + multidimensional scaling +

DBSCAN = recomendación de inversiones.• Klustera + Filtros Kalman (un tipo de

regresión) = ubicación exacta de gente en centros comerciales.• HolaGus + deep convolutional neural

networks = clasificación de texto.

Caso interesante: FullHarvest• Time Series de granjas y huertos en tiempo

de cosecha.• Clasificación para planeación de

recolecciones.• Optimización heurística para trazo de rutas.• Regresión múltiple para planeación de

demanda y pricing.• Ensemble para transformación y saber qué

producir.• Optimización para ruta de entrega.

Bottomline:

El ML ayuda a escalar servicios para el 99%!

Qué puede salir mal?Todo!

#MachineLearning Flops• Google Flu Trends – Contexto = predicción

fallida de AH1N1 en Francia.• Google Image Classifier – Contexto = 2

afroamericanos taggeados como ‘gorilas’.• Walmart + Modelo complejo de alta varianza

= productos en mal estado vendidos a clientes.• Wall Street + Model simple de alto bias =

crisis hipotecaria de 2008• T*lc*l – Contexto = Préstamos a sospechosos.

Concluyendo…

Soy dev…cómo le entro al ML?• Comienza por prepararte en mates y estadística. Leete

“Think Stats” de Allen Downey.• Acércate al depto de mates de tu universidad. Seguro

encuentras diplomados en mates.• MOOCs: “Data Science Specialization” de Coursera es

la opción.• Síguele con el de Andrew Ng de Stanford. Piérdele el

miedo a la notación formal.• No te cases ni con Python ni con R. Usa ambos.• No te cases con ningún algoritmo. Primero pregunta

“qué quiero lograr?”• Context is KING!

Y si ya le se al ML?• Platícanos tu proyecto en

[email protected] para que lo presentes en @thedatapub.• Mándame un correo. Andamos reclutando!• Sé humilde ante lo que te falta por aprender.• Acércate a disciplinas complementarias de la

ciencia de datos: topología, diseño de experimentos, optimización, visualización y storytelling.• Comparte tu conocimiento. Ojalá seas tú el próximo

acá arriba!

mailto:[email protected]

¿Preguntas?

[email protected]@gmail.comlinkedin.com/in/xuxoramos

machine learning for organizations

Data & Analytics