Explicate! Entendiendo los modelos de Machine Learning (Parte 1)

1

La duda es uno de los nombres de la inteligencia. - Borges

Para data scientist/analistas de datos/viejos mineros/lobos de mar.

En los comienzos de nuestra carrera de data scientists, el poder de cómputo era muy inferior al que disponemos hoy. Sin embargo, muchas empresas ya veían el enorme potencial de extraer valor de los datos a través de Analytics. Poder entender el comportamiento de sus clientes, saber cuáles son las propensiones que tienen a irse, qué tan riesgoso es prestarle plata y un sinfín de otras preguntas podían ser obtenidas de la combinación de los datos y de los algoritmos de Machine Learning. Pero la capacidad de los chips de silicio solo podía procesar algunos algoritmos básicos (regresiones logísticas o árboles de decisión) para los volúmenes de datos que las empresas ya empezaban a manejar.

Si tuviéramos que nombrar de alguna forma a los analistas que trabajaron en esos tiempos deberíamos llamarlos “artesanos”. Sin entrar en detalles sobre el esfuerzo necesario para lograr que estos primeros algoritmos logren una buena performance, los modelos que entregaban eran claros e interpretables: una ecuación simple nos dice que es más probable que los clientes que fueron morosos con anterioridad lo vuelvan a ser; un conjunto de reglas nos dice que si un cliente joven consume un producto A, eventualmente también consumirá el producto B. En ese entonces, las áreas de negocio no solo recibían una orientación, sino también importantes insights que se podían transformar en acciones directas de negocio.

Los años avanzaron y unas de las pocas cosas que se mostraron constantes a lo largo del tiempo fueron el avance de la tecnología de los microprocesadores y el crecimiento del volumen de datos de las organizaciones. Cada vez más las empresas tenían la creciente necesidad de generar valor sobre su información, lo que abría la puerta a toda una nueva generación de algoritmos más sofisticados con muchos beneficios, destacando dos:

  • Son más agiles de modelar: abren las puertas (y las ventanas) a sumar muchos más modelos y desarrollarlos en áreas donde no disponían de los recursos necesarios para modelar.
  • Son más performantes: principalmente por el enorme volumen de datos que pueden utilizar. Todo el mundo quiere más precisión. Todo el mundo quiere más precisión.

En esta preciosa época en donde nos encontramos, la sofisticación técnica aporta al negocio un valor imprescindible que ayuda a tomar mejores decisiones. Sin embargo, hay un pero.

Toda la precisión y velocidad que nos dan los algoritmos más modernos se hacen sacrificando claridad. No por nada suelen ser llamados por esto mismo como algoritmos black (magic?) box.

Esta ceguera que nos producen tiene un costado peligroso. Es cierto que no obtener los insights de negocios es una pena, pero uno puede complementar los modelos con un análisis exploratorio y llegar a buenos resultados.

Ahora, ¿Cómo sabemos que el modelo está tomando las decisiones acertadas por los motivos correctos?

Si quiero distinguir entre lobos y siberianos, ¿Está bien qué nuestro modelo diga que el animal es un lobo porque se encuentra rodeado de nieve? [1]. ¿Está bien que para un cliente que acumula cada vez más deuda, nuestro modelo nos diga que es un buen pagador? Estos son casos donde el algoritmo no está entrenando de forma correcta, muy probablemente porque haya algún error en los datos o en diseño del experimento que no se detecto previamente, pero que se mantiene oculto tras la complejidad de sus resultados.

Es por eso que en los últimos años aparecieron diversos algoritmos que acompañan a los modelos black-box, con el objetivo de entender como interactúan los datos y ayudarnos a explicar la forma en que toman decisiones, sobre todo cuando no solo es importante tener un modelo preciso, sino además tener un modelo confiable.

En los siguientes artículos veremos puntualmente 3 algoritmos:

  • Partial dependence plots (PDP)
  • Individual conditional expectation (ICE) plots
  • Local Interpretable Model-Agnostic Explanations (LIME)

Estas técnicas nos ayudaran a comprender los resultados de los modelos de forma gráfica e intuitiva. Nos apoyaremos en un caso de Churn de empleados para ver estos algoritmos en acción.

Los espero.

[1] Marco Tulio RibeiroSameer SinghCarlos Guestrin - "Why Should I Trust You?": Explaining the Predictions of Any Classifier” - https://arxiv.org/abs/1602.04938

 

Share

About Author

Alejandro Bolaños

Systems Engineer, Artificial Intelligence & Data Science

Alejandro se desempeña en el área de preventas de SAS Cono Sur. Posee 15 años de experiencia como desarrollador y arquitecto de sistemas en diversas Start-Ups. En SAS se desempeñó anteriormente en el área de Servicios Profesionales, especializándose en Analytics & Big Data. Es Licenciado en Matemáticas y actualmente docente universitario de Probabilidad y Estadística.

Back to Top