Por lo general, se dice que las personas somos reticentes al cambio y que cualquier cambio, por pequeño que sea, puede suponer un quebradero de cabeza. Sin embargo, también existen personas que los disfrutan y ven en ellos un mundo de nuevas posibilidades. Sin importar con qué perfil te sientas más identificado, hoy quiero contarte qué llamó mi atención en la experiencia de pasar de la solución tradicional de minería de datos SAS Enterprise Miner a su nueva versión más moderna y actualizada SAS Visual Machine Learning o, como le decimos en casa para abreviar, VDMML.
De Miner a VDMML: una aventura con buenos resultados
He trabajado con Miner desde la universidad. De hecho, los primeros cursos sobre técnicas de k-medias y regresiones que estudié en el máster de ingeniería matemática fueron con SAS Enterprise Miner y ya después, cuando empecé a trabajar ayudando a clientes de diferentes sectores a desarrollar modelos predictivos, seguí utilizándolo. Está claro que después de tantos años acostumbrada a esta solución, como a muchos, me cuesta cambiar. Aun así, he de reconocer que hay ciertos aspectos de VDMML que me han sorprendido gratamente y que, en realidad, me encantan, así que me gustaría compartirlos.
En primer lugar, VDMML lleva en su ADN la colaboración y, con ello, la aceleración de tiempo a resultados. Sin embargo, lo que más me gusta son las plantillas. Si eras usuario de Miner, seguro que te habías encontrado algún truquillo manual y personal para guardarte los diagramas en el pc y poder reusarlos. Con la nueva solución esta maniobra ya no es necesaria, desde su inicio tuvieron en cuenta que a los data scientist nos gusta reutilizar. De modo que, una vez que comienzas a crear un proyecto en VDMML puedes elegir qué flujo de modelización quieres reusar entre los que tienes disponibles y, además, tienes la ventaja de que existen algunos ya predefinidos de serie para no tener que empezar de cero.
Por otra parte, si no existe un nodo con lo que quieres, puedes ampliar la lista de nodos de forma muy sencilla. Aunque esto es algo que ya se podía hacer, lo que cambia ahora es la facilidad con la que puedes conseguirlo. La nueva versión te permite guardar un nodo de código o uno personalizado al instante y dejarlo disponible para próximos usos y proyectos.
Del mismo modo, existen nuevas funcionalidades para hacer que los proyectos y los flujos no se llenen de pruebas infinitas de nodos con combinaciones de parámetros, algoritmos, opciones, transformaciones, etc. Esto no quiere decir que no puedas probar combinaciones como lo hacías antes, sino que VDMML tiene una función de Autotuning en los algoritmos predictivos que implementa internamente un algoritmo de optimización para encontrar la combinación de parámetros del algoritmo que minimiza el error de ajuste del modelo. Y, si vamos más allá, la función de creación de flujos de modelización automáticos también hace uso de la inteligencia artificial y algoritmos de optimización para encontrar la mejor combinación de flujos de modelización y sus parámetros.
Sin embargo, hay una característica que me gustaría destacar, ya que contribuye a una tarea de suma importancia para conseguir resultados fiables. Hoy en día es indispensable para los data scientist de cualquier sector tener la capacidad de explicar lo que hacen sus modelos, por qué toman las decisiones que toman y poder asegurar que son éticos y responsables y garantizar que no deciden de forma sesgada o injusta. En general, SAS siempre se ha caracterizado por ser caja blanca y con Miner también era así, con ventanas de resultados muy completos con gráficas y estadísticas sobre los resultados arrojados por el modelo, pero no era suficiente. Ahora existen técnicas como el método kernel shap o los estadísticos LIME, PD o ICE y VDMML los incorpora a la ventana de resultados de los algoritmos. Para determinar si existe algún sesgo solo hace falta indicar el conjunto de datos y las variables a analizar y luego, aparece de forma automática en la ventana de resultados una pestaña adicional con gráficas y estadísticas que ayudan a entender si el modelo presenta algún sesgo o no. Además, para una mejor comprensión de los resultados, es posible acceder a la explicación con lenguaje natural del significado e interpretación de esa ventana.
De lo bueno, un poco más
Después de haber hecho un repaso por las funcionalidades de VDMML que más valoro a nivel personal, creo que no hago justicia a la solución si no menciono esas otras que, si bien para mí no son tan relevantes en mi día a día, pueden serlo para otro data scientist.
Algo que puede resultar muy conveniente es que, al ser una solución web, no hay necesidad de instalar aplicaciones en el PC. Es decir que, con un explorador de internet, un ordenador conectado a la red del servidor SAS y tus credenciales, ya es posible acceder a tus trabajos desde la ubicación en la que te encuentres.
Otra ventaja que presenta es la integración con open source que, si bien ya existía en Miner, ahora es mucho más avanzada y completa. Asimismo, ofrece la comparación de modelos entre distintos diagramas.
Como los análisis ahora son en memoria, incluso algunos en GPUs, los tiempos de ejecución mejoran. A su vez, la nueva versión incluye nuevos algoritmos que no se encuentran en Miner, en nodos visuales o mediante programación como Factorization machines o redes neuronales profundas. El algoritmo de Gradient Boosting ya está mejorado y optimizado a los niveles de XGBoost, con una mayor precisión y performance que en Miner. También tiene capacidad para hacer análisis de computer vision, lo que amplia los casos de uso que podemos resolver con SAS. Del mismo modo, incluye nodos para hacer ingeniería de variables previo a la modelización o detección de anomalías que utiliza técnicas avanzadas como SVDD.
Ahora, es posible que pienses que todo esto está muy bien, pero hay características que te gustan de Miner, que ya son una costumbre para ti y te permiten llevar a cabo el trabajo diario. Es cierto, pero como decía al inicio de esta publicación, aunque el cambio puede ser difícil para algunos, espero que al exponer las ventajas que encuentro fascinantes de haber comenzado a trabajar con VDMML, te animes a probar esta nueva versión que puede ofrecer grandes beneficios y, con ello, pases a ser parte de ese pequeño porcentaje de la población que disfruta probando cosas nuevas.
¡Descubre más sobre Machine Learning y cómo aplicarlo con SAS en nuestro ‘Ask the Expert’!