El que mucho abarca poco aprieta (adaptado a la era analítica)

0

El popular dicho español ‘El que mucho abarca poco aprieta’ ha cobrado gran relevancia en la era del análisis de datos. Cuando los data scientists, data analysts, y analistas en general realizan modelos para predecir comportamientos, tendencias, patrones, etc. se enfrentan ante el desafío de abarcar lo suficiente para apretar lo necesario.

Si se crea un modelo que permite entender razonablemente bien un fenómeno, se corre el riesgo de apretar mucho. Cuando se aprieta mucho algo, se rompe. Esto es lo que se conoce como overfitting, donde los resultados del modelo explican muy bien los datos de entrenamiento, pero no permiten hacer generalizaciones con nuevos conjuntos de datos. Entonces, el modelo se rompe ante un nuevo escenario.

Por otra parte, si en lugar de apretar mucho se aprieta poco, es decir, se crea un modelo con el objetivo de hacer generalizaciones, se corre el riesgo de explicar poco, lo que se conoce como underfitting. En ese caso, si se aprieta poco, la información se escapa.

Entonces, a la hora de crear modelos para hacer predicciones a partir de datos de entrenamiento, es importante ser consciente que para capturar la información, se tiene apretar (o ajustar) con precisión el modelo.

Esta precisión depende de varios factores, como por ejemplo las variables a utilizar, la relación entre ellas, el conocimiento de los distintos algoritmos, el conocimiento de los estadísticos de evaluación, el conocimiento del negocio, y el conocimiento de lo que se quiere obtener como resultado a partir del desarrollo del modelo.

Como dice otro conocido refrán, mejor pájaro en mano que cien volando (pero sin apretarlo demasiado).

Share

About Author

Patricio Carrilero

SAS Consultant/Instructor

Patricio se desempeña en el área de consultoría y educación de SAS Cono Sur como instructor y consultor SAS. Posee experiencia en análisis y gestión de grandes volúmenes de datos, como así también en proyectos de financiamiento internacional y legislativos para el sector público. Realizó una Maestría en Explotación de Datos y Gestión del Conocimiento en la Universidad Austral y una Maestría en Economía Urbana en la Universidad Torcuato Di Tella. Es Licenciado en Ciencia Política por la UBA.

Leave A Reply

Back to Top