Los viejos rockeros nunca mueren

estadística

empresas

big data

2020

Author

José Luis Cañadas Reche

Published

October 15, 2020

En todo este mundo de la analítica de datos las modas van y vienen, pero la sensatez y el buen hacer siempre vuelven. Y vuelven porque son útiles, porque aportan valor y porque ¡qué demonios! ya está bien de postureo big datero de dibujitos de animales.

Esta entrada viene a colación de lo que me cuenta un ex compañero de curro y sin embargo amigo, que hacen en su nueva empresa. Y la mayoría de lo que hacen son cosas sensatas. Contrastes de hipótesis, modelos lineales (que es un marco más general que los contrastes de hipótesis), modelos multinivel, modelos de supervivencia, etc.

A todos nos seduce la idea de lanzar un modelo de deep lenin (cómo dice otro amigo) o la última variación de un xgboost con no se cuánta profundidad y con búsqueda vía randomsearch de los mejores “hiperparámetros” y ganar un punto de AUC (alguno una vez dijo que pasar de 0.78 a 0.79 era un millón de euros de beneficio, en fin) . Pero para cualquiera que lleve un tiempo razonable en estos lares sabe que es más importante tener datos limpios, actualizados y veraces.

Y para terminar, una lista de técnicas que siempre me han gustado, no necesariamente en orden.

Modelos de supervivencia
Modelos loglineales . Modelar las frecuencias de tablas multivía
Ecuaciones estructurales. Forma de comprobar globalmente hipótesis causales, aunque ahora también hay cosas chulas debidas a Judea Pearl con otro enfoque.
Reducción de dimensiones. Quien me conoces sabe que me gusta bastante todo lo relacionado con ese tema, proyección conjunta de variables continuas y categóricas, etc..
Modelos mixtos. Desde que leí el libro de Gelman y Hill está entre mis cosas favoritas.

En fin, esta entrada va dedicada a mi amigo Sergio Calderón que creo que va a aprender un montón de cosas y no sólo a tirar árboles vía la última librería disponible en x lenguaje.