Predicción, Estimación y Atribución

estadística

ciencia de datos

2020

Author

José Luis Cañadas Reche

Published

June 7, 2020

El título no es mío sino del gran Bradley Efron que a sus 82 años aún sigue dando guerra. Acaba de salir publicado un artículo con el título que acabo de plagiarle en JASA y la verdad es que estoy bastante de acuerdo con algunas de las cosas que plantea, o al menos es un debate interesante en estos tiempos.

Deja algunas perlitas como If random forests had been around since 1908 and somebody just invented regression model significance testing, the news media might now be heralding an era of “sharp data.” o Abandoning mathematical models comes close to abandoning the historic scientific goal of understanding nature. .

En realidad el artículo es un conjunto de disquisiciones sobre las técnicas utilizadas hoy en día y sobre sus limitaciones, a mi personalmene me ha parecido muy interesante y creo que todo científico de datos debería leerlo. En parte me ha recordado cuando hablaba con un compañero y yo le comentaba que con un xgboost (con las suficientes variables) se podría predecir con bastante exactitud el lugar dónde caerá un tiro parabólico o el tiempo que va a tardar en caer el proyectil, pero que nos ayudaría poco en descubrir la ley física que hay detrás.

Supongo que se me puede rebatir en plan, ¿y que más da, si predice bien? pero como dice Bradley Most traditional regression methods depend on some sort of surface plus noise formulation (though “plus” may refer to, say, binomial variability). The surface describes the scientific truths we wish to learn, but we can only observe points on the surface obscured by noise. The statistician’s traditional estimation task is to learn as much as possible about the surface from the data y no sé, si nos llamamos a nosotros mismos científicos.

Un saludo, y leeros el artículo, en serio, es muy interesante.