Muestrear no es pecado

Estadística, ciencia de datos, big data, cosas varias

Tendencias

Hoy, mi amigo Jesús Lagos ha retuiteado una entrevista que ambos consideramos bastante mala, tweet, y el caso es que me ha hecho reflexionar sobre un par de tendencias que veo en el sector. Inferencia causal Algoritmos éticos (“fairness”) Otras cosas No se trata de bandos, pero si tuviera que elegir uno, me quedaría en el de la inferencia causal. Eso sí, ahora mismo está de moda y parece que antes de Pearl no había nada.

¿Y si ... ? Parte II

Volvamos a nuestro ejemplo tonto, dónde habíamos visto que el T-learner cuando el modelo base es un modelo lineal equivale a tener un modelo saturado (con interacciones). En estos de los “metalearners” tenemos entre otros, los T-learners vistos en el post anterior , los S-learner y los X-learners. Los S-learners no es más que usar un solo modelo “Single” para estimar el Conditional Average Treatment Effect , CATE.

¿Y si ... ? Parte I

Lo de la inferencia causal está de moda, y motivos hay, es una herramienta que intenta dar respuesta a preguntas cómo las siguientes. ¿Qué habría pasado si en vez de poner este precio a este producto hubiera puesto otro? ¿Se habría vendido más? ¿He mandado a mi campaña a aquellos para los que justo al mandar a campaña su probabilidad de compra se incrementa?

Ejemplillo con NMF

Ando falto de ideas, no sé si es la pandemia, el teletrabajo ( o la esclavitud en tiempos modernos como me gusta llamarlo) u otra cosa. Total, que me he puesto a bichear un post antiguo de mi amigo Carlos Gil sobre NMF (factorización no negativa de matrices). Cómo siempre el lo cuenta mucho mejor que yo. Total, que puede que en breve me toque tener algo a lo que quizá se pueda aplicar este tipo de técnicas, a saber, tener clientes y productos.

PCA I. El álgebra es tu amiga

Me pide mi amigo Jesús Lagos que hagamos un vídeo hablando del análisis de componentes principales para un canal que tiene junto a Miguel Angel. El caso es que llevo muchos años usándolo y lo estudié en la carrera, haciendo varios a mano, como no podía ser de otra manera, pero desde que empecé a usar software estadístico se me habían olvidado los detalles de la matemática subyacente.

Los viejos rockeros nunca mueren

En todo este mundo de la analítica de datos las modas van y vienen, pero la sensatez y el buen hacer siempre vuelven. Y vuelven porque son útiles, porque aportan valor y porque ¡qué demonios! ya está bien de postureo big datero de dibujitos de animales. Esta entrada viene a colación de lo que me cuenta un ex compañero de curro y sin embargo amigo, que hacen en su nueva empresa.

R 4.0.2 en amazon linux

Entrada corta sobre como instalar R 4.0.2 en amazon linux, ya que por defecto trae una versión de R de hace 3 años. La idea es instalar R vía rpm, sacada de aquí, pero el problema es que en amazon linux faltan algunas librerías que están en centos 7 y hay que buscar los rpm. La solución que me ha funcionado, estando como root en amazon linux cd /tmp curl -O http://mirror.

¿PCA con ordinales y nominales? Tercera entrega. ¡ Que vienen los holandeses !

Hoy vamos a darle una (pequeña) vuelta de tuerca al tema de la reducción de dimensiones ( y por ende la codificación ) con variables categóricas y ordinales. Aunque puede que muchos no lo sepan, existen dos escuelas derivadas de lo que Tukey llamaba el análisis exploratorio de datos, a saber, la francesa y la holandesa. La francesa con exponentes como Jean-Paul Benzécri, Saporta o Lebart, resuelven el problema de proyectar las relaciones entre variables categóricas en un hiperplano de menor dimensión de forma analítica.

Predicción, Estimación y Atribución

El título no es mío sino del gran Bradley Efron que a sus 82 años aún sigue dando guerra. Acaba de salir publicado un artículo con el título que acabo de plagiarle en JASA y la verdad es que estoy bastante de acuerdo con algunas de las cosas que plantea, o al menos es un debate interesante en estos tiempos. Deja algunas perlitas como If random forests had been around since 1908 and somebody just invented regression model significance testing, the news media might now be heralding an era of “sharp data.

¿PCA con ordinales? ¿Y con nominales? Segunda entrega

En el post anterior se me olvidó comentar que una parte importante es la interpretación. library(psych) library(polycor) ## ## Attaching package: 'polycor' ## The following object is masked from 'package:psych': ## ## polyserial datos <- readRDS("../../data/science.rds") cor_poly <- hetcor(datos) ## Warning in log(P): Se han producido NaNs res_factorial <- fa(cor_poly$correlations, nfactors = 3, n.obs = nrow(datos)) ## Loading required namespace: GPArotation diagram(res_factorial) Dónde vemos que MR2 es un factor que tendrá valores altos para todos aqueellos que hayan puntuado alto en las preguntas de su grado de acuerdo con las frases.