Muestrear no es pecado

Estadística, ciencia de datos, big data, cosas varias

Cachitos. Tercera parte

Cómo aún ando medio “covitoso”, reciclo el código y comentarios de la entrada de 2021 y con solo cambiar la ruta del fichero de subtítulos ya nos vale todo el código. El csv con el texto de los subtítulos para 2021 lo tenéis en este enlace. Vamos al lío library(tidyverse) root_directory = "/media/hd1/canadasreche@gmail.com/public/proyecto_cachitos/" anno <- "2021" Leemos el csv. Uso DT y así podéis ver todos los datos o buscar cosas, por ejemplo Ayuso o pandemia , monarquía o podemos

Cachitos. Segunda parte

Nada, esto es sólo para leernos con R los subtítulos del post anterior. library(tidyverse) root_directory = "/media/hd1/canadasreche@gmail.com/public/proyecto_cachitos/" anno <- "2021" # Construims un data frame con los nombrs de los ficheros nombre_ficheros <- list.files(path = str_glue("{root_directory}{anno}_txt/")) %>% enframe() %>% rename(n_fichero = value) nombre_ficheros ## # A tibble: 1,384 × 2 ## name n_fichero ## <int> <chr> ## 1 1 00000001.jpg.subtitulo.tif.txt ## 2 2 00000002.jpg.subtitulo.tif.txt ## 3 3 00000003.jpg.subtitulo.tif.txt ## 4 4 00000004.

Cachitos 2021

Retomando la entrada de cachitos de la nochevieja de 2020 Actualizo el script para bajar el video de la nochevieja de este año, extraer los fotogramas y tener los subtítulos. Este año parece (o yo no me he enterado) que ha habido menos polémica. Pero como siempre, nos hemos reído bastante. Ejemplo: Y el texto extraído con tesseract El cámara se arrima, pero sin tocar.... NW, SN 4 como el PSOE con la monarquía.

Cocinando

Lo primero, feliz año a todos (no me da la gana de poner todas y todes), y espero que este año sea mejor que el pasado. Hoy voy a hablar un poco de la “cocina” electoral en los barómetros de opinión, pero de forma muy simplificada. Una de las primeras cosas que se hacía era comparar el recuerdo de voto declarado en la encuesta con el resultado real de las elecciones a las que hacía referencia.

Modelos mixtos en spark. Intento 1

A los que nos dedicamos a esto siempre echamos de menos un lme4 en python o en Spark. En Julia afortunadamente tenemos MixedModels.jl. Total que buscando alguna posible solución para poder usar esto en spark me encuentro con dos posibles soluciones. photon-ml MomentMixedModels Ambos repos llevan un tiempo sin actualizarse así que no sé yo. photon-ml es de linkedin y tiene buena pinta, al menos el tutorial, que tienes que bajarte un docker y tal, funciona.

Lecturas para el finde

El Vol 100 del Journal Of Statistical Software promete, y mucho. Artículo del gran Virgilio y muchos más sobre software para estadística bayesiana. Virgilio, sólo falta que le eches un vistazo a las cositas que hay en Julia. Pues nada, ya tengo entretenimiento. Aquí os dejo el enlace

¿A dónde va Vicente?

Cuando estamos haciendo un modelo y tratamos con variables categóricas como predictoras, hay que ser muy cuidadoso. Por ejemplo hay que tener en cuenta qué pasa cuándo tenemos un nuevo nivel en el conjunto de datos a predecir que no estaba en el de entrenamiento. Por ejemplo, si estoy utilizando un algoritmo moderno tipo xgboost, y tengo como variable predictora la provincia. ¿Qué pasa si en el conjunto de entrenamiento no tengo datos de “Granada”, pero en el de predicción si?

Análisis de correspondencias "old_style"

Quién me conoce sabe que siento debilidad por el análisis de datos categóricos, en particular por técnicas como el análisis de correspondencias simple o múltiple o por las cosas más modernas que hay. No en vano se me dió especialmente bien en la universidad, en parte debido a que por fin me centré después de unos años locos, y en parte debido a algún buen profesor. El caso es que en el curro utilizamos este tipo de técnicas para encontrar relaciones entre variables categóricas que quizá hayan pasado desapercibidas en un primer análisis.

¿A/B qué?

Recuerdo siendo yo más bisoño cuando escuché a los marketinianos hablar del A/B testing para acá , A/B testing para allá. En mi ingenuidad pensaba que era alguna clase de rito que sólo ellos conocían, y encima lo veía como requisito en las ofertas de empleo que miraba. Mi decepción fue mayúscula cuando me enteré que esto del A/B testing no es más que un nombre marketiniano para hacer un contraste de proporciones o contrastes de medias, vamos, un prop.

Los viejos [R]ockeros. model.matrix

Nota: He cambiado la parte final para que hiciera lo mismo que el código de python, gracias a mi tocayo José Luis Hidalgo El otro día por linkedin, mi jefe compartió el siguiente artículo recomendable por otro lado. El repo con el código y datos está aquí. En el artículo hacen referencia a que una forma de ver el CATE (Conditional Average Treatmen Effect) cuando hay variables categóricas puede ser construirse los términos de interacción de alto orden entre las variables categóricas y calcular la diferencia entre la media de la variable de interés antes del tratamiento y después del tratamiento, en cada una de las variables de interacción consideradas.