Muestrear no es pecado

Estadística, ciencia de datos, big data, cosas varias

IO Parte 1

Allá por el año 1997 más o menos andaba yo estudiando Investigación Operativa en la Universidad de Granada. Recuerdo aprender el archiconocido algoritmo del simplex y algo también sobre programación entera (dónde el dominio de las variables está en \(\mathcal{Z}\)). No se me daba muy bien al principio, pero si recuerdo que luego me acabó gustando y el día que encuentre mis apuntes os pondré una demostración que desarrollé para un teorema que tenía algo que ver con la relación entre espacio primal y el dual.

No mentirás

Hay veces que uno se deja llevar por la emoción cuando hace algo y a veces se exagera un poco con lo que hace tu criatura. Tal es el caso de la librería Nanyml, la cual tiene buena pinta pero exagera en al menos dos partes. La primera y más evidente es cuándo dice que puede estimar el desempeño futuro de un modelo sin comparar con lo que realmente pase, así promete el Estimating Performance without Targets

Transparente

El otro día le decía a mis compañeros que hay cosas que no entiendo de la jerga del mundillo en el que nos movemos, (para echar unas risas ver el video de Pantomima Full) . Ya lo de “tengo una call”, o lo de “estamos alineados” me toca bastante los … pero bueno. Pero hay varias expresiones que me repatean profundamente, y voy a enumerarlas por orden decreciente de odio.

Palabras para Julia ( Parte 3/n)

Tengo una relación extraña con Julia, por un lado me gusta bastante y por otro me parece que aún le falta algo para que lo adopte de forma más seria. Quizá tenga que ver con mi forma de aprender (que seguro que no es óptima), en vez de irme a los tutoriales típicos, me voy directamente a ver cómo se hace algo que me interesa. En este caso hacer modelos bayesianos con Julia usando Turing.

Mediator. Full luxury bayes

Continuando con la serie sobre cosas de inferencia causal y full luxury bayes, antes de que empiece mi amigo Carlos Gil, y dónde seguramente se aprenderá más. Este ejemplo viene motivado precisamente por una charla que tuve el otro día con él. Sea el siguiente diagrama causal library(tidyverse) library(dagitty) library(ggdag) g <- dagitty("dag{ x -> y ; z -> y ; x -> z }") ggdag(g) Se tiene que z es un mediador entre x e y, y la teoría nos dice que si quiero obtener el efecto directo de x sobre y he de condicionar por z , y efectivamente, así nos lo dice el backdoor criterio.

Collider Bias?

Continuando con temas del post anterior. Dice Pearl, con buen criterio, que si condicionas por un collider abres ese camino causal y creas una relación espuria entre las dos variables “Tratamiento” y “Respuesta” y por lo tanto si condicionas por el collider, aparece un sesgo. Hablando estilo compadre. Si Tratamiento -> Collider y Respuesta -> Collider, si condiciono en el Collider, es decir, calculo la relación entre Tratamiento y Respuesta para cada valor de C, se introduce un sesgo.

Pluralista

Ando viendo los vídeos de Richard McElreath , Statistical Rethinking 2022 y ciertamente me están gustando mucho. En la segunda edición de su libro hace hincapié en temas de inferencia causal. Cuenta bastante bien todo el tema de los “confounders”, “forks”, “colliders” y demás. Además lo hace simulando datos, por lo que entiende todo de forma muy sencilla. Un par de conceptos que me han llamado la atención son por ejemplo cuando dice que condicionar por una variable no significa lo mismo en un modelo de regresión al uso que en uno bayesiano, en el segundo caso significa incluir esa variable en la distribución conjunta.

Cachitos. Tercera parte

Cómo aún ando medio “covitoso”, reciclo el código y comentarios de la entrada de 2021 y con solo cambiar la ruta del fichero de subtítulos ya nos vale todo el código. El csv con el texto de los subtítulos para 2021 lo tenéis en este enlace. Vamos al lío library(tidyverse) root_directory = "/media/hd1/canadasreche@gmail.com/public/proyecto_cachitos/" anno <- "2021" Leemos el csv. Uso DT y así podéis ver todos los datos o buscar cosas, por ejemplo Ayuso o pandemia , monarquía o podemos

Cachitos. Segunda parte

Nada, esto es sólo para leernos con R los subtítulos del post anterior. library(tidyverse) root_directory = "/media/hd1/canadasreche@gmail.com/public/proyecto_cachitos/" anno <- "2021" # Construims un data frame con los nombrs de los ficheros nombre_ficheros <- list.files(path = str_glue("{root_directory}{anno}_txt/")) %>% enframe() %>% rename(n_fichero = value) nombre_ficheros ## # A tibble: 1,384 × 2 ## name n_fichero ## <int> <chr> ## 1 1 00000001.jpg.subtitulo.tif.txt ## 2 2 00000002.jpg.subtitulo.tif.txt ## 3 3 00000003.jpg.subtitulo.tif.txt ## 4 4 00000004.

Cachitos 2021

Retomando la entrada de cachitos de la nochevieja de 2020 Actualizo el script para bajar el video de la nochevieja de este año, extraer los fotogramas y tener los subtítulos. Este año parece (o yo no me he enterado) que ha habido menos polémica. Pero como siempre, nos hemos reído bastante. Ejemplo: Y el texto extraído con tesseract El cámara se arrima, pero sin tocar.... NW, SN 4 como el PSOE con la monarquía.