Cachitos 2021

estadística
polémica
2022
textmining
ocr
linux
cachitos
Author

José Luis Cañadas Reche

Published

January 8, 2022

Retomando la entrada de cachitos de la nochevieja de 2020

Actualizo el script para bajar el video de la nochevieja de este año, extraer los fotogramas y tener los subtítulos.

Este año parece (o yo no me he enterado) que ha habido menos polémica. Pero como siempre, nos hemos reído bastante.

Ejemplo:

Y el texto extraído con tesseract

El cámara se arrima, pero sin tocar.... NW,
SN
4 como el PSOE con la monarquía. | aaa

Aquí os dejo el script para bajar el vídeo y extraer los subtítulos.

#!/bin/bash

root_directory=/home/jose/proyecto_cachitos
mkdir -p $root_directory
cd $root_directory

echo "First arg: $1"
mkdir -p video

cd video

ANNO=$1
echo $ANNO
suffix_video="_cachitos.mp4"
suffix_jpg_dir="_jpg"
suffix_txt_dir="_txt"

video_file=$ANNO$suffix_video
echo $video_file

if [ "$ANNO" == "2021" ] ;
then
    wget https://lote5-vod-hls-geoblockurl.akamaized.net/resources/TE_GLUCA/mp4/4/0/1641020001504.mp4 
    mv 1641020001504.mp4 $video_file
fi
 
if [ "$ANNO" == "2020" ] ;
then
    wget http://mediavod-lvlt.rtve.es/resources/TE_GLUCA/mp4/2/4/1609487028742.mp4
    mv 1609487028742.mp4 $video_file
fi

if [ "$ANNO" == "2019" ] ;
then
    wget https://rtvehlsvod2020a-fsly.vod-rtve.cross-media.es/resources/TE_GLUCA/mp4/0/9/1577860099590.mp4
    mv 1577860099590.mp4 $video_file
fi

# Pasar a jpg uno de cada 220 fotogramas

mplayer -vf framestep=200 -framedrop -nosound $video_file -speed 100 -vo jpeg:outdir=$ANNO$suffix_jpg_dir 
 
cd $ANNO$suffix_jpg_dir 
 
# Convertir a formato más pequño
find . -name '*.jpg' |  parallel -j 6 mogrify -resize 642x480 {}

# Seleccionar cacho dond estan subtitulos
find . -name '*.jpg' |  parallel -j 6 convert {} -crop 460x50+90+295 +repage -compress none -depth 8 {}.subtitulo.tif

# Poner en negativo para que el ocr funcione mejor
find . -name '*.tif' |  parallel -j 6 convert {} -negate -fx '.8*r+.8*g+0*b' -compress none -depth 8 {}

# Pasar el ocr con idioma en español
find . -name '*.tif' |  parallel -j 6 tesseract -l spa {} {}

# mover a directorio texto
mkdir -p $root_directory/$ANNO$suffix_txt_dir

mv *.txt $root_directory/$ANNO$suffix_txt_dir

cd $root_directory