Cachitos 2021
estadística
polémica
2022
textmining
ocr
linux
cachitos
Retomando la entrada de cachitos de la nochevieja de 2020
Actualizo el script para bajar el video de la nochevieja de este año, extraer los fotogramas y tener los subtítulos.
Este año parece (o yo no me he enterado) que ha habido menos polémica. Pero como siempre, nos hemos reído bastante.
Ejemplo:
Y el texto extraído con tesseract
El cámara se arrima, pero sin tocar.... NW,
SN
4 como el PSOE con la monarquía. | aaa
Aquí os dejo el script para bajar el vídeo y extraer los subtítulos.
#!/bin/bash
root_directory=/home/jose/proyecto_cachitos
mkdir -p $root_directory
cd $root_directory
echo "First arg: $1"
mkdir -p video
cd video
ANNO=$1
echo $ANNO
suffix_video="_cachitos.mp4"
suffix_jpg_dir="_jpg"
suffix_txt_dir="_txt"
video_file=$ANNO$suffix_video
echo $video_file
if [ "$ANNO" == "2021" ] ;
then
wget https://lote5-vod-hls-geoblockurl.akamaized.net/resources/TE_GLUCA/mp4/4/0/1641020001504.mp4
mv 1641020001504.mp4 $video_file
fi
if [ "$ANNO" == "2020" ] ;
then
wget http://mediavod-lvlt.rtve.es/resources/TE_GLUCA/mp4/2/4/1609487028742.mp4
mv 1609487028742.mp4 $video_file
fi
if [ "$ANNO" == "2019" ] ;
then
wget https://rtvehlsvod2020a-fsly.vod-rtve.cross-media.es/resources/TE_GLUCA/mp4/0/9/1577860099590.mp4
mv 1577860099590.mp4 $video_file
fi
# Pasar a jpg uno de cada 220 fotogramas
mplayer -vf framestep=200 -framedrop -nosound $video_file -speed 100 -vo jpeg:outdir=$ANNO$suffix_jpg_dir
cd $ANNO$suffix_jpg_dir
# Convertir a formato más pequño
find . -name '*.jpg' | parallel -j 6 mogrify -resize 642x480 {}
# Seleccionar cacho dond estan subtitulos
find . -name '*.jpg' | parallel -j 6 convert {} -crop 460x50+90+295 +repage -compress none -depth 8 {}.subtitulo.tif
# Poner en negativo para que el ocr funcione mejor
find . -name '*.tif' | parallel -j 6 convert {} -negate -fx '.8*r+.8*g+0*b' -compress none -depth 8 {}
# Pasar el ocr con idioma en español
find . -name '*.tif' | parallel -j 6 tesseract -l spa {} {}
# mover a directorio texto
mkdir -p $root_directory/$ANNO$suffix_txt_dir
mv *.txt $root_directory/$ANNO$suffix_txt_dir
cd $root_directory