Saltar al contenido
desempleode.com

Datos y método

Cómo recogemos los datos

Pipelines automatizados extraen los datos de SEPE, INE, MITES, Eurostat y BOE, los normalizan y los publican con cita de fuente.

Pipelines de ingesta

Cada fuente tiene un pipeline Python dedicado que descarga el dato original (XLS, JSON, XML), lo valida con pydantic y lo carga en una base libSQL/Turso con upsert idempotente. Cada ejecución queda registrada en una tabla de auditoría que indica filas insertadas, actualizadas y descartadas.

Tratamiento de huecos en las series

No se interpolan huecos. Si una fuente no publica un dato para un mes, trimestre o territorio, la celda correspondiente queda vacía. Tampoco se estiman cifras a partir de prensa, blogs o resúmenes de terceros.

Derivaciones permitidas

Sí se admiten derivaciones matemáticas sobre datos oficiales: medias, variaciones interanuales, ratios o agregados (por ejemplo, la tasa de paro anual EPA se calcula como la media aritmética de los 4 trimestres del año, sólo cuando los 4 trimestres están disponibles). Las páginas que utilizan derivaciones lo indican explícitamente.

Serie histórica del paro registrado

La serie del paro registrado combina dos fuentes oficiales del SEPE según el periodo. Para los meses recientes se usa la estadística de empleo mensual (ESTADISTICA-DE-EMPLEO), que publica la cifra por provincia de forma directa. Para los años anteriores, el SEPE solo ofrece en formato reutilizable el fichero abierto Paro registrado por municipios (datos.gob.es), que agregamos por provincia sumando los totales municipales publicados.

En ese fichero municipal, el SEPE censura por privacidad los municipios con menos de 5 parados (se marcan como «<5»). Esas celdas no se imputan ni se estiman: se omiten al agregar. Como consecuencia, el total provincial de la serie histórica larga puede quedar marginalmente por debajo del titular oficial (del orden del 0,1 %). Se prefiere ese pequeño infravalor verificable a cualquier estimación.

La serie de contratos registrados se construye con el mismo fichero abierto del SEPE («Contratos por municipios»), agregando por provincia el total y el desglose entre indefinidos (iniciales más conversiones) y temporales. Le afecta la misma censura de privacidad «<5», con el mismo tratamiento: se omite, no se imputa.

Vigencia normativa

Las prestaciones por desempleo se modificaron por el RDL 2/2024, en vigor desde el 1 de noviembre de 2024. Las fichas distinguen entre el régimen anterior (códigos heredados) y el actual. Cualquier estimación de cuantía o duración se basa en las fórmulas oficiales del SEPE y se marca como estimación informativa, no vinculante.

Tecnología

Frontend Next.js 15 + React 19 con TypeScript estricto. Base de datos libSQL/Turso. ETL en Python 3.13 con httpx, xlrd, openpyxl y pydantic. Hosting Vercel con ISR agresivo (revalidación de 30 minutos a 24 horas según volatilidad del dato).