Saltar al contenido
Metodología

Metodología

Cómo recogemos, normalizamos y publicamos los datos de viviendade.com.

Principio fundamental

La IA no inventa cifras. Si un dato no está en una fuente oficial trazable, no aparece en la web. Si falta → null. El frontend muestra «sin dato». Nunca se interpola, se estima ni se «completa razonablemente» un hueco en una serie.

Cualquier cifra publicada puede rastrearse hasta una URL de fuente oficial, una fecha de consulta y el script que la descargó.

Pipeline de datos

  1. Descarga — Los scripts de scripts/ingest/ descargan los datos en crudo desde las fuentes oficiales (INE Tempus3, MITMA/ISTAC CSV, BdE CSV, Eurostat API, BOE). Cada descarga queda guardada en data/raw/ con la fecha de ejecución.
  2. Normalización — Cada pipeline convierte el formato propio de la fuente (CSV latin-1, JSON-stat 2.0, XLS BIFF8…) a un JSON staging canónico con estructura uniforme: { fuente: {...}, registros: [...] }. Los JSON staging van a data/staging/.
  3. Validación — El loader (scripts/db/load_db.py) verifica que cada dimensión (CCAA, provincia, país…) existe en los catálogos antes de insertar. Las filas con dimensiones desconocidas se descartan con warning, nunca con un default.
  4. Carga a Turso — Upsert idempotente: cada fila se inserta con ON CONFLICT DO UPDATE. Reaplicar la misma carga N veces deja la base en el mismo estado. Los campos null se cargan como null, nunca como 0.
  5. Publicación — Next.js 15 con ISR (revalidación 24h fichas, 1h home, 6h hubs). La trazabilidad se muestra en cada ficha en el componente FuentesBox y FechaActualizacion.

Tier de fuentes

Tier A
Organismo público con autoridad oficial sobre el dato (INE, Banco de España, Eurostat, MITMA, BOE). Pipelines completamente automatizados.
Tier B
Organismo público o paraoficial que produce el dato pero no es el regulador (Registradores, Catastro en algunos indicadores). Automatizado con validación.
Tier C
Boletines autonómicos y municipales (ordenanzas fiscales, tipos ITP/AJD). Requieren validación humana antes de carga por complejidad del texto legal.
Tier D
Cálculo derivado en código a partir de fuentes A/B/C (importe medio = importe_total / num_constituidas). Documentado en el script con la fórmula exacta.

Calculadoras

Las calculadoras de viviendade.com usan fórmulas públicas y determinísticas sobre datos de la base de datos o inputs del usuario. Cada fórmula está documentada en el código con su fuente normativa. El disclaimer «estimación informativa, no vinculante» es obligatorio en toda calculadora y se muestra de forma visible.

Fuentes que no usamos

  • Idealista, Fotocasa, Habitaclia, Tinsa — portales privados con TOS restrictivos. Sus reportes públicos solo se citan en análisis editoriales con atribución explícita. Nunca scraping.
  • Wikipedia — prohibido como fuente primaria de cifras en toda la red viviendade.com.
  • Prensa y fact-checkers — citables como contexto editorial, nunca como fuente primaria de datos numéricos.
  • Estimaciones de analistas privados — si no hay cifra oficial, el campo queda null.