Aller au contenu
Fundamentos SEO

Sitemap XML y robots.txt: cómo configurarlos bien

6 min

El sitemap XML lista tus páginas prioritarias para facilitar su descubrimiento por Googlebot. El archivo robots.txt controla qué secciones puede rastrear el robot. Estos dos archivos son complementarios y deben mantenerse actualizados para evitar errores de indexación.

El sitemap y el robots.txt son los dos archivos de configuración SEO más fundamentales. Mal configurados, pueden excluir involuntariamente páginas clave o desperdiciar el presupuesto de rastreo en URLs inútiles.

El sitemap XML: estructura y buenas prácticas

Un sitemap XML lista las URLs que deseas ver indexadas, acompañadas opcionalmente de metadatos (fecha de modificación, frecuencia de actualización, prioridad). Google lee estos metadatos pero no los sigue al pie de la letra.

Para sitios de más de 50 000 URLs o de más de 50 MB, crea un índice de sitemaps que apunte a varios archivos sitemaps temáticos (artículos, productos, categorías).

  • Incluye solo las URLs canónicas, indexables y que devuelvan un código 200.
  • Excluye las páginas noindex, las redirecciones y las páginas con parámetros.
  • Envía tu sitemap en Search Console y referencíalo en robots.txt.
  • Actualiza el sitemap automáticamente con cada nueva publicación.

El archivo robots.txt: directivas y límites

Robots.txt se encuentra en la raíz del dominio y utiliza una sintaxis simple de reglas Allow y Disallow por user-agent. Indica a Googlebot qué partes del sitio no rastrear — pero no garantiza la exclusión de la indexación.

Una página bloqueada por robots.txt puede seguir apareciendo en los resultados si hay enlaces externos apuntando a ella. Para una exclusión total, utiliza la etiqueta noindex, no robots.txt.

  • Bloquear los directorios de administración, staging y pruebas.
  • Bloquear las URLs de búsqueda interna que generan miles de variaciones.
  • Nunca bloquear los archivos CSS y JS necesarios para el renderizado de la página.
  • Referenciar la URL del sitemap al final del archivo robots.txt.

Errores críticos y cómo evitarlos

El error más grave: bloquear accidentalmente todo el sitio con «Disallow: /» en robots.txt tras una migración o una configuración de staging mal limpiada. Comprueba este archivo de forma prioritaria tras cada despliegue.

Incluir URLs con errores (404, 301) en el sitemap es un error frecuente que señala a Google una falta de rigor y desperdicia el presupuesto de rastreo en recursos inexistentes.

Durante las auditorías SEO, entre el 15 y el 40 % de los sitios presentan incoherencias entre su sitemap y las páginas realmente indexables, con frecuencia debidas a un mantenimiento insuficiente tras las actualizaciones del sitio.

Estudios sectoriales 2025-2026 sobre auditorías técnicas SEO

FAQ

¿Hay que indicar la prioridad y la frecuencia en el sitemap?

Estas etiquetas (priority y changefreq) son ampliamente ignoradas por Google, que se basa en sus propias señales para estimar la frecuencia de rastreo. Su presencia no es perjudicial, pero su ausencia tampoco es un problema.

¿Cuánto tarda Google en leer un sitemap enviado?

Tras el envío en Search Console, Google suele leer el sitemap en un plazo de 24 a 72 horas. El descubrimiento de las nuevas URLs y su indexación efectiva llevan más tiempo según la autoridad del sitio.

¿Funciona robots.txt para todos los motores de búsqueda?

Todos los robots que respetan el estándar respetan robots.txt. Sin embargo, los robots maliciosos (scrapers, crawlers no conformes) lo ignoran. Robots.txt no es, por tanto, una herramienta de seguridad sino una herramienta de gestión del rastreo.