Sitemap XML et robots.txt : bien les configurer
En résumé
Le sitemap XML liste vos pages prioritaires pour faciliter leur découverte par Googlebot. Le fichier robots.txt contrôle quelles sections le robot peut crawlter. Ces deux fichiers sont complémentaires et doivent être maintenus à jour pour éviter des erreurs d'indexation.
Le sitemap et le robots.txt sont les deux fichiers de configuration SEO les plus fondamentaux. Mal configurés, ils peuvent exclure involontairement des pages clés ou gaspiller le budget de crawl sur des URLs inutiles.
Le sitemap XML : structure et bonnes pratiques
Un sitemap XML liste les URLs que vous souhaitez voir indexées, accompagnées optionnellement de métadonnées (date de modification, fréquence de mise à jour, priorité). Google lit ces métadonnées mais ne les suit pas à la lettre.
Pour les sites de plus de 50 000 URLs ou de plus de 50 Mo, créez un sitemap index pointant vers plusieurs fichiers sitemaps thématiques (articles, produits, catégories).
- N'incluez que les URLs canoniques, indexables et retournant un code 200.
- Excluez les pages noindex, les redirections et les pages avec paramètres.
- Soumettez votre sitemap dans Search Console et référencez-le dans robots.txt.
- Mettez à jour le sitemap automatiquement à chaque nouvelle publication.
Le fichier robots.txt : directives et limites
Robots.txt se trouve à la racine du domaine et utilise une syntaxe simple de règles Allow et Disallow par user-agent. Il indique à Googlebot quelles parties du site ne pas crawlter — mais ne garantit pas l'exclusion de l'indexation.
Une page bloquée par robots.txt peut toujours apparaître dans les résultats si des liens externes pointent vers elle. Pour une exclusion totale, utilisez la balise noindex, pas robots.txt.
- Bloquer les dossiers d'administration, de staging et de tests.
- Bloquer les URLs de recherche interne qui génèrent des milliers de variations.
- Ne jamais bloquer les fichiers CSS et JS nécessaires au rendu de la page.
- Référencer l'URL du sitemap en bas du fichier robots.txt.
Erreurs critiques et comment les éviter
L'erreur la plus grave : bloquer accidentellement tout le site avec « Disallow: / » dans robots.txt suite à une migration ou une configuration de staging mal nettoyée. Vérifiez ce fichier en priorité après chaque déploiement.
Inclure des URLs en erreur (404, 301) dans le sitemap est une erreur courante qui signal à Google un manque de rigueur et gaspille le budget de crawl sur des ressources inexistantes.
Lors des audits SEO, entre 15 et 40 % des sites présentent des incohérences entre leur sitemap et les pages réellement indexables, souvent dues à une maintenance insuffisante après les mises à jour du site.
Questions fréquentes
Faut-il indiquer la priorité et la fréquence dans le sitemap ?
Ces balises (priority et changefreq) sont largement ignorées par Google qui se base sur ses propres signaux pour estimer la fréquence de crawl. Leur présence n'est pas nocive mais leur absence n'est pas un problème non plus.
Combien de temps Google met-il à lire un sitemap soumis ?
Après soumission dans Search Console, Google lit généralement le sitemap sous 24 à 72 heures. La découverte des nouvelles URLs et leur indexation effective prennent plus de temps selon l'autorité du site.
Robots.txt fonctionne-t-il pour tous les moteurs de recherche ?
Tous les robots respectueux du standard respectent robots.txt. Cependant, les robots malveillants (scrapers, crawlers non conformes) l'ignorent. Robots.txt n'est donc pas un outil de sécurité mais un outil de gestion de crawl.
Envie d'appliquer tout ça à votre site ?
Réservez un audit offert — sans engagement.