Aller au contenu
Основы SEO

XML-sitemap и robots.txt : правильная настройка

6 min

XML-sitemap перечисляет приоритетные страницы для облегчения их обнаружения Googlebot. Файл robots.txt управляет тем, какие разделы может сканировать робот. Эти два файла дополняют друг друга и должны поддерживаться в актуальном состоянии во избежание ошибок индексации.

Sitemap и robots.txt — два наиболее фундаментальных SEO-конфигурационных файла. При неправильной настройке они могут непреднамеренно исключить ключевые страницы или расходовать бюджет краулинга на бесполезные URL.

XML-sitemap : структура и лучшие практики

XML-sitemap перечисляет URL, которые вы хотите видеть проиндексированными, опционально сопровождая их метаданными (дата изменения, частота обновления, приоритет). Google читает эти метаданные, но не следует им буквально.

Для сайтов с более чем 50 000 URL или более 50 МБ создайте индексный sitemap, указывающий на несколько тематических файлов sitemap (статьи, товары, категории).

  • Включайте только канонические, индексируемые URL, возвращающие код 200.
  • Исключайте страницы с noindex, редиректы и URL с параметрами.
  • Отправьте sitemap в Search Console и укажите его в robots.txt.
  • Автоматически обновляйте sitemap при каждой новой публикации.

Файл robots.txt : директивы и ограничения

Robots.txt находится в корне домена и использует простой синтаксис правил Allow и Disallow по user-agent. Он указывает Googlebot, какие части сайта не следует сканировать — но не гарантирует исключение из индексации.

Страница, заблокированная robots.txt, может по-прежнему появляться в результатах, если на неё ссылаются внешние сайты. Для полного исключения используйте тег noindex, а не robots.txt.

  • Блокировать папки администрирования, тестовые и staging-среды.
  • Блокировать URL внутреннего поиска, генерирующие тысячи вариаций.
  • Никогда не блокировать CSS и JS файлы, необходимые для рендеринга страницы.
  • Указать URL sitemap в нижней части файла robots.txt.

Критические ошибки и как их избежать

Самая серьёзная ошибка : случайная блокировка всего сайта командой «Disallow: /» в robots.txt после миграции или неочищенной конфигурации staging. Проверяйте этот файл в первую очередь после каждого деплоя.

Включение URL с ошибками (404, 301) в sitemap — распространённая ошибка, сигнализирующая Google о небрежности и расходующая бюджет краулинга на несуществующие ресурсы.

При SEO-аудитах от 15 до 40 % сайтов имеют несоответствия между sitemap и реально индексируемыми страницами, часто из-за недостаточного обслуживания после обновлений сайта.

Отраслевые исследования 2025–2026 года по техническим SEO-аудитам

FAQ

Нужно ли указывать приоритет и частоту в sitemap ?

Эти теги (priority и changefreq) в значительной мере игнорируются Google, который использует собственные сигналы для оценки частоты краулинга. Их наличие не вредит, но и их отсутствие не является проблемой.

Сколько времени Google читает отправленный sitemap ?

После отправки в Search Console Google обычно читает sitemap в течение 24–72 часов. Обнаружение новых URL и их фактическая индексация занимают больше времени в зависимости от авторитетности сайта.

Работает ли robots.txt для всех поисковых систем ?

Все уважающие стандарты роботы соблюдают robots.txt. Однако вредоносные боты (скраперы, несоответствующие краулеры) его игнорируют. Поэтому robots.txt — инструмент управления краулингом, а не средство безопасности.