XML-sitemap и robots.txt : правильная настройка
6 min
XML-sitemap перечисляет приоритетные страницы для облегчения их обнаружения Googlebot. Файл robots.txt управляет тем, какие разделы может сканировать робот. Эти два файла дополняют друг друга и должны поддерживаться в актуальном состоянии во избежание ошибок индексации.
Sitemap и robots.txt — два наиболее фундаментальных SEO-конфигурационных файла. При неправильной настройке они могут непреднамеренно исключить ключевые страницы или расходовать бюджет краулинга на бесполезные URL.
XML-sitemap : структура и лучшие практики
XML-sitemap перечисляет URL, которые вы хотите видеть проиндексированными, опционально сопровождая их метаданными (дата изменения, частота обновления, приоритет). Google читает эти метаданные, но не следует им буквально.
Для сайтов с более чем 50 000 URL или более 50 МБ создайте индексный sitemap, указывающий на несколько тематических файлов sitemap (статьи, товары, категории).
- Включайте только канонические, индексируемые URL, возвращающие код 200.
- Исключайте страницы с noindex, редиректы и URL с параметрами.
- Отправьте sitemap в Search Console и укажите его в robots.txt.
- Автоматически обновляйте sitemap при каждой новой публикации.
Файл robots.txt : директивы и ограничения
Robots.txt находится в корне домена и использует простой синтаксис правил Allow и Disallow по user-agent. Он указывает Googlebot, какие части сайта не следует сканировать — но не гарантирует исключение из индексации.
Страница, заблокированная robots.txt, может по-прежнему появляться в результатах, если на неё ссылаются внешние сайты. Для полного исключения используйте тег noindex, а не robots.txt.
- Блокировать папки администрирования, тестовые и staging-среды.
- Блокировать URL внутреннего поиска, генерирующие тысячи вариаций.
- Никогда не блокировать CSS и JS файлы, необходимые для рендеринга страницы.
- Указать URL sitemap в нижней части файла robots.txt.
Критические ошибки и как их избежать
Самая серьёзная ошибка : случайная блокировка всего сайта командой «Disallow: /» в robots.txt после миграции или неочищенной конфигурации staging. Проверяйте этот файл в первую очередь после каждого деплоя.
Включение URL с ошибками (404, 301) в sitemap — распространённая ошибка, сигнализирующая Google о небрежности и расходующая бюджет краулинга на несуществующие ресурсы.
При SEO-аудитах от 15 до 40 % сайтов имеют несоответствия между sitemap и реально индексируемыми страницами, часто из-за недостаточного обслуживания после обновлений сайта.
Отраслевые исследования 2025–2026 года по техническим SEO-аудитам
FAQ
Нужно ли указывать приоритет и частоту в sitemap ?
Эти теги (priority и changefreq) в значительной мере игнорируются Google, который использует собственные сигналы для оценки частоты краулинга. Их наличие не вредит, но и их отсутствие не является проблемой.
Сколько времени Google читает отправленный sitemap ?
После отправки в Search Console Google обычно читает sitemap в течение 24–72 часов. Обнаружение новых URL и их фактическая индексация занимают больше времени в зависимости от авторитетности сайта.
Работает ли robots.txt для всех поисковых систем ?
Все уважающие стандарты роботы соблюдают robots.txt. Однако вредоносные боты (скраперы, несоответствующие краулеры) его игнорируют. Поэтому robots.txt — инструмент управления краулингом, а не средство безопасности.