Основы SEO

XML-sitemap и robots.txt : правильная настройка

6 min

XML-sitemap перечисляет приоритетные страницы для облегчения их обнаружения Googlebot. Файл robots.txt управляет тем, какие разделы может сканировать робот. Эти два файла дополняют друг друга и должны поддерживаться в актуальном состоянии во избежание ошибок индексации.

Sitemap и robots.txt — два наиболее фундаментальных SEO-конфигурационных файла. При неправильной настройке они могут непреднамеренно исключить ключевые страницы или расходовать бюджет краулинга на бесполезные URL.

XML-sitemap : структура и лучшие практики

XML-sitemap перечисляет URL, которые вы хотите видеть проиндексированными, опционально сопровождая их метаданными (дата изменения, частота обновления, приоритет). Google читает эти метаданные, но не следует им буквально.

Для сайтов с более чем 50 000 URL или более 50 МБ создайте индексный sitemap, указывающий на несколько тематических файлов sitemap (статьи, товары, категории).

Включайте только канонические, индексируемые URL, возвращающие код 200.
Исключайте страницы с noindex, редиректы и URL с параметрами.
Отправьте sitemap в Search Console и укажите его в robots.txt.
Автоматически обновляйте sitemap при каждой новой публикации.

Файл robots.txt : директивы и ограничения

Robots.txt находится в корне домена и использует простой синтаксис правил Allow и Disallow по user-agent. Он указывает Googlebot, какие части сайта не следует сканировать — но не гарантирует исключение из индексации.

Страница, заблокированная robots.txt, может по-прежнему появляться в результатах, если на неё ссылаются внешние сайты. Для полного исключения используйте тег noindex, а не robots.txt.

Блокировать папки администрирования, тестовые и staging-среды.
Блокировать URL внутреннего поиска, генерирующие тысячи вариаций.
Никогда не блокировать CSS и JS файлы, необходимые для рендеринга страницы.
Указать URL sitemap в нижней части файла robots.txt.

Критические ошибки и как их избежать

Самая серьёзная ошибка : случайная блокировка всего сайта командой «Disallow: /» в robots.txt после миграции или неочищенной конфигурации staging. Проверяйте этот файл в первую очередь после каждого деплоя.

Включение URL с ошибками (404, 301) в sitemap — распространённая ошибка, сигнализирующая Google о небрежности и расходующая бюджет краулинга на несуществующие ресурсы.

При SEO-аудитах от 15 до 40 % сайтов имеют несоответствия между sitemap и реально индексируемыми страницами, часто из-за недостаточного обслуживания после обновлений сайта.

Отраслевые исследования 2025–2026 года по техническим SEO-аудитам

FAQ

Нужно ли указывать приоритет и частоту в sitemap ?

Эти теги (priority и changefreq) в значительной мере игнорируются Google, который использует собственные сигналы для оценки частоты краулинга. Их наличие не вредит, но и их отсутствие не является проблемой.

Сколько времени Google читает отправленный sitemap ?

После отправки в Search Console Google обычно читает sitemap в течение 24–72 часов. Обнаружение новых URL и их фактическая индексация занимают больше времени в зависимости от авторитетности сайта.

Работает ли robots.txt для всех поисковых систем ?

Все уважающие стандарты роботы соблюдают robots.txt. Однако вредоносные боты (скраперы, несоответствующие краулеры) его игнорируют. Поэтому robots.txt — инструмент управления краулингом, а не средство безопасности.