SEO基础

XML Sitemap与robots.txt：正确配置

6 min

XML sitemap列出优先页面以便于Googlebot发现。robots.txt文件控制爬虫可以抓取哪些部分。这两个文件相辅相成，必须保持最新状态，以避免索引错误。

sitemap和robots.txt是两个最基本的SEO配置文件。配置不当可能意外排除关键页面，或将抓取预算浪费在无用URL上。

XML Sitemap：结构与最佳实践

XML sitemap列出您希望被索引的URL，可选配元数据（修改日期、更新频率、优先级）。Google会读取这些元数据，但不会严格遵循。

对于超过50,000个URL或超过50MB的网站，创建一个指向多个主题sitemap文件（文章、产品、类目）的sitemap索引文件。

robots.txt位于域名根目录，使用简单的Allow和Disallow规则语法，按user-agent分类。它告诉Googlebot哪些站点区域不要抓取——但无法保证阻止索引。

被robots.txt拦截的页面如果有外部链接指向，仍可能出现在结果中。要完全排除，请使用noindex标签，而非robots.txt。

最严重的错误：在迁移或未清理测试环境配置后，robots.txt中意外出现'Disallow: /'导致整个网站被屏蔽。每次部署后务必优先检查此文件。

在sitemap中包含错误URL（404、301）是一个常见错误，向Google发出维护不严谨的信号，并将抓取预算浪费在不存在的资源上。

SEO审计中，15%至40%的网站在其sitemap与实际可索引页面之间存在不一致，通常是网站更新后维护不足所致。

2025-2026年技术SEO审计行业研究

sitemap中是否需要填写优先级和更新频率？

这些标签（priority和changefreq）在很大程度上被Google忽略，Google依据自身信号来估算抓取频率。它们的存在无害，但缺失也不是问题。

Google读取已提交的sitemap需要多长时间？

在Search Console提交后，Google通常会在24至72小时内读取sitemap。新URL的发现和实际索引需要更多时间，具体取决于网站权威性。

robots.txt对所有搜索引擎都有效吗？

所有遵守规范的爬虫都会遵守robots.txt。然而，恶意爬虫（抓取工具、不合规爬虫）会忽略它。robots.txt不是安全工具，而是爬取管理工具。