Aller au contenu
SEO基础

XML Sitemap与robots.txt:正确配置

6 min

XML sitemap列出优先页面以便于Googlebot发现。robots.txt文件控制爬虫可以抓取哪些部分。这两个文件相辅相成,必须保持最新状态,以避免索引错误。

sitemap和robots.txt是两个最基本的SEO配置文件。配置不当可能意外排除关键页面,或将抓取预算浪费在无用URL上。

XML Sitemap:结构与最佳实践

XML sitemap列出您希望被索引的URL,可选配元数据(修改日期、更新频率、优先级)。Google会读取这些元数据,但不会严格遵循。

对于超过50,000个URL或超过50MB的网站,创建一个指向多个主题sitemap文件(文章、产品、类目)的sitemap索引文件。

  • 只包含规范的、可索引的且返回200状态码的URL。
  • 排除noindex页面、重定向页面和含参数的页面。
  • 在Search Console中提交sitemap并在robots.txt中引用。
  • 每次发布新内容时自动更新sitemap。

robots.txt文件:指令与限制

robots.txt位于域名根目录,使用简单的Allow和Disallow规则语法,按user-agent分类。它告诉Googlebot哪些站点区域不要抓取——但无法保证阻止索引。

被robots.txt拦截的页面如果有外部链接指向,仍可能出现在结果中。要完全排除,请使用noindex标签,而非robots.txt。

  • 屏蔽管理后台、测试环境和测试文件夹。
  • 屏蔽生成大量变体的站内搜索URL。
  • 切勿屏蔽页面渲染所需的CSS和JS文件。
  • 在robots.txt文件末尾引用sitemap的URL。

关键错误及如何避免

最严重的错误:在迁移或未清理测试环境配置后,robots.txt中意外出现'Disallow: /'导致整个网站被屏蔽。每次部署后务必优先检查此文件。

在sitemap中包含错误URL(404、301)是一个常见错误,向Google发出维护不严谨的信号,并将抓取预算浪费在不存在的资源上。

SEO审计中,15%至40%的网站在其sitemap与实际可索引页面之间存在不一致,通常是网站更新后维护不足所致。

2025-2026年技术SEO审计行业研究

FAQ

sitemap中是否需要填写优先级和更新频率?

这些标签(priority和changefreq)在很大程度上被Google忽略,Google依据自身信号来估算抓取频率。它们的存在无害,但缺失也不是问题。

Google读取已提交的sitemap需要多长时间?

在Search Console提交后,Google通常会在24至72小时内读取sitemap。新URL的发现和实际索引需要更多时间,具体取决于网站权威性。

robots.txt对所有搜索引擎都有效吗?

所有遵守规范的爬虫都会遵守robots.txt。然而,恶意爬虫(抓取工具、不合规爬虫)会忽略它。robots.txt不是安全工具,而是爬取管理工具。