ข้ามไปยังเนื้อหา
พื้นฐาน SEO

Sitemap XML และ robots.txt : ตั้งค่าให้ถูกต้อง

6 min

Sitemap XML แสดงรายการหน้าสำคัญของคุณเพื่อให้ Googlebot ค้นพบได้ง่ายขึ้น ไฟล์ robots.txt ควบคุมว่าบอทสามารถ crawl ส่วนใดได้บ้าง สองไฟล์นี้เสริมกันและต้องได้รับการอัปเดตอยู่เสมอเพื่อหลีกเลี่ยงข้อผิดพลาดในการจัดทำดัชนี

Sitemap และ robots.txt คือไฟล์การตั้งค่า SEO ที่เป็นพื้นฐานที่สุดสองไฟล์ หากตั้งค่าผิด อาจยกเว้นหน้าสำคัญโดยไม่ตั้งใจ หรือสิ้นเปลือง crawl budget ไปกับ URL ที่ไร้ประโยชน์

Sitemap XML : โครงสร้างและแนวปฏิบัติที่ดี

Sitemap XML แสดงรายการ URL ที่คุณต้องการให้ถูกจัดทำดัชนี พร้อม metadata เสริม (วันที่แก้ไข ความถี่การอัปเดต ลำดับความสำคัญ) Google อ่าน metadata เหล่านี้แต่ไม่ได้ทำตามอย่างเคร่งครัด

สำหรับเว็บไซต์ที่มีมากกว่า 50 000 URL หรือใหญ่กว่า 50 MB ให้สร้าง sitemap index ที่ชี้ไปยังไฟล์ sitemap หลายไฟล์แยกตามหัวข้อ (บทความ สินค้า หมวดหมู่)

  • ใส่เฉพาะ URL แบบ canonical ที่จัดทำดัชนีได้และตอบกลับโค้ด 200 เท่านั้น
  • ยกเว้นหน้า noindex, redirect และหน้าที่มีพารามิเตอร์
  • ส่ง sitemap ของคุณใน Search Console และอ้างอิงมันใน robots.txt
  • อัปเดต sitemap อัตโนมัติทุกครั้งที่เผยแพร่เนื้อหาใหม่

ไฟล์ robots.txt : คำสั่งและข้อจำกัด

Robots.txt อยู่ที่รากของโดเมนและใช้ไวยากรณ์ง่าย ๆ ของกฎ Allow และ Disallow ตาม user-agent มันบอก Googlebot ว่าส่วนใดของเว็บไซต์ที่ไม่ควร crawl — แต่ไม่รับประกันการยกเว้นจากการจัดทำดัชนี

หน้าที่ถูกบล็อกโดย robots.txt ยังสามารถปรากฏในผลการค้นหาได้หากมีลิงก์ภายนอกชี้มา หากต้องการยกเว้นโดยสมบูรณ์ ให้ใช้แท็ก noindex ไม่ใช่ robots.txt

  • บล็อกโฟลเดอร์ผู้ดูแลระบบ staging และการทดสอบ
  • บล็อก URL การค้นหาภายในที่สร้างรูปแบบย่อยนับพัน
  • ห้ามบล็อกไฟล์ CSS และ JS ที่จำเป็นต่อการเรนเดอร์หน้า
  • อ้างอิง URL ของ sitemap ที่ท้ายไฟล์ robots.txt

ข้อผิดพลาดร้ายแรงและวิธีหลีกเลี่ยง

ข้อผิดพลาดที่ร้ายแรงที่สุด : บล็อกทั้งเว็บไซต์โดยบังเอิญด้วย « Disallow: / » ใน robots.txt หลังการย้ายเว็บไซต์หรือการตั้งค่า staging ที่ลบไม่หมด ตรวจสอบไฟล์นี้เป็นอันดับแรกหลังทุกการ deploy

การใส่ URL ที่มีข้อผิดพลาด (404, 301) ใน sitemap เป็นข้อผิดพลาดที่พบบ่อย ซึ่งส่งสัญญาณให้ Google เห็นถึงการขาดความรอบคอบและสิ้นเปลือง crawl budget ไปกับทรัพยากรที่ไม่มีอยู่จริง

จากการตรวจสอบ SEO เว็บไซต์ระหว่าง 15 ถึง 40% มีความไม่สอดคล้องระหว่าง sitemap กับหน้าที่จัดทำดัชนีได้จริง มักเกิดจากการบำรุงรักษาไม่เพียงพอหลังอัปเดตเว็บไซต์

การศึกษาภาคอุตสาหกรรมปี 2025-2026 เกี่ยวกับการตรวจสอบ SEO เชิงเทคนิค

FAQ

ควรระบุ priority และ changefreq ใน sitemap หรือไม่?

แท็กเหล่านี้ (priority และ changefreq) ถูก Google เพิกเฉยเป็นส่วนใหญ่ เพราะ Google ใช้สัญญาณของตัวเองในการประเมินความถี่การ crawl การมีอยู่ของมันไม่เป็นอันตราย แต่การไม่มีก็ไม่ใช่ปัญหาเช่นกัน

Google ใช้เวลานานแค่ไหนในการอ่าน sitemap ที่ส่งไป?

หลังส่งใน Search Console โดยทั่วไป Google อ่าน sitemap ภายใน 24 ถึง 72 ชั่วโมง การค้นพบ URL ใหม่และการจัดทำดัชนีจริงจะใช้เวลานานกว่านั้น ขึ้นอยู่กับ authority ของเว็บไซต์

Robots.txt ใช้ได้กับเสิร์ชเอนจินทั้งหมดหรือไม่?

บอทที่เคารพมาตรฐานทุกตัวทำตาม robots.txt อย่างไรก็ตาม บอทที่ประสงค์ร้าย (scraper, crawler ที่ไม่ปฏิบัติตามมาตรฐาน) จะเพิกเฉย robots.txt จึงไม่ใช่เครื่องมือรักษาความปลอดภัย แต่เป็นเครื่องมือจัดการการ crawl