Sitemap XML và robots.txt : cấu hình đúng cách
6 min
Sitemap XML liệt kê các trang ưu tiên để tạo điều kiện cho Googlebot khám phá chúng. File robots.txt kiểm soát các phần nào robot có thể crawl. Hai file này bổ sung cho nhau và phải được duy trì cập nhật để tránh lỗi lập chỉ mục.
Sitemap và robots.txt là hai file cấu hình SEO cơ bản nhất. Nếu được cấu hình sai, chúng có thể vô tình loại trừ các trang chủ chốt hoặc lãng phí ngân sách crawl vào các URL không cần thiết.
Sitemap XML : cấu trúc và thực hành tốt
Sitemap XML liệt kê các URL bạn muốn được lập chỉ mục, kèm theo tùy chọn các siêu dữ liệu (ngày sửa đổi, tần suất cập nhật, mức độ ưu tiên). Google đọc các siêu dữ liệu này nhưng không tuân theo chúng theo nghĩa đen.
Đối với các trang web hơn 50.000 URL hoặc hơn 50 MB, hãy tạo sitemap index trỏ đến nhiều file sitemap theo chủ đề (bài viết, sản phẩm, danh mục).
- Chỉ bao gồm các URL canonical, có thể lập chỉ mục và trả về mã 200.
- Loại trừ các trang noindex, chuyển hướng và trang có tham số.
- Gửi sitemap trong Search Console và tham chiếu nó trong robots.txt.
- Tự động cập nhật sitemap sau mỗi lần xuất bản mới.
File robots.txt : chỉ thị và giới hạn
Robots.txt nằm ở thư mục gốc của tên miền và sử dụng cú pháp đơn giản của các quy tắc Allow và Disallow theo user-agent. Nó chỉ thị Googlebot phần nào của trang web không nên crawl — nhưng không đảm bảo loại trừ khỏi lập chỉ mục.
Trang bị chặn bởi robots.txt vẫn có thể xuất hiện trong kết quả nếu các liên kết bên ngoài trỏ đến nó. Để loại trừ hoàn toàn, hãy sử dụng thẻ noindex, không phải robots.txt.
- Chặn các thư mục quản trị, staging và thử nghiệm.
- Chặn các URL tìm kiếm nội bộ tạo ra hàng nghìn biến thể.
- Không bao giờ chặn các file CSS và JS cần thiết để render trang.
- Tham chiếu URL sitemap ở cuối file robots.txt.
Lỗi nghiêm trọng và cách tránh
Lỗi nghiêm trọng nhất : vô tình chặn toàn bộ trang web với 'Disallow: /' trong robots.txt sau khi di chuyển hoặc cấu hình staging chưa được dọn sạch. Kiểm tra file này ưu tiên sau mỗi lần triển khai.
Đưa URL lỗi (404, 301) vào sitemap là lỗi phổ biến báo hiệu cho Google về sự thiếu nghiêm túc và lãng phí ngân sách crawl vào các tài nguyên không tồn tại.
Trong các cuộc kiểm tra SEO, từ 15 đến 40% trang web có sự không nhất quán giữa sitemap và các trang thực sự có thể lập chỉ mục, thường do bảo trì không đầy đủ sau các cập nhật trang web.
Nghiên cứu ngành 2025-2026 về kiểm tra kỹ thuật SEO
FAQ
Có cần chỉ ra mức độ ưu tiên và tần suất trong sitemap không?
Các thẻ này (priority và changefreq) phần lớn bị Google bỏ qua vì nó dựa trên các tín hiệu riêng để ước tính tần suất crawl. Sự có mặt của chúng không có hại nhưng sự vắng mặt cũng không phải là vấn đề.
Google mất bao lâu để đọc sitemap đã gửi?
Sau khi gửi trong Search Console, Google thường đọc sitemap trong vòng 24-72 giờ. Việc khám phá các URL mới và lập chỉ mục hiệu quả của chúng mất nhiều thời gian hơn tùy theo thẩm quyền của trang web.
Robots.txt có hoạt động với tất cả các công cụ tìm kiếm không?
Tất cả các robot tôn trọng tiêu chuẩn đều tôn trọng robots.txt. Tuy nhiên, các robot độc hại (scrapers, crawler không tuân thủ) bỏ qua nó. Robots.txt không phải là công cụ bảo mật mà là công cụ quản lý crawl.