Lập chỉ mục Google : crawl, ngân sách và mở khóa
7 min
Google lập chỉ mục các trang của bạn qua ba bước : khám phá, crawl và lập chỉ mục. Ngân sách crawl quản lý kém sẽ khiến các trang chủ chốt nằm ngoài chỉ mục. Hãy kiểm tra trước tiên phần phủ sóng trong Search Console, sau đó loại bỏ các URL ký sinh lãng phí hạn ngạch của bạn.
Một trang không được lập chỉ mục là trang vô hình. Tuy nhiên, nhiều trang web gặp phải các vấn đề lập chỉ mục âm thầm mà chủ sở hữu không bao giờ phát hiện. Đây là phương pháp để chẩn đoán và giải quyết các chặn này.
Cách Google khám phá và lập chỉ mục các trang của bạn
Googlebot bắt đầu từ các trang đã biết và theo dõi các liên kết để khám phá trang mới. Sau đó nó đọc nội dung, render JavaScript nếu cần và chuyển trang vào chỉ mục — một quy trình có thể mất từ vài giờ đến vài tuần.
Lập chỉ mục không được đảm bảo : Google tự quyết định những trang nào xứng đáng được lập chỉ mục dựa trên chất lượng, tính độc đáo và thẩm quyền của trang web.
Ngân sách crawl : nó là gì và khi nào nó quan trọng
Ngân sách crawl là số trang mà Googlebot chấp nhận crawl trên trang web của bạn trong một khoảng thời gian nhất định. Nó bị giới hạn để không làm quá tải máy chủ của bạn.
Đối với phần lớn các trang web dưới 1.000 trang, ngân sách crawl không phải là vấn đề. Nó trở nên quan trọng đối với các trang e-commerce lớn, trang web có facet, hoặc nền tảng tạo ra hàng nghìn URL động.
Các trang giá trị thấp — kết quả bộ lọc, URL phiên, bản sao — lãng phí ngân sách này và làm chậm việc lập chỉ mục các trang ưu tiên của bạn.
Trên các trang web e-commerce lớn, từ 20 đến 60% URL được crawl có thể là các biến thể giá trị thấp tiêu tốn ngân sách crawl một cách vô ích.
Nghiên cứu ngành 2025-2026 về kiến trúc SEO e-commerce
Chẩn đoán sự cố lập chỉ mục
Báo cáo 'Phạm vi phủ sóng' (hiện là 'Lập chỉ mục trang') trong Search Console là công cụ đầu tiên cần tham khảo. Nó phân biệt các trang được lập chỉ mục, bị loại trừ và bị lỗi, với lý do cụ thể cho từng danh mục.
Sử dụng công cụ kiểm tra URL để kiểm tra một trang cụ thể : Google cho bạn biết liệu nó có được lập chỉ mục không, ngày crawl cuối cùng và các sự cố được phát hiện.
- Lỗi 404 hoặc 5xx : trang không thể truy cập tại thời điểm crawl.
- Bị chặn bởi robots.txt : Googlebot bị cấm truy cập.
- Thẻ noindex hiện diện : bạn đã yêu cầu loại trừ một cách rõ ràng.
- Trang trùng lặp, Google đã chọn một URL canonical khác.
- Không thể khám phá : không có liên kết nội bộ nào trỏ đến trang.
Tăng tốc lập chỉ mục các trang mới
Gửi URL mới của bạn qua công cụ kiểm tra URL của Search Console hoặc qua API Indexing (về lý thuyết dành riêng cho tin tuyển dụng và podcast, nhưng thường được sử dụng cho các nội dung khác).
Phương pháp đáng tin cậy nhất vẫn là xây dựng các liên kết nội bộ từ các trang đã được lập chỉ mục tốt đến URL mới : Googlebot sẽ khám phá chúng tự nhiên trong lần crawl tiếp theo.
FAQ
Tại sao trang của tôi không xuất hiện trên Google dù đã gửi sitemap?
Sitemap chỉ thông báo cho Google rằng trang tồn tại, nhưng không bắt buộc lập chỉ mục. Google đánh giá chất lượng, tính độc đáo và sự liên quan trước khi lập chỉ mục. Kiểm tra không có noindex và trang cung cấp nội dung đáng kể.
Một trang bị chặn trong robots.txt có thể xuất hiện trong kết quả không?
Có, nếu các trang web khác trỏ đến nó. Google có thể hiển thị URL mà không crawl được, nghĩa là không có đoạn trích nào được hiển thị. Để loại trừ hoàn toàn một trang, hãy kết hợp robots.txt và thẻ noindex, hoặc chỉ sử dụng noindex.
Thời gian bình thường giữa xuất bản và lập chỉ mục là bao lâu?
Đối với trang web đã có uy tín, từ vài giờ đến 48 giờ cho các trang được liên kết từ trang chủ. Đối với trang web mới hoặc trang cô lập, có thể mất vài tuần.