Nội dung trùng lặp và thẻ canonical
7 min
Nội dung trùng lặp làm loãng thẩm quyền giữa nhiều URL và gây rối cho việc Google chọn trang nào hiển thị. Thẻ canonical chỉ ra phiên bản nào là tham chiếu. Sử dụng nó có hệ thống trên các URL có tham số, phân trang và các phiên bản HTTP/HTTPS hoặc www/không-www.
Trùng lặp nội dung không tự nó là hình phạt, nhưng nó buộc Google tự mình chọn phiên bản nào lập chỉ mục — và nó không luôn chọn phiên bản bạn muốn. Thẻ canonical trao lại quyền kiểm soát đó cho bạn.
Các nguồn trùng lặp phổ biến nhất
Phần lớn nội dung trùng lặp là kỹ thuật, không có chủ ý. Các trang e-commerce đặc biệt dễ bị ảnh hưởng : bộ lọc sắp xếp, tham số phân trang, biến thể sản phẩm và URL phiên tạo ra hàng chục phiên bản giống nhau của cùng một trang.
Việc syndication nội dung, đăng lại bài viết trên nhiều tên miền và các phiên bản in ấn của trang là các nguồn trùng lặp bên ngoài thường bị bỏ qua trong các kiểm tra.
- URL có và không có www (vidu.fr vs www.vidu.fr).
- Các phiên bản HTTP và HTTPS không được chuyển hướng.
- Tham số sắp xếp và bộ lọc trong URL e-commerce.
- Các trang phân trang (/page/2, /page/3) với nội dung tương tự.
- Trang sản phẩm có thể truy cập qua nhiều danh mục.
Thẻ canonical : cú pháp và cách sử dụng
Thẻ canonical được đặt trong phần head của trang không canonical và trỏ đến URL tham chiếu. Nó có thể trỏ đến chính nó (tự tham chiếu) trên các trang chính — đây là thực hành tốt được Google khuyến nghị.
Canonical tự tham chiếu trên mỗi trang xác nhận với Google ý định của bạn và ngăn một URL ký sinh chiếm ưu thế nếu ai đó tạo liên kết đến phiên bản thay thế.
- Canonical liên tên miền : để chỉ ra nguồn gốc của nội dung được syndicate.
- Canonical trên trang AMP : trỏ đến phiên bản tiêu chuẩn không phải AMP.
- Canonical trên trang phân trang : trỏ đến trang chính của chuỗi.
- Không bao giờ xâu chuỗi canonical (A trỏ đến B trỏ đến C) : Google thường bỏ qua chuỗi.
Canonical vs chuyển hướng 301 : khi nào chọn cái nào
Chuyển hướng 301 mạnh hơn canonical vì nó loại bỏ URL thay thế ở cấp máy chủ. Nếu hai URL hoàn toàn giống nhau và một là không cần thiết, hãy ưu tiên chuyển hướng.
Canonical thích hợp hơn khi bạn cần giữ cả hai URL có thể truy cập vì lý do kỹ thuật hoặc chức năng — ví dụ, trang có thể in hoặc phiên bản di động được giữ lại cho một chiến dịch cụ thể.
Trên các trang e-commerce cỡ trung, từ 10 đến 35% trang được lập chỉ mục là các bản sao kỹ thuật được giải quyết bằng sự kết hợp canonical và quy tắc robots.txt.
Nghiên cứu ngành 2025-2026 về kiểm tra SEO e-commerce
FAQ
Google có luôn tôn trọng thẻ canonical không?
Canonical là tín hiệu, không phải chỉ thị. Google tuân theo nó trong phần lớn các trường hợp, nhưng có thể bỏ qua nếu nó thấy trang được trỏ đến kém liên quan hơn phiên bản hiện tại. Các tín hiệu mâu thuẫn (liên kết nội bộ đến phiên bản sai, sitemap bao gồm phiên bản trùng lặp) làm giảm hiệu quả của nó.
Nội dung trùng lặp có dẫn đến hình phạt Google không?
Không, trừ trường hợp nội dung được sao chép có chủ ý để thao túng kết quả. Trùng lặp kỹ thuật hoặc ngẫu nhiên không kích hoạt hình phạt nhưng làm loãng thẩm quyền và có thể dẫn đến lựa chọn phiên bản canonical sai.
Làm thế nào để phát hiện nội dung trùng lặp trên trang web của tôi?
Screaming Frog với chế độ so sánh hash nội dung là công cụ hiệu quả nhất để phát hiện trùng lặp nội bộ. Để phát hiện trùng lặp bên ngoài, Copyscape hoặc Siteliner cho phép phát hiện các bản sao văn bản của bạn trên các tên miền khác.