Sitemap XML dan robots.txt : cara mengonfigurasinya
6 min
Sitemap XML mencantumkan halaman prioritas Anda untuk memudahkan penemuannya oleh Googlebot. File robots.txt mengontrol bagian mana yang bisa di-crawl robot. Kedua file ini saling melengkapi dan harus dijaga tetap mutakhir untuk menghindari kesalahan pengindeksan.
Sitemap dan robots.txt adalah dua file konfigurasi SEO paling fundamental. Dikonfigurasi dengan buruk, mereka dapat secara tidak sengaja mengecualikan halaman kunci atau membuang anggaran crawl pada URL yang tidak berguna.
Sitemap XML : struktur dan praktik terbaik
Sitemap XML mencantumkan URL yang ingin Anda indeks, disertai secara opsional dengan metadata (tanggal modifikasi, frekuensi pembaruan, prioritas). Google membaca metadata ini tetapi tidak mengikutinya secara harfiah.
Untuk situs dengan lebih dari 50.000 URL atau lebih dari 50 MB, buat sitemap indeks yang menunjuk ke beberapa file sitemap tematik (artikel, produk, kategori).
- Sertakan hanya URL kanonik, dapat diindeks, dan mengembalikan kode 200.
- Kecualikan halaman noindex, pengalihan, dan halaman berparameter.
- Kirimkan sitemap Anda di Search Console dan referensikan di robots.txt.
- Perbarui sitemap secara otomatis setiap publikasi baru.
File robots.txt : arahan dan batasan
Robots.txt terletak di root domain dan menggunakan sintaks sederhana aturan Allow dan Disallow per user-agent. Ini memberi tahu Googlebot bagian situs mana yang tidak perlu di-crawl — tetapi tidak menjamin pengecualian dari pengindeksan.
Halaman yang diblokir oleh robots.txt masih bisa muncul dalam hasil jika tautan eksternal menunjuk ke sana. Untuk pengecualian total, gunakan tag noindex, bukan robots.txt.
- Blokir folder administrasi, staging, dan pengujian.
- Blokir URL pencarian internal yang menghasilkan ribuan variasi.
- Jangan pernah memblokir file CSS dan JS yang diperlukan untuk rendering halaman.
- Referensikan URL sitemap di bagian bawah file robots.txt.
Kesalahan kritis dan cara menghindarinya
Kesalahan paling serius : secara tidak sengaja memblokir seluruh situs dengan 'Disallow: /' di robots.txt akibat migrasi atau konfigurasi staging yang tidak dibersihkan. Periksa file ini sebagai prioritas setelah setiap penerapan.
Menyertakan URL error (404, 301) dalam sitemap adalah kesalahan umum yang memberi sinyal kepada Google tentang kurangnya ketelitian dan membuang anggaran crawl pada sumber yang tidak ada.
Dalam audit SEO, antara 15 dan 40 % situs menunjukkan ketidakkonsistenan antara sitemap dan halaman yang sebenarnya dapat diindeks, sering disebabkan oleh pemeliharaan yang tidak memadai setelah pembaruan situs.
Studi sektoral 2025-2026 tentang audit teknis SEO
FAQ
Haruskah mencantumkan prioritas dan frekuensi dalam sitemap?
Tag ini (priority dan changefreq) sebagian besar diabaikan Google yang mengandalkan sinyalnya sendiri untuk memperkirakan frekuensi crawl. Kehadirannya tidak merugikan tetapi ketidakhadirannya pun bukan masalah.
Berapa lama Google membaca sitemap yang dikirimkan?
Setelah pengiriman di Search Console, Google umumnya membaca sitemap dalam 24 hingga 72 jam. Penemuan URL baru dan pengindeksan efektifnya membutuhkan lebih banyak waktu tergantung otoritas situs.
Apakah robots.txt berfungsi untuk semua mesin pencari?
Semua robot yang menghormati standar mengikuti robots.txt. Namun, robot jahat (scraper, crawler tidak konform) mengabaikannya. Robots.txt bukan alat keamanan tetapi alat manajemen crawl.