Sitemap XML وrobots.txt: الإعداد الصحيح
6 min
يُدرج Sitemap XML صفحاتك ذات الأولوية لتسهيل اكتشافها من قِبَل Googlebot. يتحكم ملف robots.txt في أقسام الموقع التي يمكن للروبوت زحفها. هذان الملفان متكاملان ويجب تحديثهما باستمرار لتجنب أخطاء الفهرسة.
Sitemap وrobots.txt هما ملفا الإعداد الأساسيان الأكثر جوهريةً في SEO. إذا ضُبطا بشكل سيئ، قد يستبعدان صفحات رئيسية دون قصد أو يبددان ميزانية الزحف على عناوين URL غير مجدية.
Sitemap XML: الهيكل والممارسات الجيدة
يُدرج Sitemap XML عناوين URL التي تُريد فهرستها، مصحوبةً اختيارياً ببيانات وصفية (تاريخ التعديل وتكرار التحديث والأولوية). تقرأ Google هذه البيانات لكن لا تلتزم بها حرفياً.
للمواقع التي تتجاوز 50,000 عنوان URL أو 50 ميغابايت، أنشئ فهرس sitemap يُشير إلى عدة ملفات sitemaps موضوعية (مقالات ومنتجات وفئات).
- أدرج عناوين URL الأساسية (canonical) القابلة للفهرسة والتي تُعيد كود 200 فقط.
- استبعد صفحات noindex وإعادات التوجيه وعناوين URL ذات المعاملات.
- أرسل Sitemap في Search Console وأشر إليه في robots.txt.
- حدّث Sitemap تلقائياً مع كل نشر جديد.
ملف robots.txt: التوجيهات والحدود
يقع robots.txt في جذر النطاق ويستخدم صيغة بسيطة من قواعد Allow وDisallow لكل user-agent. يُخبر Googlebot بأجزاء الموقع التي لا يجب زحفها — لكنه لا يضمن الاستبعاد من الفهرسة.
صفحة محظورة بـ robots.txt قد تظهر في النتائج إذا أشارت إليها روابط خارجية. للاستبعاد الكامل، استخدم وسم noindex لا robots.txt.
- حجب مجلدات الإدارة والتطوير والاختبار.
- حجب عناوين URL للبحث الداخلي التي تُنشئ آلاف المتغيرات.
- لا تحجب ملفات CSS وJS الضرورية لعرض الصفحة.
- أضف عنوان URL الخاص بـ Sitemap في أسفل ملف robots.txt.
الأخطاء الحرجة وكيفية تجنبها
أشد الأخطاء خطورةً: حجب الموقع بأكمله عن طريق الخطأ بـ «Disallow: /» في robots.txt إثر ترحيل أو إعداد بيئة تطوير لم يُنظَّف. تحقق من هذا الملف بأولوية بعد كل نشر.
إدراج عناوين URL في حالة خطأ (404 وإعادة توجيه 301) في Sitemap خطأ شائع يُشير إلى Google بقلة الدقة ويُبدد ميزانية الزحف على موارد غير موجودة.
في عمليات التدقيق، بين 15 و40% من المواقع تُظهر تعارضاً بين sitemap صفحاتها وصفحاتها القابلة للفهرسة فعلياً، غالباً بسبب صيانة غير كافية بعد تحديثات الموقع.
دراسات قطاعية 2025-2026 حول التدقيق التقني لـ SEO
FAQ
هل يجب تحديد الأولوية والتكرار في Sitemap؟
هذه الوسوم (priority وchangefreq) تتجاهلها Google إلى حد بعيد لأنها تعتمد إشاراتها الخاصة لتقدير تكرار الزحف. وجودها ليس ضاراً وغيابها ليس مشكلة أيضاً.
كم من الوقت تستغرق Google لقراءة Sitemap بعد إرساله؟
بعد الإرسال في Search Console، تقرأ Google Sitemap عموماً خلال 24 إلى 72 ساعة. اكتشاف عناوين URL الجديدة وفهرستها الفعلية يستغرق وقتاً أطول بحسب سلطة الموقع.
هل يعمل robots.txt على جميع محركات البحث؟
تحترم جميع الروبوتات الملتزمة بالمعيار ملف robots.txt. أما الروبوتات المسيئة (المجمّعات وبرامج الزحف غير المتوافقة)، فتتجاهله. robots.txt إذن ليس أداة أمان بل أداة لإدارة الزحف.