Aller au contenu
SEO মূলনীতি

XML Sitemap ও robots.txt: সঠিকভাবে কনফিগার করুন

6 min

XML sitemap আপনার অগ্রাধিকারমূলক পেজগুলো Googlebot-এর সহজ আবিষ্কারের জন্য তালিকাভুক্ত করে। robots.txt ফাইল নিয়ন্ত্রণ করে রোবট কোন বিভাগগুলো ক্রল করতে পারে। এই দুটি ফাইল পরিপূরক এবং অজ্ঞাত ইন্ডেক্সিং ত্রুটি এড়াতে আপ-টু-ডেট রাখতে হবে।

Sitemap ও robots.txt হল দুটি সবচেয়ে মৌলিক SEO কনফিগারেশন ফাইল। ভুল কনফিগার হলে, এগুলো অনিচ্ছাকৃতভাবে মূল পেজগুলো বাদ দিতে বা অপ্রয়োজনীয় URL-এ ক্রল বাজেট নষ্ট করতে পারে।

XML Sitemap: স্ট্রাকচার ও সর্বোত্তম অনুশীলন

একটি XML sitemap সেই URLগুলো তালিকাভুক্ত করে যা আপনি ইন্ডেক্স করতে চান, ঐচ্ছিকভাবে মেটাডেটা (পরিবর্তনের তারিখ, আপডেট ফ্রিকোয়েন্সি, অগ্রাধিকার) সহ। Google এই মেটাডেটা পড়ে কিন্তু সেগুলো অক্ষরে অক্ষরে অনুসরণ করে না।

৫০,০০০-এর বেশি URL বা ৫০ MB-এর বেশি সাইটের জন্য, থিম্যাটিক ফাইলগুলো (নিবন্ধ, পণ্য, ক্যাটাগরি) নির্দেশ করে একটি sitemap ইন্ডেক্স তৈরি করুন।

  • শুধুমাত্র canonical, ইন্ডেক্সযোগ্য এবং ২০০ কোড ফেরত দেওয়া URL অন্তর্ভুক্ত করুন।
  • noindex পেজ, রিডাইরেক্ট এবং প্যারামিটার সহ পেজ বাদ দিন।
  • Search Console-এ আপনার sitemap জমা দিন এবং robots.txt-এ উল্লেখ করুন।
  • প্রতিটি নতুন প্রকাশনায় sitemap স্বয়ংক্রিয়ভাবে আপডেট করুন।

robots.txt ফাইল: নির্দেশিকা ও সীমাবদ্ধতা

Robots.txt ডোমেনের মূলে থাকে এবং user-agent অনুযায়ী সহজ Allow ও Disallow নিয়মের সিনট্যাক্স ব্যবহার করে। এটি Googlebot-কে সাইটের কোন অংশ ক্রল না করতে বলে — কিন্তু ইন্ডেক্সিং বাদ দেওয়ার নিশ্চয়তা দেয় না।

robots.txt দ্বারা ব্লক করা একটি পেজ তখনও ফলাফলে দেখা যেতে পারে যদি বাহ্যিক লিঙ্ক সেখানে নির্দেশ করে। সম্পূর্ণ বাদ দিতে, robots.txt নয়, noindex ট্যাগ ব্যবহার করুন।

  • অ্যাডমিনিস্ট্রেশন, স্টেজিং ও টেস্ট ফোল্ডার ব্লক করুন।
  • হাজার হাজার ভেরিয়েশন তৈরি করা ইন্টারনাল সার্চ URL ব্লক করুন।
  • পেজ রেন্ডারিংয়ের জন্য প্রয়োজনীয় CSS ও JS ফাইল কখনো ব্লক করবেন না।
  • robots.txt ফাইলের নিচে sitemap URL উল্লেখ করুন।

গুরুতর ভুল এবং সেগুলো কীভাবে এড়াবেন

সবচেয়ে গুরুতর ভুল: একটি মাইগ্রেশন বা স্টেজিং কনফিগারেশন পরিষ্কার না করার ফলে robots.txt-এ 'Disallow: /' দিয়ে দুর্ঘটনাবশত পুরো সাইট ব্লক করা। প্রতিটি ডিপ্লয়মেন্টের পরে এই ফাইলটি অগ্রাধিকারমূলকভাবে পরীক্ষা করুন।

sitemap-এ ত্রুটিপূর্ণ URL (৪০৪, ৩০১) অন্তর্ভুক্ত করা একটি সাধারণ ভুল যা Google-কে যত্নের অভাব সংকেত দেয় এবং অস্তিত্বহীন রিসোর্সে ক্রল বাজেট নষ্ট করে।

SEO অডিটে, ১৫ থেকে ৪০% সাইট তাদের sitemap ও প্রকৃতপক্ষে ইন্ডেক্সযোগ্য পেজের মধ্যে অসঙ্গতি দেখায়, প্রায়ই সাইট আপডেটের পরে অপর্যাপ্ত রক্ষণাবেক্ষণের কারণে।

টেকনিক্যাল SEO অডিট বিষয়ক সেক্টরাল গবেষণা ২০২৫-২০২৬

FAQ

Sitemap-এ অগ্রাধিকার ও ফ্রিকোয়েন্সি উল্লেখ করা কি প্রয়োজন?

এই ট্যাগগুলো (priority ও changefreq) Google দ্বারা মূলত উপেক্ষিত হয় যা ক্রল ফ্রিকোয়েন্সি অনুমান করতে নিজস্ব সংকেত ব্যবহার করে। তাদের উপস্থিতি ক্ষতিকর নয় কিন্তু তাদের অনুপস্থিতিও সমস্যা নয়।

জমা দেওয়া sitemap পড়তে Google কতক্ষণ সময় নেয়?

Search Console-এ জমা দেওয়ার পরে, Google সাধারণত ২৪ থেকে ৭২ ঘণ্টার মধ্যে sitemap পড়ে। নতুন URL আবিষ্কার ও তাদের প্রকৃত ইন্ডেক্সিং সাইটের কর্তৃত্বের উপর নির্ভর করে আরও সময় নেয়।

Robots.txt কি সব সার্চ ইঞ্জিনের জন্য কাজ করে?

মান মেনে চলা সব রোবট robots.txt সম্মান করে। তবে দূষিত রোবট (স্ক্র্যাপার, নন-কমপ্লায়েন্ট ক্রলার) এটি উপেক্ষা করে। তাই robots.txt একটি নিরাপত্তা টুল নয় কিন্তু একটি ক্রল ম্যানেজমেন্ট টুল।