XML Sitemap மற்றும் robots.txt: சரியாக configure செய்வது
6 min
XML sitemap Googlebot இன் கண்டுபிடிப்பை எளிதாக்க உங்கள் முன்னுரிமை பக்கங்களை பட்டியலிடுகிறது. robots.txt robot எந்த sections ஐ crawl செய்யலாம் என்று கட்டுப்படுத்துகிறது. இந்த இரண்டு files ம் complementary மற்றும் indexation பிழைகளை தவிர்க்க புதுப்பிக்கப்பட்டு பராமரிக்கப்பட வேண்டும்.
Sitemap மற்றும் robots.txt மிகவும் fundamental SEO configuration files. மோசமாக configure செய்யப்படும் போது, முக்கிய பக்கங்களை தற்செயலாக விலக்கலாம் அல்லது தேவையற்ற URLs இல் crawl budget ஐ வீணாக்கலாம்.
XML Sitemap: structure மற்றும் சிறந்த நடைமுறைகள்
ஒரு XML sitemap நீங்கள் index செய்யப்படக் காண விரும்பும் URLs ஐ பட்டியலிடுகிறது, optionally metadata உடன் (modification date, update frequency, priority). Google இந்த metadata ஐ படிக்கிறது ஆனால் அதை அப்படியே பின்பற்றுவதில்லை.
50,000 URLs அல்லது 50 MB க்கும் அதிகமான தளங்களுக்கு, thematic sitemaps (articles, products, categories) இடம் சுட்டும் ஒரு sitemap index உருவாக்கவும்.
- Canonical, indexable மற்றும் 200 code திரும்புவிடும் URLs மட்டுமே சேர்க்கவும்.
- Noindex pages, redirections மற்றும் parameters உள்ள pages ஐ விலக்கவும்.
- Search Console இல் sitemap ஐ சமர்ப்பித்து robots.txt இல் reference செய்யுங்கள்.
- ஒவ்வொரு புதிய வெளியீட்டிலும் sitemap ஐ தானாகவே புதுப்பிக்கவும்.
robots.txt file: directives மற்றும் வரம்புகள்
Robots.txt domain இன் root இல் உள்ளது மற்றும் user-agent வாரியாக Allow மற்றும் Disallow rules இன் எளிய syntax ஐ பயன்படுத்துகிறது. இது Googlebot க்கு தளத்தின் எந்த பகுதிகளை crawl செய்யக்கூடாது என்று குறிக்கிறது — ஆனால் indexation விலக்கை உறுதியாக்குவதில்லை.
robots.txt ஆல் தடுக்கப்பட்ட page, external links அதை நோக்கி சுட்டியிருந்தால் இன்னும் results இல் தோன்றலாம். முழுமையான விலக்கிற்கு, noindex குறிச்சொல்லை பயன்படுத்துங்கள், robots.txt அல்ல.
- Administration, staging மற்றும் test folders ஐ block செய்யுங்கள்.
- ஆயிரக்கணக்கான variations உருவாக்கும் internal search URLs ஐ block செய்யுங்கள்.
- Page rendering க்கு அவசியமான CSS மற்றும் JS files ஐ ஒருபோதும் block செய்யாதீர்கள்.
- robots.txt file இன் கீழ் sitemap URL ஐ reference செய்யுங்கள்.
Critical பிழைகள் மற்றும் அவற்றை எவ்வாறு தவிர்ப்பது
மிகவும் கடுமையான பிழை: migration அல்லது சரியாக clean up செய்யப்படாத staging configuration க்குப் பிறகு robots.txt இல் 'Disallow: /' மூலம் தற்செயலாக முழு தளத்தையும் block செய்வது. ஒவ்வொரு deployment க்குப் பிறகும் இந்த file ஐ முன்னுரிமையாக சரிபார்க்கவும்.
Sitemap இல் error URLs (404, 301) சேர்ப்பது Google க்கு கட்டுப்பாடு இல்லை என்ற சமிக்ஞை அனுப்புகிறது மற்றும் இல்லாத resources இல் crawl budget ஐ வீணாக்குகிறது.
SEO audits சமயம், 15 முதல் 40% தளங்கள் sitemap மற்றும் உண்மையில் indexable pages க்கிடையில் inconsistencies காட்டுகின்றன, பெரும்பாலும் தள updates க்குப் பிறகு போதுமான maintenance இல்லாமல் ஏற்படுகின்றன.
2025-2026 technical SEO audits தொடர்பான துறை ஆய்வுகள்
FAQ
Sitemap இல் priority மற்றும் frequency குறிப்பிட வேண்டுமா?
இந்த tags (priority மற்றும் changefreq) பெரும்பாலும் Google ஆல் புறக்கணிக்கப்படுகின்றன, இது crawl frequency ஐ மதிப்பிட தனது சமிக்ஞைகளை பயன்படுத்துகிறது. அவற்றின் இருப்பு தீங்கு செய்வதில்லை ஆனால் அவற்றின் இல்லாமலும் சிக்கலில்லை.
சமர்ப்பிக்கப்பட்ட sitemap ஐ படிக்க Google எவ்வளவு நேரம் எடுக்கும்?
Search Console இல் சமர்ப்பிப்பிற்கு பிறகு, Google பொதுவாக 24 முதல் 72 மணி நேரத்திற்குள் sitemap ஐ படிக்கிறது. புதிய URLs கண்டுபிடிப்பு மற்றும் actual indexation தளத்தின் அதிகாரத்தைப் பொறுத்து அதிக நேரம் எடுக்கும்.
Robots.txt எல்லா search engines க்கும் செயல்படுகிறதா?
Standard க்கு மரியாதை செய்யும் எல்லா robots உம் robots.txt ஐ மரியாதை செய்கின்றன. இருப்பினும், malicious robots (scrapers, non-conforming crawlers) அதை புறக்கணிக்கின்றன. எனவே robots.txt ஒரு security கருவி அல்ல, ஒரு crawl management கருவியாகும்.