Google इंडेक्सिंग: crawl, बजट और अनब्लॉकिंग
7 min
Google आपके पेजों को तीन चरणों में index करता है: खोज, crawl और indexing। खराब तरीके से प्रबंधित crawl बजट आपके प्रमुख पेजों को index से बाहर रखता है। पहले Search Console में कवरेज जांचें, फिर उन परजीवी URLs को हटाएं जो आपका कोटा बर्बाद कर रहे हैं।
एक गैर-indexed पेज एक अदृश्य पेज है। फिर भी, कई साइटें चुप्पी से इंडेक्सिंग समस्याओं से पीड़ित हैं जिनके बारे में उनके मालिकों को कभी पता नहीं चलता। इन ब्लॉकेज को diagnose और हल करने की विधि यहां दी गई है।
Google आपके पेजों की खोज और indexing कैसे करता है
Googlebot पहले से ज्ञात पेजों से शुरू होता है और नए पेज खोजने के लिए links का अनुसरण करता है। फिर यह सामग्री पढ़ता है, यदि आवश्यक हो तो JavaScript रेंडर करता है, और पेज को index में भेजता है — एक प्रक्रिया जिसमें कुछ घंटों से लेकर कई सप्ताह लग सकते हैं।
Indexing की गारंटी नहीं है: Google स्वतंत्र रूप से तय करता है कि उनकी गुणवत्ता, विशिष्टता और साइट की authority के आधार पर कौन से पेज indexed होने योग्य हैं।
Crawl बजट: यह क्या है और कब महत्वपूर्ण है
Crawl बजट उन पेजों की संख्या है जिन्हें Googlebot एक निश्चित समय अंतराल में आपकी साइट पर crawl करना स्वीकार करता है। यह आपके सर्वर पर अधिक भार न डालने के लिए सीमित है।
1,000 से कम पेजों वाली अधिकांश साइटों के लिए, crawl बजट कोई समस्या नहीं है। यह बड़े e-commerce साइटों, facet वाली साइटों या हजारों dynamic URLs उत्पन्न करने वाले प्लेटफॉर्म के लिए महत्वपूर्ण हो जाता है।
कम मूल्य वाले पेज — filter परिणाम, session URLs, डुप्लीकेट — इस बजट को बर्बाद करते हैं और आपके प्राथमिकता वाले पेजों की indexing में देरी करते हैं।
बड़े e-commerce साइटों पर, crawl की गई 20 से 60% URLs ऐसी कम-मूल्य वाली variants हो सकती हैं जो crawl बजट को अनावश्यक रूप से खर्च करती हैं।
e-commerce SEO आर्किटेक्चर पर 2025-2026 क्षेत्रीय अध्ययन
Indexing समस्याओं का निदान
Search Console में 'Coverage' रिपोर्ट (अब 'पेज इंडेक्सिंग') आपका पहला टूल है। यह indexed, excluded और error वाले पेजों को अलग करती है, प्रत्येक श्रेणी के लिए सटीक कारण के साथ।
किसी विशिष्ट पेज का परीक्षण करने के लिए URL inspection टूल का उपयोग करें: Google आपको बताता है कि यह indexed है या नहीं, अंतिम crawl की तारीख और कोई भी detected समस्याएं।
- Error 404 या 5xx: crawl के समय पेज अनुपलब्ध है।
- robots.txt द्वारा blocked: Googlebot की पहुंच प्रतिबंधित है।
- noindex टैग मौजूद: आपने स्पष्ट रूप से बहिष्करण का अनुरोध किया है।
- डुप्लीकेट पेज, Google ने एक अलग canonical URL चुनी है।
- खोज असंभव: पेज की ओर कोई internal link नहीं है।
अपने नए पेजों की indexing में तेजी लाएं
Search Console के URL inspection टूल के माध्यम से या Indexing API (सैद्धांतिक रूप से job postings और podcasts के लिए reserved, लेकिन अक्सर अन्य सामग्री के लिए उपयोग किया जाता है) के माध्यम से अपने नए URLs submit करें।
सबसे विश्वसनीय विधि यह है कि अपने पहले से अच्छी तरह indexed पेजों से अपने नए URLs की ओर internal links बनाएं: Googlebot उन्हें अगले crawl के दौरान स्वाभाविक रूप से खोज लेगा।
FAQ
Sitemap submit करने के बावजूद मेरा पेज Google में क्यों नहीं दिखता?
Sitemap Google को बताता है कि पेज exists करता है, लेकिन indexing को force नहीं करता। Google indexing से पहले गुणवत्ता, विशिष्टता और प्रासंगिकता का मूल्यांकन करता है। जांचें कि कोई noindex मौजूद नहीं है और पेज पर पर्याप्त सामग्री है।
क्या robots.txt में blocked पेज results में दिख सकता है?
हां, यदि अन्य साइटें उसकी ओर point करती हैं। Google URL को crawl किए बिना display कर सकता है, जिसका अर्थ है कि कोई excerpt नहीं दिखाया जाएगा। किसी पेज को पूरी तरह बाहर करने के लिए, robots.txt और noindex टैग को मिलाएं, या केवल noindex का उपयोग करें।
Publication और indexing के बीच सामान्य समय क्या है?
अच्छी तरह established साइट के लिए, homepage से linked पेजों के लिए कुछ घंटों से 48 घंटे। नई साइट या orphan पेज के लिए, इसमें कई सप्ताह लग सकते हैं।