Sitemap XML e robots.txt: configurá-los corretamente
6 min
O sitemap XML lista as suas páginas prioritárias para facilitar a sua descoberta pelo Googlebot. O ficheiro robots.txt controla quais as secções que o robot pode rastrear. Estes dois ficheiros são complementares e devem ser mantidos atualizados para evitar erros de indexação.
O sitemap e o robots.txt são os dois ficheiros de configuração SEO mais fundamentais. Mal configurados, podem excluir involuntariamente páginas-chave ou desperdiçar o orçamento de crawl em URLs inúteis.
O sitemap XML: estrutura e boas práticas
Um sitemap XML lista os URLs que deseja ver indexados, acompanhados opcionalmente de metadados (data de modificação, frequência de atualização, prioridade). O Google lê estes metadados mas não os segue à letra.
Para sites com mais de 50.000 URLs ou mais de 50 MB, crie um índice de sitemap que aponte para vários ficheiros de sitemap temáticos (artigos, produtos, categorias).
- Inclua apenas os URLs canónicos, indexáveis e que retornem código 200.
- Exclua páginas noindex, redirecionamentos e páginas com parâmetros.
- Submeta o seu sitemap na Search Console e referencie-o no robots.txt.
- Atualize o sitemap automaticamente a cada nova publicação.
O ficheiro robots.txt: diretivas e limites
O robots.txt encontra-se na raiz do domínio e utiliza uma sintaxe simples de regras Allow e Disallow por user-agent. Indica ao Googlebot quais as partes do site que não deve rastrear — mas não garante a exclusão da indexação.
Uma página bloqueada pelo robots.txt pode continuar a aparecer nos resultados se links externos apontarem para ela. Para uma exclusão total, utilize a baliza noindex, não o robots.txt.
- Bloquear as pastas de administração, de staging e de testes.
- Bloquear os URLs de pesquisa interna que geram milhares de variações.
- Nunca bloquear os ficheiros CSS e JS necessários à renderização da página.
- Referenciar o URL do sitemap no final do ficheiro robots.txt.
Erros críticos e como evitá-los
O erro mais grave: bloquear acidentalmente todo o site com «Disallow: /» no robots.txt após uma migração ou uma configuração de staging mal limpa. Verifique este ficheiro em primeiro lugar após cada implementação.
Incluir URLs com erros (404, 301) no sitemap é um erro frequente que sinaliza ao Google uma falta de rigor e desperdiça o orçamento de crawl em recursos inexistentes.
Nas auditorias SEO, entre 15 e 40 % dos sites apresentam incoerências entre o seu sitemap e as páginas realmente indexáveis, frequentemente devidas a manutenção insuficiente após atualizações do site.
Estudos sectoriais 2025-2026 sobre auditorias técnicas SEO
FAQ
É necessário indicar a prioridade e a frequência no sitemap?
Estas balizas (priority e changefreq) são amplamente ignoradas pelo Google, que se baseia nos seus próprios sinais para estimar a frequência de crawl. A sua presença não é prejudicial, mas a sua ausência também não é um problema.
Quanto tempo demora o Google a ler um sitemap submetido?
Após submissão na Search Console, o Google lê geralmente o sitemap em 24 a 72 horas. A descoberta dos novos URLs e a sua indexação efetiva demoram mais tempo consoante a autoridade do site.
O robots.txt funciona para todos os motores de pesquisa?
Todos os robots que respeitam a norma respeitam o robots.txt. No entanto, os robots maliciosos (scrapers, crawlers não conformes) ignoram-no. O robots.txt não é portanto uma ferramenta de segurança, mas uma ferramenta de gestão de crawl.