Aller au contenu
Fundamentos de SEO

Sitemap XML e robots.txt: configurá-los corretamente

6 min

O sitemap XML lista as suas páginas prioritárias para facilitar a sua descoberta pelo Googlebot. O ficheiro robots.txt controla quais as secções que o robot pode rastrear. Estes dois ficheiros são complementares e devem ser mantidos atualizados para evitar erros de indexação.

O sitemap e o robots.txt são os dois ficheiros de configuração SEO mais fundamentais. Mal configurados, podem excluir involuntariamente páginas-chave ou desperdiçar o orçamento de crawl em URLs inúteis.

O sitemap XML: estrutura e boas práticas

Um sitemap XML lista os URLs que deseja ver indexados, acompanhados opcionalmente de metadados (data de modificação, frequência de atualização, prioridade). O Google lê estes metadados mas não os segue à letra.

Para sites com mais de 50.000 URLs ou mais de 50 MB, crie um índice de sitemap que aponte para vários ficheiros de sitemap temáticos (artigos, produtos, categorias).

  • Inclua apenas os URLs canónicos, indexáveis e que retornem código 200.
  • Exclua páginas noindex, redirecionamentos e páginas com parâmetros.
  • Submeta o seu sitemap na Search Console e referencie-o no robots.txt.
  • Atualize o sitemap automaticamente a cada nova publicação.

O ficheiro robots.txt: diretivas e limites

O robots.txt encontra-se na raiz do domínio e utiliza uma sintaxe simples de regras Allow e Disallow por user-agent. Indica ao Googlebot quais as partes do site que não deve rastrear — mas não garante a exclusão da indexação.

Uma página bloqueada pelo robots.txt pode continuar a aparecer nos resultados se links externos apontarem para ela. Para uma exclusão total, utilize a baliza noindex, não o robots.txt.

  • Bloquear as pastas de administração, de staging e de testes.
  • Bloquear os URLs de pesquisa interna que geram milhares de variações.
  • Nunca bloquear os ficheiros CSS e JS necessários à renderização da página.
  • Referenciar o URL do sitemap no final do ficheiro robots.txt.

Erros críticos e como evitá-los

O erro mais grave: bloquear acidentalmente todo o site com «Disallow: /» no robots.txt após uma migração ou uma configuração de staging mal limpa. Verifique este ficheiro em primeiro lugar após cada implementação.

Incluir URLs com erros (404, 301) no sitemap é um erro frequente que sinaliza ao Google uma falta de rigor e desperdiça o orçamento de crawl em recursos inexistentes.

Nas auditorias SEO, entre 15 e 40 % dos sites apresentam incoerências entre o seu sitemap e as páginas realmente indexáveis, frequentemente devidas a manutenção insuficiente após atualizações do site.

Estudos sectoriais 2025-2026 sobre auditorias técnicas SEO

FAQ

É necessário indicar a prioridade e a frequência no sitemap?

Estas balizas (priority e changefreq) são amplamente ignoradas pelo Google, que se baseia nos seus próprios sinais para estimar a frequência de crawl. A sua presença não é prejudicial, mas a sua ausência também não é um problema.

Quanto tempo demora o Google a ler um sitemap submetido?

Após submissão na Search Console, o Google lê geralmente o sitemap em 24 a 72 horas. A descoberta dos novos URLs e a sua indexação efetiva demoram mais tempo consoante a autoridade do site.

O robots.txt funciona para todos os motores de pesquisa?

Todos os robots que respeitam a norma respeitam o robots.txt. No entanto, os robots maliciosos (scrapers, crawlers não conformes) ignoram-no. O robots.txt não é portanto uma ferramenta de segurança, mas uma ferramenta de gestão de crawl.