Fundamentos de SEO

Sitemap XML e robots.txt: configurá-los corretamente

6 min

O sitemap XML lista as suas páginas prioritárias para facilitar a sua descoberta pelo Googlebot. O ficheiro robots.txt controla quais as secções que o robot pode rastrear. Estes dois ficheiros são complementares e devem ser mantidos atualizados para evitar erros de indexação.

O sitemap e o robots.txt são os dois ficheiros de configuração SEO mais fundamentais. Mal configurados, podem excluir involuntariamente páginas-chave ou desperdiçar o orçamento de crawl em URLs inúteis.

O sitemap XML: estrutura e boas práticas

Um sitemap XML lista os URLs que deseja ver indexados, acompanhados opcionalmente de metadados (data de modificação, frequência de atualização, prioridade). O Google lê estes metadados mas não os segue à letra.

Para sites com mais de 50.000 URLs ou mais de 50 MB, crie um índice de sitemap que aponte para vários ficheiros de sitemap temáticos (artigos, produtos, categorias).

Inclua apenas os URLs canónicos, indexáveis e que retornem código 200.
Exclua páginas noindex, redirecionamentos e páginas com parâmetros.
Submeta o seu sitemap na Search Console e referencie-o no robots.txt.
Atualize o sitemap automaticamente a cada nova publicação.

O ficheiro robots.txt: diretivas e limites

O robots.txt encontra-se na raiz do domínio e utiliza uma sintaxe simples de regras Allow e Disallow por user-agent. Indica ao Googlebot quais as partes do site que não deve rastrear — mas não garante a exclusão da indexação.

Uma página bloqueada pelo robots.txt pode continuar a aparecer nos resultados se links externos apontarem para ela. Para uma exclusão total, utilize a baliza noindex, não o robots.txt.

Bloquear as pastas de administração, de staging e de testes.
Bloquear os URLs de pesquisa interna que geram milhares de variações.
Nunca bloquear os ficheiros CSS e JS necessários à renderização da página.
Referenciar o URL do sitemap no final do ficheiro robots.txt.

Erros críticos e como evitá-los

O erro mais grave: bloquear acidentalmente todo o site com «Disallow: /» no robots.txt após uma migração ou uma configuração de staging mal limpa. Verifique este ficheiro em primeiro lugar após cada implementação.

Incluir URLs com erros (404, 301) no sitemap é um erro frequente que sinaliza ao Google uma falta de rigor e desperdiça o orçamento de crawl em recursos inexistentes.

Nas auditorias SEO, entre 15 e 40 % dos sites apresentam incoerências entre o seu sitemap e as páginas realmente indexáveis, frequentemente devidas a manutenção insuficiente após atualizações do site.

Estudos sectoriais 2025-2026 sobre auditorias técnicas SEO

FAQ

É necessário indicar a prioridade e a frequência no sitemap?

Estas balizas (priority e changefreq) são amplamente ignoradas pelo Google, que se baseia nos seus próprios sinais para estimar a frequência de crawl. A sua presença não é prejudicial, mas a sua ausência também não é um problema.

Quanto tempo demora o Google a ler um sitemap submetido?

Após submissão na Search Console, o Google lê geralmente o sitemap em 24 a 72 horas. A descoberta dos novos URLs e a sua indexação efetiva demoram mais tempo consoante a autoridade do site.

O robots.txt funciona para todos os motores de pesquisa?

Todos os robots que respeitam a norma respeitam o robots.txt. No entanto, os robots maliciosos (scrapers, crawlers não conformes) ignoram-no. O robots.txt não é portanto uma ferramenta de segurança, mas uma ferramenta de gestão de crawl.