1. O Que E o Robots.txt
O arquivo robots.txt e um arquivo de texto simples, colocado na raiz de um site (ex: https://seusite.com/robots.txt), que instrui crawlers (robos de busca) sobre quais paginas ou diretorios eles podem ou nao podem acessar. E um padrao informal do protocolo de exclusao de robos (REP — Robots Exclusion Protocol), seguido voluntariamente pelos principais motores de busca como Google, Bing, Yahoo e DuckDuckGo.
Apesar de simples, o robots.txt e uma ferramenta poderosa de controle de crawl budget, protecao de areas sensiveis e otimizacao de SEO. Um robots.txt mal configurado pode bloquear acidentalmente partes importantes do site para indexacao, enquanto um bem configurado ajuda os crawlers a priorizar o conteudo relevante.
2. Sintaxe e Diretivas Principais
O arquivo e organizado em blocos, cada um iniciando com um ou mais User-agent e seguido por regras de Allow e Disallow:
- User-agent: * — aplica as regras a todos os crawlers.
- User-agent: Googlebot — aplica apenas ao Googlebot.
- Disallow: /caminho/ — bloqueia acesso ao caminho e seus sub-caminhos.
- Allow: /caminho/publico/ — permite acesso mesmo dentro de uma area bloqueada.
- Sitemap: https://... — indica a URL do sitemap XML (nao e uma regra de acesso).
- Disallow: (sem valor) — significa "nao bloquear nada", equivalente a permitir tudo.
Wildcards (*) podem ser usados para corresponder a qualquer sequencia de caracteres. Exemplo: Disallow: /*.pdf$ bloqueia todos os arquivos PDF.
3. Regras de Precedencia
Quando multiplas regras se aplicam a uma URL, os crawlers usam uma ordem de precedencia para decidir qual seguir:
- Especificidade: a regra com o caminho mais longo (mais especifica) vence. Ex:
Allow: /admin/publico/prevalece sobreDisallow: /admin/para URLs que comecem com/admin/publico/. - Empate de especificidade: se dois caminhos tem o mesmo comprimento,
Allowvence sobreDisallow. - Bloco especifico vs. wildcard: um bloco para um agente especifico (ex:
Googlebot) tem prioridade sobre o blocoUser-agent: *.
"Nossa ferramenta implementa exatamente esse algoritmo de precedencia, mostrando nao apenas o resultado mas tambem qual regra foi aplicada para cada agente."
4. Erros Comuns e Como Evita-los
Alguns dos erros mais frequentes em arquivos robots.txt:
- Bloquear CSS e JS: crawlers modernos precisam renderizar JavaScript para indexar corretamente. Bloquear
/static/ou/assets/pode prejudicar a indexacao. - Bloquear o sitemap: se o sitemap estiver em uma pasta bloqueada, os crawlers nao conseguem acessa-lo.
- Confundir robots.txt com controle de acesso: o robots.txt nao e seguranca — e um protocolo voluntario. Dados sensiveis devem ser protegidos por autenticacao real.
- Bloqueio acidental da raiz:
Disallow: /bloqueia o site inteiro para aquele agente. - Linhas em branco dentro de um bloco: uma linha em branco encerra o bloco atual. Regras apos ela podem ser ignoradas.
5. Impacto no SEO
O robots.txt afeta diretamente o crawl budget — a quantidade de paginas que o Googlebot esta disposto a rastrear em um site por dia. Para sites grandes, usar robots.txt para bloquear paginas sem valor (paginacao interna, filtros de e-commerce, paineis de administracao) ajuda os crawlers a concentrar os recursos nas paginas que realmente devem ser indexadas.
No entanto, bloquear uma pagina no robots.txt nao remove ela do indice se ela ja foi indexada. Para remover do indice, e necessario usar noindex via meta tag ou cabecalho HTTP — o que so funciona se o crawler ainda puder acessar a pagina. E uma relacao delicada que exige planejamento cuidadoso.
6. Perguntas Frequentes
O robots.txt garante que minha pagina nao sera indexada?
Nao. O robots.txt impede o crawler de acessar a pagina, mas se outros sites linkarem para ela, o Google pode indexa-la mesmo sem ter o conteudo. Para garantir nao-indexacao, use noindex com acesso permitido.
Todos os crawlers respeitam o robots.txt?
Os principais motores de busca (Google, Bing, Yahoo, DuckDuckGo) respeitam. Mas crawlers maliciosos ou scripts personalizados podem ignorar completamente o arquivo. Nunca use o robots.txt como unica camada de protecao para dados sensiveis.
Posso testar robots.txt sem publicar no servidor?
Sim. Nossa ferramenta funciona inteiramente no navegador — basta colar o conteudo do arquivo para testar qualquer combinacao de regras e URLs sem precisar publicar nada.
Qual a diferenca entre robots.txt e meta robots?
O robots.txt controla o acesso ao arquivo (se o crawler pode ou nao buscar a URL). A meta tag robots (<meta name="robots" content="noindex">) controla o que o crawler faz com o conteudo depois de acessar. Sao mecanismos complementares.