1. O que e o Robots.txt
O arquivo robots.txt e um arquivo de texto simples colocado na raiz de um dominio web que instrui os crawlers (robos de indexacao) de motores de busca sobre quais paginas ou secoes do site podem ou nao podem ser rastreadas.
Ele e parte do Robots Exclusion Protocol (REP), um protocolo informal mas amplamente adotado por todos os grandes motores de busca incluindo Google, Bing, Yahoo e DuckDuckGo.
2. Sintaxe e Diretivas
O robots.txt usa uma sintaxe simples baseada em pares de diretiva:valor:
- User-agent: Define para qual bot as regras seguintes se aplicam. Use * para todos.
- Disallow: Proibe acesso ao caminho especificado. Disallow: /admin/ bloqueia toda a pasta /admin/.
- Allow: Permite acesso a um caminho especifico, mesmo dentro de uma pasta bloqueada.
- Crawl-delay: Tempo minimo em segundos entre requisicoes do crawler.
- Sitemap: URL completa do sitemap XML do site.
"O robots.txt nao garante privacidade — ele e uma instrucao, nao uma barreira tecnica. Bots maliciosos podem ignorar o arquivo. Para conteudo sensivel, use autenticacao."
3. Principais Crawlers
Cada motor de busca tem seu proprio crawler com um nome especifico de User-agent:
- Googlebot: Crawler principal do Google para paginas web
- Bingbot: Crawler do Bing (Microsoft)
- Slurp: Crawler do Yahoo
- DuckDuckBot: Crawler do DuckDuckGo
- Baiduspider: Crawler do Baidu (China)
4. Erros Comuns
- Bloquear recursos CSS e JS que o Google precisa para renderizar paginas corretamente
- Usar robots.txt para esconder paginas que nao deveriam ser indexadas (use meta noindex)
- Esquecer de atualizar o robots.txt ao fazer mudancas na estrutura do site
- Confundir Disallow: / (bloqueia tudo) com Allow: / (permite tudo)
5. Boas Praticas
- Sempre inclua a diretiva Sitemap apontando para seu sitemap.xml
- Bloqueie apenas conteudo que nao deve ser indexado (admin, logs, backups)
- Teste seu robots.txt com a ferramenta de teste do Google Search Console
- Evite um Crawl-delay muito alto — pode prejudicar a indexacao
- Use comentarios (#) para documentar suas regras
6. Perguntas Frequentes
O robots.txt afeta o ranking no Google?
Sim, indiretamente. Se voce bloquear paginas importantes, elas nao serao indexadas e portanto nao ranqueadas. Tambem pode afetar como o Google distribui o orcamento de rastreamento (crawl budget) do seu site.
Posso ter multiplos grupos User-agent no mesmo arquivo?
Sim. Voce pode criar blocos separados para diferentes bots, cada um com suas proprias regras de Allow/Disallow.
O que acontece se eu nao tiver um robots.txt?
Os crawlers tratam a ausencia do arquivo como permissao para rastrear tudo. O Google nao penaliza sites sem robots.txt.