O que é robots.txt
O arquivo robots.txt fica na raiz do domínio e orienta robôs de busca sobre quais áreas do site podem ou não ser rastreadas. Ele costuma estar em /robots.txt. É um arquivo simples, mas um erro nele pode impedir que buscadores acessem páginas importantes. Por isso, deve ser alterado com atenção.
Robots.txt não é uma ferramenta de segurança. Ele apenas orienta robôs bem-comportados. Se você quer proteger uma área privada, use autenticação, senha, permissões e firewall. Nunca coloque informações sensíveis confiando apenas em robots.txt.
Como ele funciona
As regras usam diretivas como User-agent, Disallow e Allow. O User-agent define para qual robô a regra vale. O Disallow informa caminhos que não devem ser rastreados. O Allow pode liberar uma exceção. Também é comum informar o endereço do sitemap.
Um exemplo simples pode bloquear uma pasta administrativa e indicar o sitemap. Mas cada site tem estrutura própria. Copiar um robots.txt de outro site sem adaptar pode causar problemas.
O erro mais perigoso
O erro clássico é usar Disallow: / em produção. Essa regra orienta robôs a não rastrear nada. Às vezes ela é usada em ambiente de teste e esquecida após publicar o site. O resultado pode ser queda de indexação, páginas desaparecendo dos resultados e perda de tráfego orgânico.
Antes de lançar um site, verifique robots.txt. Em migrações, homologações e mudanças de domínio, essa checagem deve fazer parte do checklist.
O que normalmente bloquear
Você pode bloquear áreas sem valor para busca, como painel administrativo, resultados internos de busca, parâmetros infinitos, páginas temporárias e scripts que não precisam ser rastreados. Em WordPress, é comum bloquear algumas áreas administrativas, mas permitir recursos necessários para renderização.
Não bloqueie CSS e JavaScript essenciais se o buscador precisa deles para entender a página. Buscadores modernos renderizam páginas e podem precisar desses arquivos. Bloquear recursos importantes pode prejudicar análise do layout e conteúdo.
Robots.txt não remove página do Google imediatamente
Se uma página já foi indexada e você bloqueia pelo robots.txt, o Google pode manter a URL no índice sem conseguir ver o conteúdo atualizado. Para remover ou controlar indexação, às vezes é melhor usar meta robots noindex, cabeçalhos HTTP ou remoção pelo Search Console, dependendo do caso.
Isso é importante: bloquear rastreamento e impedir indexação não são exatamente a mesma coisa. Se você quer que uma página não seja indexada, estude a abordagem correta.
Como testar
Use o Google Search Console para inspecionar URLs e verificar se estão rastreáveis. Também abra /robots.txt no navegador e revise as regras manualmente. Após alterações, monitore cobertura e indexação.
Em sites com SEO importante, documente mudanças. Uma linha errada pode afetar tráfego. Se você usa ambientes separados em Servidor VPS ou Servidor Dedicado, garanta que regras de teste não sejam copiadas para produção sem revisão.
Conclusão
Robots.txt é útil para orientar rastreamento, mas deve ser configurado com cuidado. Não use como segurança, não bloqueie o site inteiro por engano, não copie regras sem entender e teste depois de alterar. Um arquivo simples pode proteger o orçamento de rastreamento ou derrubar sua visibilidade, dependendo de como for usado.
Nenhum comentário ainda. Seja o primeiro a comentar!