Um leitor anônimo compartilha um relatório: Centenas de sites tentando bloquear a empresa de IA Anthropic de raspar seu conteúdo estão bloqueando os bots errados, aparentemente porque estão copiando e colando instruções desatualizadas em seus arquivos robots.txt e porque as empresas estão constantemente lançando novos bots de crawler de IA com nomes diferentes que só serão bloqueados se os proprietários dos sites atualizarem seus arquivos robots.txt. Em particular, esses sites estão bloqueando dois bots que a empresa não usa mais, enquanto desconhecem o bot de scraper real (e novo) da Anthropic.
Isso é um exemplo de "quanto é confuso o cenário dos robots.txt no momento", disse o operador anônimo do Dark Visitors à 404 Media. O Dark Visitors é um site que rastrea a paisagem em constante mudança dos crawlers e scrapers da web - muitos deles operados por empresas de IA - e que ajuda os proprietários de sites a atualizar regularmente seus arquivos robots.txt para prevenir tipos específicos de scraping. O site viu um aumento significativo na popularidade à medida que mais pessoas tentam bloquear a IA de raspar seu trabalho. "O ecossistema de agentes está mudando rapidamente, então é basicamente impossível para os proprietários de sites manterem o ritmo manualmente. Por exemplo, a Apple (Applebot-Extended) e o Meta (Meta-ExternalAgent) adicionaram novos últimos mês e semana, respectivamente", acrescentou.
tech.slashdot.org
Websites are Blocking the Wrong AI Scrapers
Create attached notes ...