一名匿名读者分享了一份报告:数百个网站试图阻止人工智能公司Anthropic从他们的内容中爬取信息,但他们实际上阻止的是错误的机器人。似乎这是因为他们在robots.txt文件中复制/粘贴过时的指令,而公司不断推出新的人工智能爬虫机器人,这些机器人只有在网站所有者更新robots.txt文件时才会被阻止。
特别是,这些网站阻止了该公司不再使用的两个机器人,而不知道地让Anthropic的真实(和新)爬虫机器人保持未被阻止状态。
这是一例“当前robots.txt景观有多混乱”的示例,Dark Visitors网站的匿名运营者在与404 Media的交流中说。Dark Visitors是一个跟踪不断变化的web爬虫和爬虫景观的网站,其中许多爬虫由人工智能公司运营,并帮助网站所有者定期更新robots.txt文件,以防止特定类型的爬取。随着更多人尝试阻止人工智能爬取他们的作品,该网站的受欢迎程度正在增加。
“代理生态系统正在快速变化,因此网站所有者手动跟上几乎是不可能的。例如,苹果(Applebot-Extended)和Meta(Meta-ExternalAgent)分别在上个月和上周添加了新的爬虫机器人,”他们补充道。
tech.slashdot.org
Websites are Blocking the Wrong AI Scrapers
Create attached notes ...