网站正在阻止错误的AI爬虫

一名匿名读者分享了一份报告：数百个网站试图阻止人工智能公司Anthropic从他们的内容中爬取信息，但他们实际上阻止的是错误的机器人。似乎这是因为他们在robots.txt文件中复制/粘贴过时的指令，而公司不断推出新的人工智能爬虫机器人，这些机器人只有在网站所有者更新robots.txt文件时才会被阻止。特别是，这些网站阻止了该公司不再使用的两个机器人，而不知道地让Anthropic的真实（和新）爬虫机器人保持未被阻止状态。这是一例“当前robots.txt景观有多混乱”的示例，Dark Visitors网站的匿名运营者在与404 Media的交流中说。Dark Visitors是一个跟踪不断变化的web爬虫和爬虫景观的网站，其中许多爬虫由人工智能公司运营，并帮助网站所有者定期更新robots.txt文件，以防止特定类型的爬取。随着更多人尝试阻止人工智能爬取他们的作品，该网站的受欢迎程度正在增加。 “代理生态系统正在快速变化，因此网站所有者手动跟上几乎是不可能的。例如，苹果（Applebot-Extended）和Meta（Meta-ExternalAgent）分别在上个月和上周添加了新的爬虫机器人，”他们补充道。

tech.slashdot.org

Websites are Blocking the Wrong AI Scrapers

TheNote.app (macOS, iOS and Android apps)

2024-07-30

Create attached notes ...