AIとMLの日本語ニュース

ウェブサイトは誤ったAIスクレイパーをブロックしている

匿名の読者が共有するレポートによると、AI会社Anthropicがウェブサイトをスクレイピングするのを阻止しようとしている数百のウェブサイトが、誤ったボットをブロックしている。そうしているのは、ウェブサイト所有者が古い指令をrobots.txtファイルにコピー/ペーストしているためであり、また、企業が新しいAIクローラーボットを頻繁に立ち上げ、ウェブサイト所有者がrobots.txtを更新しない限りブロックされないボット名を使用しているためです。 特にこれらのサイトは、会社が現在使用していない2つのボットをブロックしているが、実際の新しいスクレイパーボットがブロックされていない。 これは、現在のrobots.txtランドスケープがどの程度の混乱状態にあるかを示している。匿名のDark Visitorsの運営者が404 Mediaに語った。Dark Visitorsは、ウェブクローラーとスクレイパー、特にAI会社が運営しているものを追跡し、ウェブサイト所有者がrobots.txtを定期的に更新して特定のスクレイピングを防ぐことを助けます。このサイトは、AIがスクレイピングを阻止しようとする人々が増加しているため、人気が急上昇しています。 "エージェントのエコシステムが急速に変化しているため、ウェブサイト所有者が手動で追跡するのは基本的に不可能です。たとえば、Apple(Applebot-Extended)とMeta(Meta-ExternalAgent)は、先月と先週に新しいものを追加しました。"
tech.slashdot.org
Websites are Blocking the Wrong AI Scrapers
Create attached notes ...