Een anonieme lezer deelt een rapport: Honderden websites die proberen de AI-onderneming Anthropic te blokkeren om hun inhoud te scrapen, blokkeren de verkeerde bots, omdat ze oudere instructies kopiëren naar hun robots.txt-bestanden en omdat bedrijven constant nieuwe AI-crawler-bots lanceren met verschillende namen die alleen geblokkeerd worden als website-eigenaren hun robots.txt-bestand updaten. In het bijzonder blokkeren deze sites twee bots die niet langer door het bedrijf worden gebruikt, terwijl ze onbewust de echte (en nieuwe) scraper-bot van Anthropic ongeblokkeerd laten.
Dit is een voorbeeld van "hoeveel een puinhoop de robots.txt-landschap is op dit moment", aldus de anonieme operator van Dark Visitors tegen 404 Media. Dark Visitors is een website die het constant veranderende landschap van web-crawlers en scrapers volgt - veel van hen worden geëxploiteerd door AI-bedrijven - en helpt website-eigenaren om hun robots.txt-bestanden regelmatig te updaten om specifieke soorten scraping te voorkomen. De site heeft een enorme toename in populariteit gezien omdat meer mensen proberen AI te blokkeren om hun werk te scrapen. "Het ecosysteem van agents verandert snel, dus het is eigenlijk onmogelijk voor website-eigenaren om handmatig bij te blijven. Bijvoorbeeld, Apple (Applebot-Extended) en Meta (Meta-ExternalAgent) hebben er allebei een nieuwe toegevoegd vorige maand en vorige week, respectievelijk," voegden ze toe.
tech.slashdot.org
Websites are Blocking the Wrong AI Scrapers
Create attached notes ...