Actualités de l'IA et du ML en français

Les sites web bloquent les scrapers AI erronés

Un lecteur anonyme partage un rapport : Des centaines de sites web tentant de bloquer l'entreprise d'IA Anthropic de scraper leur contenu bloquent les mauvais bots, apparemment parce qu'ils copient-collent des instructions dépassées dans leurs fichiers robots.txt, et parce que les entreprises lancent constamment de nouveaux bots de crawl IA avec des noms différents qui ne seront bloqués que si les propriétaires de sites web mettent à jour leurs fichiers robots.txt. En particulier, ces sites bloquent deux bots que l'entreprise n'utilise plus, tout en laissant le vrai (et nouveau) bot scraper d'Anthropic non bloqué. Ceci est un exemple de "combien le paysage des robots.txt est un désordre en ce moment", a déclaré l'opérateur anonyme de Dark Visitors à 404 Media. Dark Visitors est un site web qui suit le paysage en constante évolution des crawlers et des scrapers web - beaucoup d'entre eux exploités par des entreprises d'IA - et qui aide les propriétaires de sites web à mettre à jour régulièrement leurs fichiers robots.txt pour prévenir des types spécifiques de scraping. Le site a connu une énorme augmentation de popularité alors que plus de personnes tentent de bloquer l'IA de scraper leur travail. "L'écosystème des agents change vite, donc c'est essentiellement impossible pour les propriétaires de sites web de se tenir au courant manuellement. Par exemple, Apple (Applebot-Extended) et Meta (Meta-ExternalAgent) ont juste ajouté de nouveaux agents le mois dernier et la semaine dernière, respectivement", ont-ils ajouté.
tech.slashdot.org
Websites are Blocking the Wrong AI Scrapers
Create attached notes ...