Анонимный читатель поделился отчетом: Сотни веб-сайтов, пытавшихся заблокировать компанию по искусственному интеллекту Anthropic от сбора их контента, блокируют неправильных ботов, похоже, потому что они копируют устаревшие инструкции в свои файлы robots.txt и потому что компании постоянно запускают новые AI-боты с разными именами, которые будут заблокированы только в том случае, если владельцы веб-сайтов обновят свои файлы robots.txt. В частности, эти сайты блокируют два бота, которые больше не используются компанией, оставляя незаблокированным реальный (и новый) бот Anthropic.
Это пример того, "насколько запутанным является ландшафт robots.txt в настоящее время", как объяснил анонимный оператор Dark Visitors в интервью 404 Media. Dark Visitors - это веб-сайт, который отслеживает постоянно меняющийся ландшафт веб-скрейперов и скрейперов, многие из которых управляются компаниями по искусственному интеллекту, и помогает владельцам веб-сайтов регулярно обновлять свои файлы robots.txt, чтобы предотвратить определенные типы сбора. Сайт увидел огромный рост популярности, поскольку больше людей пытаются заблокировать AI от сбора их работы. "Экосистема агентов быстро меняется, поэтому практически невозможно для владельцев веб-сайтов вручную поддерживать это. Например, Apple (Applebot-Extended) и Meta (Meta-ExternalAgent) только что добавили новые боты в прошлом месяце и на прошлой неделе соответственно", - добавил он.
tech.slashdot.org
Websites are Blocking the Wrong AI Scrapers
Create attached notes ...