Anonim bir okuyucu, 404 Media için hazırladığı bir rapora dayanarak paylaşıyor: Yüzlerce web sitesi, AI şirketi Anthropic'in içeriklerini toplamasını engellemek için yanlış botları engelliyor gibi görünüyor. Bu durum, web sitesi sahiplerinin robots.txt dosyalarına eskimiş talimatlar kopyalayıp yapıştırıyor olmasından ve şirketlerin sürekli olarak yeni AI tarama botları piyasaya sürmesinden kaynaklanmaktadır. Bu botlar, web sitesi sahiplerinin robots.txt dosyalarını güncellemeleri gerektiğinde engellenmez.
Örnek olarak, bu siteler Anthropic'in artık kullandığımız iki botu engelliyor, ancak şirkete ait olan ve henüz engellenmemiş olan yeni tarama botunu bilmiyorlar. Bu durum, şu anda "robots.txt manzarasının ne kadar karmaşık olduğunun" bir örneğini gösteriyor.
Dark Visitors'in anonim operatörü, web taramacılar ve toplayıcılar - AI şirketleri tarafından işletilenler de dahil olmak üzere - sürekli değişen manzarasını takip eden ve web sitesi sahiplerine robots.txt dosyalarını güncellemeleri için yardım eden bir web sitesidir. Site, AI'nın içeriklerini toplamasını engellemek için çalışan daha fazla insanın yardımıyla büyük bir popülerlik artışına tanık olmuştur. "Ajanlar ekosistemi çok hızlı değişiyor, bu yüzden web sitesi sahiplerinin elle takip etmesi temelde imkansız," dedi ve ekledi: "Örnek olarak, Apple (Applebot-Extended) ve Meta (Meta-ExternalAgent) geçen ay ve geçen hafta yeni botlar ekledi."
tech.slashdot.org
Websites are Blocking the Wrong AI Scrapers
Create attached notes ...