Noticias de IA y ML en español

Los sitios web están bloqueando a los scrapeadores de IA equivocados

Un lector anónimo comparte un informe: Cientos de sitios web que intentan bloquear a la empresa de IA Anthropic de recopilar contenido están bloqueando los bots equivocados, aparentemente porque están copiando y pegando instrucciones obsoletas en sus archivos robots.txt, y porque las empresas están lanzando constantemente nuevos bots de recopilación con nombres diferentes que solo serán bloqueados si los propietarios de sitios web actualizan sus archivos robots.txt. En particular, estos sitios están bloqueando dos bots que ya no son utilizados por la empresa, mientras que dejan sin bloquear el bot de recopilación real (y nuevo) de Anthropic. Esto es un ejemplo de "cuánto es el caos en el paisaje de robots.txt en este momento", según el operador anónimo de Dark Visitors. Dark Visitors es un sitio web que rastrea el cambiante panorama de los bots de recopilación y scrapers, muchos de ellos operados por empresas de IA, y que ayuda a los propietarios de sitios web a actualizar regularmente sus archivos robots.txt para prevenir tipos específicos de recopilación. El sitio ha visto un gran aumento en la popularidad mientras más personas intentan bloquear a la IA de recopilar su trabajo. "El ecosistema de agentes está cambiando rápidamente, por lo que es básicamente imposible para los propietarios de sitios web mantenerse al día manualmente. Por ejemplo, Apple (Applebot-Extended) y Meta (Meta-ExternalAgent) acaban de agregar nuevos bots el mes pasado y la semana pasada, respectivamente", agregó.
tech.slashdot.org
Websites are Blocking the Wrong AI Scrapers
Create attached notes ...