Noticias de IA y ML en español

Los motores de búsqueda no de Google bloqueados para mostrar resultados recientes de Reddit

Las discusiones recientes en Reddit ya no aparecen en los resultados de búsqueda de motores de búsqueda no pertenecientes a Google. La ausencia se debe a actualizaciones en la Política de Contenido de Reddit que prohíben el rastreo de su sitio sin acordar con las reglas de Reddit, que prohíben utilizar contenido de Reddit para entrenar IA sin el consentimiento explícito de Reddit. Como informó 404 Media, al utilizar "site:reddit.com" en motores de búsqueda no pertenecientes a Google, como Bing, DuckDuckGo y Mojeek, se obtienen resultados mínimos o nulos de Reddit de la semana pasada. Ars Technica realizó búsquedas en estos y otros motores de búsqueda y puede confirmar los hallazgos. Por ejemplo, Brave a veces muestra unos pocos resultados de Reddit (ver aquí y aquí), pero no tantos como los que aparecen en Google al utilizar consultas idénticas. Un destacado es Kagi, que es un motor de búsqueda de pago que paga a Google por parte de su índice de búsqueda y todavía muestra resultados recientes de Reddit. Como señaló 404 Media, el protocolo de exclusión de robots (archivo robots.txt) de Reddit bloquea a los bots para que no puedan raspar el sitio. El protocolo también indica: "Reddit cree en una Internet abierta, pero no en el uso indebido del contenido público". Reddit ha aprobado a raspadores del Internet Archive y a algunas entidades enfocadas en la investigación.
favicon
arstechnica.com
Non-Google search engines blocked from showing recent Reddit results
Create attached notes ...