Documentos filtrados revelan el uso extensivo de Nvidia de videos de YouTube, Netflix y otras fuentes para entrenar un modelo de IA para su Omniverse, vehículos autónomos y avatares digitales. Esta operación de extracción de datos, detallada por 404 Media, involucró un proyecto interno llamado Cosmos, donde Nvidia utilizó PCs virtuales en AWS para descargar más de 30 millones de URLs en un mes. Los empleados discutieron sobre preocupaciones de copyright, encontrando formas de evitar violaciones directas, como utilizar el servicio en la nube de Google para descargar el conjunto de datos YouTube-8M. Nvidia afirmó cumplir con las leyes de copyright, a pesar de utilizar algunos conjuntos de datos destinados solo para propósitos académicos con fines comerciales. Nvidia no está solo en esta práctica, con OpenAI y Runway también acusados de utilizar material protegido para el entrenamiento de IA. Curiosamente, Nvidia ha enfrentado desafíos al utilizar footage de gameplay de su servicio GeForce Now debido a problemas de ingeniería y regulación. Los modelos de IA requieren grandes cantidades de datos, planteando preguntas sobre la legalidad de utilizar materiales con copyright y datos personales. En la UE, el GDPR regula estrictamente el uso de datos personales, lo que plantea riesgos legales potenciales para empresas como Nvidia. Existe una creciente necesidad de transparencia en las prácticas de entrenamiento de IA para garantizar la responsabilidad y el cumplimiento de los estándares legales.
www.pcgamer.com
GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'
Create attached notes ...