Documentos vazados revelam o uso extensivo de vídeos do YouTube, Netflix e outras fontes pela Nvidia para treinar um modelo de IA para seu Omniverse, veículos autônomos e avatares digitais. Esta operação de raspagem de dados, detalhada pela 404 Media, envolveu um projeto interno chamado Cosmos, onde a Nvidia usou PCs virtuais na AWS para baixar mais de 30 milhões de URLs em um mês. Os funcionários discutiram preocupações com direitos autorais, encontrando maneiras de evitar violações diretas, como usar o serviço de nuvem do Google para baixar o conjunto de dados YouTube-8M. A Nvidia alegou estar em conformidade com as leis de direitos autorais, apesar de usar alguns conjuntos de dados destinados apenas para fins acadêmicos para objetivos comerciais. A Nvidia não está sozinha nesta prática, com a OpenAI e a Runway também acusadas de usar material protegido para treinar IA. Curiosamente, a Nvidia enfrentou desafios ao usar imagens de gameplay de seu serviço GeForce Now devido a problemas de engenharia e regulamentação. Os modelos de IA requerem grandes quantidades de dados, levantando questões sobre a legalidade do uso de materiais protegidos por direitos autorais e dados pessoais. Na UE, o GDPR regula estritamente o uso de dados pessoais, apresentando riscos legais potenciais para empresas como a Nvidia. Há uma necessidade crescente de transparência nas práticas de treinamento de IA para garantir responsabilidade e aderência a padrões legais.
www.pcgamer.com
GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'
Create attached notes ...