Documenti trapelati rivelano l'ampio utilizzo di video di YouTube, Netflix e altre fonti da parte di Nvidia per addestrare un modello di IA per il suo Omniverse, veicoli autonomi e avatar digitali. Questa operazione di raccolta di dati, dettagliata da 404 Media, coinvolgeva un progetto interno chiamato Cosmos, in cui Nvidia utilizzava PC virtuali su AWS per scaricare oltre 30 milioni di URL in un mese. I dipendenti discutevano di preoccupazioni relative al copyright, trovando modi per evitare violazioni dirette, come utilizzare il servizio cloud di Google per scaricare il dataset YouTube-8M. Nvidia affermava di essere in conformità con le leggi sul copyright, nonostante utilizzasse alcuni set di dati destinati solo a scopi accademici per obiettivi commerciali. Nvidia non è sola in questa pratica, con OpenAI e Runway anch'esse accusate di utilizzare materiali protetti per l'addestramento dell'IA. È interessante notare che Nvidia ha affrontato sfide nell'utilizzo di riprese di gameplay provenienti dal suo servizio GeForce Now a causa di problemi ingegneristici e regolatori. I modelli di IA richiedono quantità enormi di dati, sollevando domande sulla legalità dell'utilizzo di materiali protetti e dati personali. Nell'UE, il GDPR regola strettamente l'utilizzo dei dati personali, ponendo potenziali rischi legali per aziende come Nvidia. C'è un crescente bisogno di trasparenza nelle pratiche di addestramento dell'IA per garantire responsabilità e aderenza agli standard legali.
www.pcgamer.com
GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'
Create attached notes ...