GeForce GPU-gigant heeft 80 jaar aan video's per dag gescraped voor AI-training om 'verschillende downstream-toepassingen cruciaal voor Nvidia te ontgrendelen'

Leaked documenten onthullen Nvidia's omvangrijke gebruik van YouTube-video's, Netflix en andere bronnen om een AI-model te trainen voor zijn Omniverse, autonome voertuigen en digitale avatars. Deze data-scrapingoperatie, gedetailleerd door 404 Media, betrof een interne project genaamd Cosmos, waarbij Nvidia virtuele PCs op AWS gebruikte om meer dan 30 miljoen URLs in een maand te downloaden. Werknemers bespraken auteursrechtelijke zorgen, methoden om directe overtredingen te voorkomen, zoals het gebruik van Google's cloudservice om de YouTube-8M-dataset te downloaden. Nvidia beweerde naleving van auteursrechtswetten, ondanks dat sommige datasets uitsluitend voor academische doeleinden waren bedoeld en commerciële doelen dienden. Nvidia is niet alleen in deze praktijk, want ook OpenAI en Runway worden ervan beschuldigd beschermd materiaal te gebruiken voor AI-training. Interessant genoeg heeft Nvidia problemen ondervonden bij het gebruik van gameplaybeelden van zijn GeForce Now-service vanwege technische en regelgevingsproblemen. AI-modellen vereisen immense hoeveelheden data, wat vragen oproept over de legaliteit van het gebruik van auteursrechtelijk beschermd materiaal en persoonlijke gegevens. In de EU regelt de GDPR strikt het gebruik van persoonlijke gegevens, wat potentiële juridische risico's kan opleveren voor bedrijven als Nvidia. Er is een groeiende behoefte aan transparantie in AI-trainingspraktijken om verantwoordelijkheid en naleving van juridische normen te garanderen.

www.pcgamer.com

GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'

TheNote.app (macOS, iOS and Android apps)

2024-08-07

Create attached notes ...