Läckta dokument avslöjar Nvidias omfattande användning av YouTube-videos, Netflix och andra källor för att träna en AI-modell för sin Omniverse, autonoma fordon och digitala avatarer. Denna data-skräppningsoperation, detaljerad av 404 Media, involverade ett internt projekt med namnet Cosmos, där Nvidia använde virtuella PC:s på AWS för att ladda ner över 30 miljoner URL:er på en månad. Anställda diskuterade upphovsrättsfrågor, fann sätt att undvika direkta överträdelser, såsom att använda Googles molntjänst för att ladda ner YouTube-8M-datasetet. Nvidia påstod att de var i överensstämmelse med upphovsrättslagar, trots att de använde vissa dataset som avsett endast för akademiska ändamål för kommersiella mål. Nvidia är inte ensam i denna praktik, med OpenAI och Runway som också anklagats för att använda skyddat material för AI-träning. Intressant nog har Nvidia stött på svårigheter med att använda gameplay-footage från sin GeForce Now-tjänst på grund av tekniska och regulatoriska problem. AI-modeller kräver stora mängder data, vilket väcker frågor om legaliteten av att använda upphovsrättsskyddade material och personuppgifter. I EU regleras personuppgifter strikt av GDPR, vilket innebär potentiella juridiska risker för företag som Nvidia. Det finns en växande behov av transparens i AI-träningspraktiker för att säkerställa ansvarighet och efterlevnad av juridiska standarder.
www.pcgamer.com
GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'
Create attached notes ...