GeForce GPU-gigant har skrapet data fra 80 års verdt av videoer hver dag for AI-trening for å 'låse opp ulike nedstrømsapplikasjoner kritiske for Nvidia'
Leaked documents avslører Nvidia's omfattende bruk av YouTube-videoer, Netflix og andre kilder for å trene et AI-modell for sitt Omniverse, selvstyrte kjøretøy og digitale avatarer. Dette data-skraping-prosjektet, detaljert av 404 Media, involverte et internt prosjekt kalt Cosmos, hvor Nvidia brukte virtuelle PC-er på AWS til å laste ned over 30 millioner URL-adresser i løpet av en måned. Ansatte diskuterte opphavsrettsbekymringer, og fant måter å unngå direkte overtredelser, som å bruke Google's skytjeneste til å laste ned YouTube-8M-datasettet. Nvidia hevdet at de var i overenstemmelse med opphavsrettslovene, til tross for at de brukte noen datasett som bare var ment for akademisk bruk for kommersielle formål. Nvidia er ikke alene i denne praksisen, med OpenAI og Runway også anklaget for å bruke beskyttet materiale for AI-trening. Det er interessant at Nvidia har møtt utfordringer med å bruke spill-opptak fra sitt GeForce Now-tjeneste på grunn av ingeniør- og reguleringsproblemer. AI-modellene krever store mengder data, noe fører til spørsmål om legaliteten av å bruke opphavsrettsbeskyttet materiale og persondata. I EU, regulerer GDPR persondata-bruk strengt, noe kan utgjøre potensielle juridiske risikoer for selskaper som Nvidia. Det er en voksende behov for åpenhet i AI-treningpraksis for å sikre ansvarlighet og overholdelse av juridiske standarder.