Leaked documents avslører Nvidia's omfattende bruk av YouTube-videoer, Netflix og andre kilder for å trene et AI-modell for sitt Omniverse, selvstyrte kjøretøy og digitale avatarer. Dette data-skraping-prosjektet, detaljert av 404 Media, involverte et internt prosjekt kalt Cosmos, hvor Nvidia brukte virtuelle PC-er på AWS til å laste ned over 30 millioner URL-adresser i løpet av en måned. Ansatte diskuterte opphavsrettsbekymringer, og fant måter å unngå direkte overtredelser, som å bruke Google's skytjeneste til å laste ned YouTube-8M-datasettet. Nvidia hevdet at de var i overenstemmelse med opphavsrettslovene, til tross for at de brukte noen datasett som bare var ment for akademisk bruk for kommersielle formål. Nvidia er ikke alene i denne praksisen, med OpenAI og Runway også anklaget for å bruke beskyttet materiale for AI-trening. Det er interessant at Nvidia har møtt utfordringer med å bruke spill-opptak fra sitt GeForce Now-tjeneste på grunn av ingeniør- og reguleringsproblemer. AI-modellene krever store mengder data, noe fører til spørsmål om legaliteten av å bruke opphavsrettsbeskyttet materiale og persondata. I EU, regulerer GDPR persondata-bruk strengt, noe kan utgjøre potensielle juridiske risikoer for selskaper som Nvidia. Det er en voksende behov for åpenhet i AI-treningpraksis for å sikre ansvarlighet og overholdelse av juridiske standarder.
www.pcgamer.com
GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'
Create attached notes ...