Vuosittain vuotaneet dokumentit paljastavat Nvidian laajan käytön YouTube-videoiden, Netflixin ja muiden lähteiden hyödyntämiseksi kouluttaessaan tekoälymallia Omniverseen, autonomisiin ajoneuvoihin ja digitaalisiin hahmoihin. Tämä tiedon kaivuutehtävä, jota 404 Media on yksityiskohtaisesti kuvannut, liittyi sisäiseen projektiin nimeltä Cosmos, jossa Nvidia käytti AWS:llä virtuaalisia PC:itä lataamaan yli 30 miljoonaa URL-osoitetta kuukaudessa. Työntekijät keskustelivat tekijänoikeusongelmista ja etsivät keinoja välttää suoria rikkomuksia, kuten käyttämällä Google Cloud -palvelua lataamaan YouTube-8M-dataset. Nvidia väitti noudattavansa tekijänoikeuslakeja, vaikka käytti joitakin aitojen tieteellisten tarkoitusten dataseteistä kaupallisiin tarkoituksiin. Nvidia ei ole aito tässä käytännössä, sillä OpenAI ja Runway on myös syytetty suojatun materiaalin käytöstä tekoälyn koulutuksessa. Mielenkiintoisesti Nvidia on kohdannut haasteita käyttäessään pelikuvamateriaalia GeForce Now -palvelustaan teknisten ja sääntelyongelmien vuoksi. Tekoälymallit vaativat valtavat määrät dataa, mikä herättää kysymyksiä suojatun materiaalin ja henkilötiedon käytön laillisuudesta. EU:ssa GDPR säätelee henkilötiedon käyttöä tiukasti, mikä asettaa potentielleja oikeusriskejä yrityksille kuten Nvidia. On kasvava tarve avoimuudelle tekoälyn koulutusmenetelmissä, jotta voidaan varmistaa vastuullisuus ja oikeudellisten standardien noudattaminen.
www.pcgamer.com
GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'
Create attached notes ...