Lækede dokumenter afslører Nvidia's omfattende brug af YouTube-videoer, Netflix og andre kilder til at træne en AI-model for dets Omniverse, selvstændige køretøjer og digitale avatarer. Denne data-skrapningsoperation, detaljeret af 404 Media, involverede et internt projekt med navnet Cosmos, hvor Nvidia brugte virtuelle PC'er på AWS til at downloade over 30 millioner URLs på en måned. Medarbejdere diskuterede ophavsretlige bekymringer, fandt måder at undgå direkte overtrædelser, såsom brug af Google's cloud-service til at downloade YouTube-8M-datasettet. Nvidia påstod overholdelse af ophavsretsligene, på trods af at de brugte nogle datasets, der kun var tiltænkt akademisk brug, til kommercielle formål. Nvidia er ikke alene i denne praksis, med OpenAI og Runway også anklaget for at bruge beskyttet materiale til AI-træning. Interessant nok har Nvidia mødt udfordringer med at bruge gameplay-optagelser fra sin GeForce Now-service på grund af ingeniør- og reguleringsproblemer. AI-modeller kræver enorme mængder data, hvilket rejser spørgsmål om legaliteten af at bruge ophavsretligt beskyttet materiale og persondata. I EU, regulerer GDPR persondata brug strengt, hvilket kan medføre juridiske risikoer for virksomheder som Nvidia. Der er en voksende behov for transparens i AI-træningspraksis for at sikre ansvarlighed og overholdelse af lovgivningen.
www.pcgamer.com
GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'
Create attached notes ...