GeForce GPU-gigant har været data-scraping i 80 år værd af videoer hver dag for AI-træning til 'låse op for forskellige downstream-applikationer kritiske for Nvidia'

Lækede dokumenter afslører Nvidia's omfattende brug af YouTube-videoer, Netflix og andre kilder til at træne en AI-model for dets Omniverse, selvstændige køretøjer og digitale avatarer. Denne data-skrapningsoperation, detaljeret af 404 Media, involverede et internt projekt med navnet Cosmos, hvor Nvidia brugte virtuelle PC'er på AWS til at downloade over 30 millioner URLs på en måned. Medarbejdere diskuterede ophavsretlige bekymringer, fandt måder at undgå direkte overtrædelser, såsom brug af Google's cloud-service til at downloade YouTube-8M-datasettet. Nvidia påstod overholdelse af ophavsretsligene, på trods af at de brugte nogle datasets, der kun var tiltænkt akademisk brug, til kommercielle formål. Nvidia er ikke alene i denne praksis, med OpenAI og Runway også anklaget for at bruge beskyttet materiale til AI-træning. Interessant nok har Nvidia mødt udfordringer med at bruge gameplay-optagelser fra sin GeForce Now-service på grund af ingeniør- og reguleringsproblemer. AI-modeller kræver enorme mængder data, hvilket rejser spørgsmål om legaliteten af at bruge ophavsretligt beskyttet materiale og persondata. I EU, regulerer GDPR persondata brug strengt, hvilket kan medføre juridiske risikoer for virksomheder som Nvidia. Der er en voksende behov for transparens i AI-træningspraksis for at sikre ansvarlighed og overholdelse af lovgivningen.

www.pcgamer.com

GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'

TheNote.app (macOS, iOS and Android apps)

2024-08-07

Create attached notes ...