Durchgesickerte Dokumente enthüllen Nvidias umfassende Verwendung von YouTube-Videos, Netflix und anderen Quellen, um ein AI-Modell für Omniverse, autonomes Fahren und digitale Avatare zu trainieren. Diese Daten-Scraping-Operation, detailliert von 404 Media, betraf ein internes Projekt namens Cosmos, bei dem Nvidia virtuelle PCs auf AWS verwendete, um innerhalb eines Monats über 30 Millionen URLs herunterzuladen. Mitarbeiter diskutierten über Urheberrechtsbedenken und fanden Wege, um direkte Verletzungen zu vermeiden, wie z.B. die Verwendung von Googles Cloud-Dienst, um das YouTube-8M-Dataset herunterzuladen. Nvidia behauptete, sich an Urheberrechtsgesetze zu halten, obwohl es einige Datensätze für kommerzielle Zwecke verwendete, die eigentlich nur für akademische Zwecke bestimmt waren. Nvidia ist nicht allein in dieser Praxis, auch OpenAI und Runway werden beschuldigt, geschütztes Material für AI-Training zu verwenden. Interessanterweise hat Nvidia Schwierigkeiten, Gameplay-Footage von seinem GeForce Now-Dienst zu verwenden, aufgrund von Ingenieur- und regulatorischen Problemen. AI-Modelle benötigen riesige Datenmengen, was Fragen über die Legalität der Verwendung von urheberrechtlich geschützten Materialien und personenbezogenen Daten aufwirft. In der EU regelt die DSGVO die Verwendung personenbezogener Daten streng, was für Unternehmen wie Nvidia potenzielle rechtliche Risiken birgt. Es gibt eine wachsende Notwendigkeit für Transparenz in der AI-Trainingspraxis, um Rechenschaftspflicht und Einhaltung von Rechtsstandards zu gewährleisten.
www.pcgamer.com
GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'
Create attached notes ...