Der GeForce-GPU-Riese sammelt täglich Videos mit einer Datenmenge von 80 Jahren für die AI-Schulung, um 'verschiedene Downstream-Anwendungen zu entsperren, die für Nvidia von entscheidender Bedeutung sind'.

Durchgesickerte Dokumente enthüllen Nvidias umfassende Verwendung von YouTube-Videos, Netflix und anderen Quellen, um ein AI-Modell für Omniverse, autonomes Fahren und digitale Avatare zu trainieren. Diese Daten-Scraping-Operation, detailliert von 404 Media, betraf ein internes Projekt namens Cosmos, bei dem Nvidia virtuelle PCs auf AWS verwendete, um innerhalb eines Monats über 30 Millionen URLs herunterzuladen. Mitarbeiter diskutierten über Urheberrechtsbedenken und fanden Wege, um direkte Verletzungen zu vermeiden, wie z.B. die Verwendung von Googles Cloud-Dienst, um das YouTube-8M-Dataset herunterzuladen. Nvidia behauptete, sich an Urheberrechtsgesetze zu halten, obwohl es einige Datensätze für kommerzielle Zwecke verwendete, die eigentlich nur für akademische Zwecke bestimmt waren. Nvidia ist nicht allein in dieser Praxis, auch OpenAI und Runway werden beschuldigt, geschütztes Material für AI-Training zu verwenden. Interessanterweise hat Nvidia Schwierigkeiten, Gameplay-Footage von seinem GeForce Now-Dienst zu verwenden, aufgrund von Ingenieur- und regulatorischen Problemen. AI-Modelle benötigen riesige Datenmengen, was Fragen über die Legalität der Verwendung von urheberrechtlich geschützten Materialien und personenbezogenen Daten aufwirft. In der EU regelt die DSGVO die Verwendung personenbezogener Daten streng, was für Unternehmen wie Nvidia potenzielle rechtliche Risiken birgt. Es gibt eine wachsende Notwendigkeit für Transparenz in der AI-Trainingspraxis, um Rechenschaftspflicht und Einhaltung von Rechtsstandards zu gewährleisten.

www.pcgamer.com

GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'

TheNote.app (macOS, iOS and Android apps)

2024-08-07

Create attached notes ...