AIとMLの日本語ニュース

GeForce GPU 巨人である NVIDIA は、AI 訓練のために毎日 80 年分の動画をスクレイピングし、『NVIDIA にとってクリティカルなダウンストリーム・アプリケーションを解除』

リークされた文書によると、NvidiaはYouTubeビデオ、Netflix、その他のソースを使用してAIモデルを訓練していることが明らかになった。このデータスラッピング作業は、404 Mediaが詳細に述べたもので、Nvidiaが内部プロジェクト「Cosmos」で実施し、AWS上の仮想PCを使用して1ヶ月で30万以上のURLをダウンロードした。従業員は著作権に関する懸念を議論し、直接的な侵害を避ける方法を探し、Googleのクラウドサービスを使用してYouTube-8Mデータセットをダウンロードした。Nvidiaは著作権法に準拠しているとしているが、学術目的でのみ使用が許されているデータセットを商業的な目的に使用している。Nvidiaはこの慣行で孤立しているわけではなく、OpenAIやRunwayも保護された素材をAI訓練に使用しているという非難を受けている。興味深いことに、NvidiaはGeForce Nowサービスのゲームプレイ映像を使用することに技術的・規制上の問題に直面している。AIモデルは膨大な量のデータを必要としており、著作権保護された素材や個人データの使用の合法性に関する疑問が生じている。EUではGDPRが個人データの使用を厳しく規制しており、Nvidiaのような企業が法的なリスクにさらされている。AI訓練慣行の透明化が必要であり、責任を果たすために法的な標準に従う必要がある。
favicon
pcgamer.com
GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'
Create attached notes ...