AIとMLの日本語ニュース

GeForce GPU 巨人である NVIDIA は、AI 訓練のために毎日 80 年分の動画をスクレイピングし、『NVIDIA にとってクリティカルなダウンストリーム・アプリケーションを解除』

リークされた文書によると、NvidiaはYouTubeビデオ、Netflix、その他のソースを使用してAIモデルを訓練していることが明らかになった。このデータスラッピング作業は、404 Mediaが詳細に述べたもので、Nvidiaが内部プロジェクト「Cosmos」で実施し、AWS上の仮想PCを使用して1ヶ月で30万以上のURLをダウンロードした。従業員は著作権に関する懸念を議論し、直接的な侵害を避ける方法を探し、Googleのクラウドサービスを使用してYouTube-8Mデータセットをダウンロードした。Nvidiaは著作権法に準拠しているとしているが、学術目的でのみ使用が許されているデータセットを商業的な目的に使用している。Nvidiaはこの慣行で孤立しているわけではなく、OpenAIやRunwayも保護された素材をAI訓練に使用しているという非難を受けている。興味深いことに、NvidiaはGeForce Nowサービスのゲームプレイ映像を使用することに技術的・規制上の問題に直面している。AIモデルは膨大な量のデータを必要としており、著作権保護された素材や個人データの使用の合法性に関する疑問が生じている。EUではGDPRが個人データの使用を厳しく規制しており、Nvidiaのような企業が法的なリスクにさらされている。AI訓練慣行の透明化が必要であり、責任を果たすために法的な標準に従う必要がある。
www.pcgamer.com
GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'
Create attached notes ...