泄露的文件显示,Nvidia 广泛使用 YouTube 视频、Netflix 和其他来源来训练 Omniverse、自动驾驶汽车和数字化人像的 AI 模型。根据 404 Media 的报道,这个名为 Cosmos 的内部项目涉及 Nvidia 使用 AWS 上的虚拟 PC 下载了超过 3000 万个 URL 仅在一个月内。员工讨论了版权问题,寻找避免直接侵权的方法,例如使用 Google 的云服务下载 YouTube-8M 数据集。Nvidia 声称遵守版权法律,尽管使用了一些仅供学术目的的数据集以实现商业目标。Nvidia 并不是唯一实践这种做法的公司,OpenAI 和 Runway 也被指控使用受保护的材料来训练 AI。有趣的是,Nvidia 在使用 GeForce Now 服务中的游戏镜头遇到了工程和监管问题。AI 模型需要大量数据,这引发了关于使用受版权保护的材料和个人数据的合法性问题。在欧盟,GDPR 严格规定了个人数据的使用,可能会对 Nvidia 等公司带来法律风险。因此,需要在 AI 训练实践中提高透明度,以确保责任承担和遵守法律标准。
www.pcgamer.com
GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'
Create attached notes ...