GeForce GPU巨头每天都在数据采集80年份的视频,以便AI培训'解锁Nvidia对各种下游应用至关重要'
泄露的文件显示,Nvidia 广泛使用 YouTube 视频、Netflix 和其他来源来训练 Omniverse、自动驾驶汽车和数字化人像的 AI 模型。根据 404 Media 的报道,这个名为 Cosmos 的内部项目涉及 Nvidia 使用 AWS 上的虚拟 PC 下载了超过 3000 万个 URL 仅在一个月内。员工讨论了版权问题,寻找避免直接侵权的方法,例如使用 Google 的云服务下载 YouTube-8M 数据集。Nvidia 声称遵守版权法律,尽管使用了一些仅供学术目的的数据集以实现商业目标。Nvidia 并不是唯一实践这种做法的公司,OpenAI 和 Runway 也被指控使用受保护的材料来训练 AI。有趣的是,Nvidia 在使用 GeForce Now 服务中的游戏镜头遇到了工程和监管问题。AI 模型需要大量数据,这引发了关于使用受版权保护的材料和个人数据的合法性问题。在欧盟,GDPR 严格规定了个人数据的使用,可能会对 Nvidia 等公司带来法律风险。因此,需要在 AI 训练实践中提高透明度,以确保责任承担和遵守法律标准。