Гигант GPU GeForce собирал данные из видео за 80 лет каждый день для обучения ИИ, чтобы 'открыть разнообразные приложения, критически важные для Nvidia'

Утечка документов открывает информацию о широком использовании Nvidia видеороликов YouTube, Netflix и других источников для обучения модели ИИ для Omniverse, автономных транспортных средств и цифровых аватаров. Эта операция по сбору данных, подробно описанная 404 Media, связана с внутренним проектом под названием Cosmos, где Nvidia использовала виртуальные ПК на AWS для скачивания более 30 миллионов URL за месяц. Сотрудники обсуждали вопросы о нарушении авторских прав, разрабатывая способы избежать прямых нарушений, например, используя облачную службу Google для скачивания набора данных YouTube-8M. Nvidia утверждала о соответствии авторским законам, несмотря на то, что использовала некоторые наборы данных, предназначенные только для академических целей, для коммерческих целей. Nvidia не одинока в этом подходе, с OpenAI и Runway также обвиняются в использовании защищенных материалов для обучения ИИ. Интересно, что Nvidia столкнулась с трудностями при использовании геймплея из сервиса GeForce Now из-за инженерных и регуляторных проблем. Модели ИИ требуют огромных объемов данных, поднимая вопросы о законности использования защищенных материалов и личных данных. В ЕС GDPR строго регулирует использование личных данных, создавая потенциальные юридические риски для компаний, таких как Nvidia. Возрастает потребность в прозрачности практик обучения ИИ, чтобы обеспечить ответственность и соблюдение юридических стандартов.

www.pcgamer.com

GeForce GPU giant has been data scraping 80 years' worth of videos every day for AI training to 'unlock various downstream applications critical to Nvidia'

TheNote.app (macOS, iOS and Android apps)

2024-08-07

Create attached notes ...