Сообщество RSS DEV
Подписаться
EC2 G7e: Архитектурное решение для генеративного видеовывода
Этот документ описывает архитектурное решение по выбору GPU-инстансов для инференса генеративного видео в финансовых средах. Инференс генеративного видео представляет уникальные проблемы по сравнению с инференсом изображений из-за временного состояния, пропускной способности памяти GPU и строгих требований к задержке. Моделям требуется значительный объем VRAM, причем продолжительность клипа и разрешение напрямую увеличивают потребление памяти. Новые инстансы EC2 G7e с GPU NVIDIA L40S, предлагающие 48 ГБ VRAM, удовлетворяют эту потребность, исключая выгрузку на CPU. Ключевые архитектурные факторы, влияющие на это решение, включают стоимость за токен по сравнению с почасовой стоимостью, региональную доступность и правила хранения данных, требования к изоляции арендаторов и время холодного старта. При оценке таких вариантов, как инстансы G5, G6 и G7e, G7e становится предпочтительным выбором для производственных нагрузок с целевыми показателями уровня обслуживания (SLO) задержки менее 90 секунд для видео 720p-1080p. Amazon Bedrock рекомендуется в качестве управляемого резервного решения для пиковых нагрузок и регионов, где G7e недоступны. Предлагаемая архитектура использует EKS с Karpenter для оркестрации G7e и стратегию "теплого пула" для смягчения холодных стартов. Безопасность и соответствие требованиям обеспечиваются шифрованием для каждого арендатора, IRSA для IAM подов, защитой от инъекций промптов и всесторонней аудируемостью. 48 ГБ VRAM и улучшенная пропускная способность памяти G7e знаменуют собой значительный прогресс, обеспечивая более быстрое время инференса и соответствие строгим требованиям к задержке.