EC2 G7e:生成式视频推理的架构决策” 笔记

EC2 G7e:生成式视频推理的架构决策”

本文档概述了金融环境中生成式视频推理的 GPU 实例选型架构决策。与图像推理相比,生成式视频推理因时序状态、GPU 内存带宽以及严格的延迟要求而面临独特挑战。模型需要大量显存,视频片段时长和分辨率会直接增加显存消耗。配备 NVIDIA L40S GPU 的新 EC2 G7e 实例提供 48 GB 显存,通过消除 CPU 卸载来满足这一需求。影响该决策的关键架构力量包括每 token 成本与每小时成本的权衡、区域可用性及数据驻留法规、租户隔离要求以及冷启动时间。在评估 G5、G6 和 G7e 实例等选项时,G7e 成为满足 720p-1080p 视频低于 90 秒延迟 SLO 的生产工作负载的首选。Amazon Bedrock 被推荐作为应对流量峰值以及在缺乏 G7e 可用区域的托管回退方案。 proposed 架构采用 EKS 配合 Karpenter 进行 G7e 编排,并实施暖池策略以缓解冷启动问题。安全与合规性通过租户特定加密、IRSA 用于 Pod IAM、提示注入防护以及全面的可审计性得到保障。G7e 的 48 GB 显存和增强的内存带宽标志着显著进步,能够实现更快的推理速度并满足严格的延迟要求。