EC2 G7e: 生成ビデオ推論のためのアーキテクチャ決定 ノート

EC2 G7e: 生成ビデオ推論のためのアーキテクチャ決定

このドキュメントは、金融環境における生成ビデオ推論のためのGPUインスタンス選択に関するアーキテクチャ上の決定を概説するものです。生成ビデオ推論は、時間的状態、GPUメモリ帯域幅、および厳格なレイテンシ要件により、画像推論と比較して独自の課題を提示します。モデルはかなりのVRAMを必要とし、クリップの長さと解像度はメモリ消費量を直接増加させます。NVIDIA L40S GPUを搭載した新しいEC2 G7eインスタンスは、48 GBのVRAMを提供し、CPUオフロードを排除することでこのニーズに対応します。この決定に影響を与える主要なアーキテクチャ上の要因には、トークンあたりのコスト対時間あたりのコスト、地域の利用可能性とデータ居住性規制、テナント分離要件、およびコールドスタート時間があります。G5、G6、およびG7eインスタンスのようなオプションを評価する際、G7eは、720p-1080pビデオで90秒未満のレイテンシSLOを持つ本番ワークロードにとって、好ましい選択肢として浮上します。Amazon Bedrockは、スパイクやG7eが利用できない地域でのマネージドフォールバックとして推奨されます。提案されたアーキテクチャは、G7eのオーケストレーションとコールドスタートを軽減するためのウォームプール戦略のためにKarpenterを備えたEKSを使用します。セキュリティとコンプライアンスは、テナント固有の暗号化、Pod IAMのためのIRSA、プロンプトインジェクション保護、および包括的な監査可能性によって対処されます。G7eの48 GB VRAMと改善されたメモリ帯域幅は、より高速な推論時間と厳格なレイテンシ要件への準拠を可能にする、重要な進歩を示しています。