RSS DEV 커뮤니티
팔로우
EC2 G7e: 생성형 비디오 추론을 위한 아키텍처 결정
이 문서는 금융 환경에서 생성 비디오 추론을 위한 GPU 인스턴스 선택에 관한 아키텍처 결정을 개괄합니다. 생성 비디오 추론은 시간적 상태, GPU 메모리 대역폭 및 엄격한 지연 시간 요구 사항으로 인해 이미지 추론에 비해 고유한 과제를 제시합니다. 모델은 상당한 VRAM을 필요로 하며, 클립 지속 시간과 해상도는 메모리 소비를 직접적으로 증가시킵니다. NVIDIA L40S GPU를 탑재한 새로운 EC2 G7e 인스턴스는 48GB의 VRAM을 제공하여 CPU 오프로딩을 제거함으로써 이러한 요구를 충족합니다. 이 결정에 영향을 미치는 주요 아키텍처 요인에는 토큰당 비용 대 시간당 비용, 지역 가용성 및 데이터 상주 규정, 테넌트 격리 요구 사항, 콜드 스타트 시간이 포함됩니다. G5, G6 및 G7e 인스턴스와 같은 옵션을 평가할 때 G7e는 720p-1080p 비디오에 대해 90초 미만의 지연 시간 SLO를 갖는 프로덕션 워크로드에 선호되는 선택으로 부상합니다. Amazon Bedrock은 G7e 가용성이 부족한 스파이크 및 지역에 대한 관리형 대체 솔루션으로 권장됩니다. 제안된 아키텍처는 G7e 오케스트레이션 및 콜드 스타트 완화를 위한 웜 풀 전략을 위해 Karpenter를 사용하는 EKS를 사용합니다. 보안 및 규정 준수는 테넌트별 암호화, Pod IAM을 위한 IRSA, 프롬프트 주입 보호 및 포괄적인 감사 가능성을 통해 해결됩니다. G7e의 48GB VRAM과 향상된 메모리 대역폭은 중요한 발전을 나타내며, 더 빠른 추론 시간과 엄격한 지연 시간 요구 사항 준수를 가능하게 합니다.