클라우드 런에서 NVIDIA GPU를 사용하여 AI 추론 애플리케이션 실행

Google Cloud는 현재 프리뷰 버전으로 제공되는 Cloud Run에 NVIDIA L4 GPU 지원을 도입하여 개발자가 실시간 AI 추론을 쉽게 수행할 수 있도록 지원합니다. 이 업그레이드는 Google의 Gemma 및 Meta의 Llama와 같은 개방형 생성 AI 모델을 활용하는 애플리케이션에 특히 유용합니다. 주요 기능으로는 빠른 자동 확장, 스케일 투 제로, 사용량 기반 요금제 등이 있으며, Cloud Run은 다양한 사용자 트래픽을 처리하고 비용을 최적화하는 데 이상적입니다. 이 새로운 기능을 통해 개발자는 맞춤형 챗봇 및 문서 요약과 같은 작업이나 이미지 인식 및 3D 렌더링과 같은 컴퓨팅 집약적인 애플리케이션을 위한 경량 모델을 배포할 수 있습니다. NVIDIA GPU는 AI 추론 프로세스의 속도를 높여 성능을 향상시키고, 짧은 지연 시간과 효율적인 확장을 제공하며, Cloud Run의 인프라가 근본적인 복잡성을 관리합니다. 로레알과 Chaptr과 같은 얼리어답터들은 GPU 통합의 짧은 시작 시간, 확장성, 사용 편의성에 대해 찬사를 보냈습니다. GPU 지원은 현재 미국 중부1 지역에서 제공되고 있으며, 연말까지 유럽과 아시아로 확대될 예정입니다. 개발자는 명령줄 또는 Google Cloud 콘솔을 통해 GPU 요구 사항을 지정하여 Cloud Run에 NVIDIA GPU가 포함된 서비스를 배포할 수 있습니다. 또한, 이제 Cloud Run은 GPU가 첨부된 기능을 지원하여 이벤트 기반 AI 추론 작업을 간소화합니다.

cloud.google.com

Run your AI inference applications on Cloud Run with NVIDIA GPUs

TheNote.app (macOS, iOS and Android apps)

2024-08-25

Create attached notes ...