在 Cloud Run 上使用 NVIDIA GPUs 运行您的 AI 推断应用程序

Google Cloud 已经推出了 NVIDIA L4 GPU 对 Cloud Run 的支持，现在处于预览阶段，使开发者能够轻松地进行实时 AI 推断。这个升级对使用开放式生成性 AI 模型的应用程序特别有益，如 Google 的 Gemma 和 Meta 的 Llama。主要特点包括快速自动缩放、缩放到零和按使用付费定价，使 Cloud Run 成为处理可变用户流量和成本优化的理想选择。借助这个新功能，开发者可以部署轻量级模型来执行任务，如自定义聊天机器人和文档摘要，也可以部署计算密集型应用程序，如图像识别和 3D 渲染。NVIDIA GPUs 通过加速 AI 推断过程来提高性能，提供低延迟和高效缩放，而 Cloud Run 的基础设施管理着底层复杂性。早期采用者，如 L’Oreal 和 Chaptr，对 GPU 集成的低启动时间、可扩展性和易用性表示赞赏。GPU 支持目前在 US-central1 区域可用，计划在年底扩展到欧洲和亚洲。要在 Cloud Run 上部署带 NVIDIA GPUs 的服务，开发者可以通过命令行或 Google Cloud 控制台指定 GPU 要求。此外，Cloud Run 现在还支持带 GPU 附加的函数，简化了基于事件的 AI 推断任务。

cloud.google.com

Run your AI inference applications on Cloud Run with NVIDIA GPUs

TheNote.app (macOS, iOS and Android apps)

2024-08-25

Create attached notes ...