在 Cloud Run 上使用 NVIDIA GPUs 运行您的 AI 推断应用程序
Google Cloud 已经推出了 NVIDIA L4 GPU 对 Cloud Run 的支持,现在处于预览阶段,使开发者能够轻松地进行实时 AI 推断。这个升级对使用开放式生成性 AI 模型的应用程序特别有益,如 Google 的 Gemma 和 Meta 的 Llama。主要特点包括快速自动缩放、缩放到零和按使用付费定价,使 Cloud Run 成为处理可变用户流量和成本优化的理想选择。借助这个新功能,开发者可以部署轻量级模型来执行任务,如自定义聊天机器人和文档摘要,也可以部署计算密集型应用程序,如图像识别和 3D 渲染。NVIDIA GPUs 通过加速 AI 推断过程来提高性能,提供低延迟和高效缩放,而 Cloud Run 的基础设施管理着底层复杂性。早期采用者,如 L’Oreal 和 Chaptr,对 GPU 集成的低启动时间、可扩展性和易用性表示赞赏。GPU 支持目前在 US-central1 区域可用,计划在年底扩展到欧洲和亚洲。要在 Cloud Run 上部署带 NVIDIA GPUs 的服务,开发者可以通过命令行或 Google Cloud 控制台指定 GPU 要求。此外,Cloud Run 现在还支持带 GPU 附加的函数,简化了基于事件的 AI 推断任务。