O Google Cloud introduziu o suporte para GPU NVIDIA L4 para Cloud Run, agora em pré-visualização, permitindo que os desenvolvedores realizem inferência de IA em tempo real com facilidade. Esta atualização é particularmente benéfica para aplicativos que utilizam modelos de IA geradores abertos, como o Gemma da Google e o Llama da Meta. Os principais recursos incluem escalabilidade rápida, escalabilidade para zero e preços por uso, tornando o Cloud Run ideal para lidar com tráfego de usuário variável e otimização de custos.
Com essa nova capacidade, os desenvolvedores podem implantar modelos leves para tarefas como chatbots personalizados e resumos de documentos, ou aplicativos mais intensivos em computação, como reconhecimento de imagens e renderização 3D. Os GPUs NVIDIA melhoram o desempenho acelerando processos de inferência de IA, oferecendo baixa latência e escalabilidade eficiente, com a infraestrutura do Cloud Run gerenciando as complexidades subjacentes.
Adotantes precoces, como L’Oreal e Chaptr, elogiaram a integração de GPU por seus tempos de inicialização baixos, escalabilidade e facilidade de uso. O suporte a GPU está atualmente disponível na região US-central1, com planos de expansão para a Europa e Ásia até o final do ano.
Para implantar um serviço com GPUs NVIDIA no Cloud Run, os desenvolvedores podem especificar os requisitos de GPU via linha de comando ou console do Google Cloud. Além disso, o Cloud Run agora suporta funções com anexos de GPU, simplificando tarefas de inferência de IA baseadas em eventos.
cloud.google.com
Run your AI inference applications on Cloud Run with NVIDIA GPUs
Create attached notes ...