Google Cloud ha introdotto il supporto per GPU NVIDIA L4 per Cloud Run, ora in anteprima, consentendo ai developer di eseguire inferenze AI in tempo reale con facilità. Questo aggiornamento è particolarmente utile per le applicazioni che utilizzano modelli di intelligenza artificiale generativa aperti, come Google's Gemma e Meta's Llama. Le caratteristiche chiave includono scalabilità rapida, scalabilità a zero e prezzo per uso, rendendo Cloud Run ideale per gestire il traffico utente variabile e l'ottimizzazione dei costi.
Con questa nuova capacità, i developer possono distribuire modelli leggeri per compiti come chatbot personalizzati e riassunti di documenti, o applicazioni più intensive come il riconoscimento di immagini e la rendering 3D. Le GPU NVIDIA migliorano le prestazioni accelerando i processi di inferenza AI, offrendo bassa latenza e scalabilità efficiente, con l'infrastruttura di Cloud Run che gestisce le complessità sottostanti.
I primi adottanti, come L’Oreal e Chaptr, hanno elogiato l'integrazione GPU per i suoi tempi di avvio bassi, scalabilità e facilità d'uso. Il supporto GPU è attualmente disponibile nella regione US-central1, con piani per espandere in Europa e Asia entro la fine dell'anno.
Per distribuire un servizio con GPU NVIDIA su Cloud Run, i developer possono specificare i requisiti GPU tramite riga di comando o la console di Google Cloud. Inoltre, Cloud Run ora supporta funzioni con allegamenti GPU, semplificando le attività di inferenza AI basate su eventi.
cloud.google.com
Run your AI inference applications on Cloud Run with NVIDIA GPUs
Create attached notes ...