Exécutez vos applications d'inférence d'IA sur Cloud Run avec des GPU NVIDIA

Google Cloud a introduit le support du GPU NVIDIA L4 pour Cloud Run, maintenant en préversion, permettant aux développeurs de réaliser des inférences d'IA en temps réel avec facilité. Cette mise à jour est particulièrement bénéfique pour les applications utilisant des modèles d'IA générative ouverte, comme Google's Gemma et Meta's Llama. Les principales caractéristiques comprennent une mise à l'échelle rapide, une mise à l'échelle à zéro et un tarif pay-per-use, rendant Cloud Run idéal pour gérer le trafic utilisateur variable et l'optimisation des coûts. Avec cette nouvelle capacité, les développeurs peuvent déployer des modèles légers pour des tâches comme des chatbots personnalisés et la résumé de documents, ou des applications plus exigeantes en ressources comme la reconnaissance d'images et la génération de 3D. Les GPU NVIDIA améliorent les performances en accélérant les processus d'inférence d'IA, offrant une faible latence et une scalabilité efficace, tandis que l'infrastructure de Cloud Run gère les complexités sous-jacentes. Les adoptants précoces, comme L'Oréal et Chaptr, ont loué l'intégration du GPU pour ses temps de démarrage faibles, sa scalabilité et sa facilité d'utilisation. Le support du GPU est actuellement disponible dans la région US-central1, avec des plans pour s'étendre à l'Europe et à l'Asie d'ici la fin de l'année. Pour déployer un service avec des GPU NVIDIA sur Cloud Run, les développeurs peuvent spécifier les exigences GPU via la ligne de commande ou la console Google Cloud. De plus, Cloud Run prend maintenant en charge les fonctions avec des attachements GPU, simplifiant les tâches d'inférence d'IA basées sur les événements.

cloud.google.com

Run your AI inference applications on Cloud Run with NVIDIA GPUs

TheNote.app (macOS, iOS and Android apps)

2024-08-25

Create attached notes ...