RSS Cloud Blog

Von LLMs bis zur Bildgenerierung: Beschleunigen Sie Inferenz-Workloads mit dem AI-Hypercomputer

Google Cloud führt den Weg in der AI-Schlussfolgerung mit seinem Hypercomputer, der für die Skalierung generativer AI-Anwendungen entscheidend ist. Das Unternehmen hat bedeutende Aktualisierungen seiner Schlussfolgerungsfähigkeiten vorgenommen, einschließlich der Einführung von Ironwood, einer neuen Tensor-Verarbeitungseinheit (TPU) für Schlussfolgerung. Der JetStream-Schlussfolgerungsmotor von Google wurde mit neuen Leistungs-Optimierungen, einschließlich Pathways für ultra-niedrige Latenz-Multi-Host, disaggregierte Bedienung, erweitert. MaxDiffusion, eine Referenzimplementierung von latenten Diffusionsmodellen, liefert herausragende Leistung auf TPUs für rechenintensive Bildgenerierungs-Workloads und unterstützt jetzt Flux, eines der größten Text-zu-Bild-Generierungsmodelle. Die neuesten Leistungsergebnisse von MLPerf Inference v5.0 demonstrieren die Macht und Vielseitigkeit von Google Clouds A3 Ultra- und A4-VMs für Schlussfolgerung. Google Cloud bietet mehr Wahlmöglichkeiten bei der Bedienung von LLMs auf TPU, indem es JetStream weiter verbessert und vLLM-Unterstützung für TPU hinzufügt. JetStream ist ein Open-Source-, Durchsatz- und Speicheroptimierter Schlussfolgerungsmotor, der herausragende Preis-Leistung mit niedriger Latenz, hoher Durchsatz-Schlussfolgerung und Community-Unterstützung bietet. Google Clouds AI-Hypercomputer ermöglicht AI-Durchbrüche mit integrierten Software-Frameworks und Hardware-Beschleunigern. Kunden wie Osmos und JetBrains nutzen Google Clouds TPUs und GPU-Instanzen, um die Kosten-Effizienz für Schlussfolgerung im großen Stil zu maximieren.
favicon
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
favicon
cloud.google.com
From LLMs to image generation: Accelerate inference workloads with AI Hypercomputer