LLMs から画像生成：AI ハイパーコンピューターで推論ワークロードを加速

Google Cloudは、AIハイパーコンピューターを通じてAI推論の先駆けとなっており、ジェネレーティブAIアプリケーションのスケーリングに不可欠です。同社は、推論能力を大幅に向上させた、新しいTensor Processing Unit（TPU）であるIronwoodを導入しました。JetStream推論エンジンには、新しいパフォーマンス最適化が追加され、パスウェイを使用した超低レイテンシーのマルチホスト、分散サーブリングを実現しています。MaxDiffusion、潜在拡散モデルのリファレンス実装は、TPU上でのコンピュート・ヘビーイメージ生成ワークロードでのスタンドアウトパフォーマンスを実現し、現在はFlux、最大のテキスト・イメージ生成モデルの一つをサポートしています。MLPerf Inference v5.0の最新パフォーマンス結果は、Google CloudのA3 Ultra VMとA4 VMの推論におけるパワーと汎用性を示しています。Google Cloudは、LLMのTPU上でのサーブリングの選択肢を提供し、JetStreamをさらに強化し、TPU上でのvLLMサポートを追加しています。JetStreamは、オープンソースのスループット・メモリー最適化推論エンジンであり、低レイテンシーの高スループット推論とコミュニティサポートを提供しています。Google CloudのAIハイパーコンピューターは、統合ソフトウェアフレームワークとハードウェアアクセラレータを通じてAIブレークスルーを実現しています。OsmosやJetBrainsのような顧客は、Google CloudのTPUインスタンスとGPUインスタンスを使用して、スケーリングでの推論コスト効率を最大化しています。

cloud.google.com

From LLMs to image generation: Accelerate inference workloads with AI Hypercomputer

bsky.app

AI and ML News on Bluesky @ai-news.at.thenote.app

RSS Hunter

2025-05-09