От языковых моделей до генерации изображений: Ускорьте рабочие нагрузки вывода с помощью гиперкомпьютера ИИ

Google Cloud является лидером в области вывода по искусственному интеллекту (AI) с помощью своего гиперкомпьютера AI, что критически важно для масштабирования приложений генеративного ИИ. Компания внесла значительные обновления в свои возможности вывода, включая представление Ironwood, нового блока обработки тензоров (TPU), предназначенного для вывода. Двигатель вывода JetStream был улучшен с новыми оптимизациями производительности, включая пути для сверхнизкой задержки многохостовой, распределенной службы. MaxDiffusion, референсная реализация моделей диффузии латентных переменных, обеспечивает выдающуюся производительность на ТПУ для вычислительно-интенсивных задач генерации изображений и теперь поддерживает Flux, одну из крупнейших моделей генерации изображений по тексту. Последние результаты производительности из MLPerf Inference v5.0 демонстрируют мощь и универсальность виртуальных машин A3 Ultra и A4 Google Cloud для вывода. Google Cloud предлагает больше выбора при обслуживании больших языковых моделей (LLM) на ТПУ, далее улучшая JetStream и добавляя поддержку vLLM для ТПУ. JetStream - это открытый исходный код, оптимизированный для пропускной способности и памяти двигатель вывода, который обеспечивает выдающуюся цену и производительность с низкой задержкой, высокой пропускной способностью и поддержкой сообщества. Гиперкомпьютер AI Google Cloud позволяет достичь прорывов в ИИ с помощью интегрированными программными фреймворками и аппаратными ускорителями. Клиенты, такие как Osmos и JetBrains, используют ТПУ и экземпляры GPU Google Cloud для максимизации стоимости эффективности при масштабировании.

bsky.app

AI and ML News on Bluesky @ai-news.at.thenote.app

t.me

Читайте AI и ML Новости в Телеграмм канале @ai_ml_news_ru

cloud.google.com

From LLMs to image generation: Accelerate inference workloads with AI Hypercomputer

RSS Hunter

2025-05-09