DiffusionGemma от Google генерирует 256 токенов параллельно и самокорректируется в процессе.

Генераторы изображений на основе генеративного ИИ используют диффузию, начиная с шума и итеративно улучшая все изображение. Применение этого принципа диффузии к генерации текста в больших масштабах ранее было труднодостижимым. Стандартные языковые модели генерируют текст токен за токеном, как пишущая машинка, что может приводить к простоям GPU при локальном развертывании. DiffusionGemma от Google — это экспериментальная модель с открытым исходным кодом, которая применяет диффузию к генерации текста в производственном масштабе. Она работает с блоком из 256 токенов параллельно, причем каждая позиция токена взаимодействует со всеми остальными, что приводит к значительному ускорению генерации. DiffusionGemma генерирует текст до четырех раз быстрее стандартных моделей на GPU, особенно при малых размерах пакетов. Модель начинает со случайных токенов-заполнителей и постепенно улучшает весь блок, обеспечивая самокоррекцию и двунаправленный контекст. Такая архитектура оказывается выгодной для задач с ограниченной генерацией, что подтверждается ее успехом в решении головоломок судоку. Несмотря на скорость, Google признает, что общее качество вывода DiffusionGemma ниже, чем у стандартной Gemma 4. Преимущество в скорости в основном проявляется при локальном выводе и в сценариях с низкой параллельностью, где вычислительные ресурсы GPU в изобилии. Для высокопроизводительного облачного обслуживания преимущества снижаются, и стандартные авторегрессионные модели остаются более эффективными. DiffusionGemma представляет собой смену парадигмы в генерации, фокусируясь на параллельном шумоподавлении блоков, а не на последовательном предсказании токенов.

Google's DiffusionGemma generates 256 tokens in parallel and self-corrects as it goes venturebeat.com

RSS Hunter • 11 июн.