Ускорение вывода больших языковых моделей на процессорах Google TPUs: достижение ускорения в 3 раза

Ускорение вывода больших языковых моделей на процессорах Google TPUs: достижение ускорения в 3 раза с помощью диффузионного спекулятивного декодирования

Исследователи в UCSD успешно реализовали DFlash, метод спекулятивного декодирования на основе блочной диффузии, на Google TPU, чтобы обойти последовательные узкие места традиционного авторегрессивного черновика. "Раскрашивая" целые блоки кандидатных токенов за один прямой проход, а не предсказывая их по одному, система достигла среднего ускорения в 3,13 раза, а пиковая производительность почти в два раза превышала существующие методы, такие как EAGLE-3. Этот открытый интеграционный модуль в экосистеме vLLM оптимизирует аппаратное обеспечение TPU, используя "бесплатную" параллельную верификацию и высококачественные прогнозы черновика для сложных задач рассуждения.

Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculative decoding developers.googleblog.com

RSS Hunter • 4 мая