Ускорение вывода больших языко... Заметка

Ускорение вывода больших языковых моделей на процессорах Google TPUs: достижение ускорения в 3 раза с помощью диффузионного спекулятивного декодирования

Исследователи в UCSD успешно реализовали DFlash, метод спекулятивного декодирования на основе блочной диффузии, на Google TPU, чтобы обойти последовательные узкие места традиционного авторегрессивного черновика. "Раскрашивая" целые блоки кандидатных токенов за один прямой проход, а не предсказывая их по одному, система достигла среднего ускорения в 3,13 раза, а пиковая производительность почти в два раза превышала существующие методы, такие как EAGLE-3. Этот открытый интеграционный модуль в экосистеме vLLM оптимизирует аппаратное обеспечение TPU, используя "бесплатную" параллельную верификацию и высококачественные прогнозы черновика для сложных задач рассуждения.