Спекулятивные каскады — гибридный подход для более умного и быстрого вывода LLM.

Большие языковые модели (LLM) мощные, но вычислительно затратные, что приводит к медленному и дорогостоящему выводу. Чтобы решить эту проблему, каскады используют меньшие, более быстрые модели для обработки простых запросов, прежде чем прибегать к большим, более способным LLM. Этот подход направлен на снижение затрат, задействуя дорогие модели только для сложных задач. Спекулятивное декодирование, с другой стороны, ускоряет вывод LLM, используя меньшую модель для черновой обработки будущих токенов, которые затем проверяются большей моделью параллельно. Это ускоряет генерацию, не изменяя конечный результат, но может увеличить использование памяти. В статье представлен "спекулятивный каскад" - новый метод, сочетающий в себе преимущества как каскадов, так и спекулятивного декодирования. Спекулятивные каскады используют гибкое "правило отсрочки", которое позволяет принять черновик меньшей модели, даже если он не идеально соответствует выводу большей модели. Этот гибридный подход предлагает лучшие компромиссы между стоимостью и качеством, чем любая из этих техник по отдельности. Эксперименты на различных языковых задачах показали, что спекулятивные каскады достигают большего ускорения и лучших показателей качества. Гибкость правила отсрочки позволяет настраивать его на основе уверенности, анализа затрат и выгод или проверок для конкретных токенов. Эта инновация позволяет приложениям LLM быть одновременно быстрее и умнее, оптимизируя баланс между вычислительной стоимостью и качеством вывода.

Speculative cascades — A hybrid approach for smarter, faster LLM inference research.google

RSS Hunter • 10 сент. 2025 г.