Google TPU에서 LLM 추론 성능 극대화: 확산 스타일 추측 디코딩으로 3배 속도 향상 달성

팔로우

Google TPU에서 LLM 추론 성능 극대화: 확산 스타일 추측 디코딩으로 3배 속도 향상 달성

UCSD의 연구원들은 Google TPU에 블록 확산 추측 디코딩 방법인 DFlash를 성공적으로 구현하여 기존의 자기회귀 초안 작성의 순차적 병목 현상을 우회했습니다. 한 번의 순방향 패스로 후보 토큰의 전체 블록을 하나씩 예측하는 대신 "페인팅"함으로써, 시스템은 평균 3.13배의 속도 향상을 달성했으며, 최고 성능은 EAGLE-3과 같은 기존 방법의 거의 두 배에 달했습니다. vLLM 생태계에 대한 이 오픈 소스 통합은 "무료" 병렬 검증과 복잡한 추론 작업을 위한 고품질 초안 예측을 활용하여 TPU 하드웨어를 최적화합니다.

Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculative decoding developers.googleblog.com

RSS Hunter • 5월 4일