추측적 캐스케이드 - 더 스마트하고 빠른 LLM 추론을... 노트

추측적 캐스케이드 - 더 스마트하고 빠른 LLM 추론을 위한 하이브리드 접근 방식

대규모 언어 모델(LLM)은 강력하지만 계산 비용이 많이 들어 추론 속도가 느리고 비용이 많이 듭니다. 이를 해결하기 위해, 캐스케이드는 더 작고 빠른 모델을 사용하여 간단한 쿼리를 처리한 후 더 크고 성능이 좋은 LLM에 의존합니다. 이 접근 방식은 복잡한 작업에만 비용이 많이 드는 모델을 사용함으로써 비용을 절감하는 것을 목표로 합니다. 반면에, 추측적 디코딩은 더 작은 모델이 미래 토큰을 초안으로 작성하고, 더 큰 모델이 이를 병렬로 검증하여 LLM 추론을 가속화합니다. 이는 최종 출력을 변경하지 않고 생성을 가속화하지만 메모리 사용량을 늘릴 수 있습니다. 이 논문은 캐스케이드와 추측적 디코딩의 장점을 결합한 새로운 방법인 "추측적 캐스케이드"를 소개합니다. 추측적 캐스케이드는 더 작은 모델의 초안이 더 큰 모델의 출력과 완벽하게 일치하지 않더라도 허용하는 유연한 "연기 규칙"을 사용합니다. 이 하이브리드 접근 방식은 단독으로 사용되는 두 기술보다 더 나은 비용-품질 균형을 제공합니다. 다양한 언어 작업에 대한 실험 결과, 추측적 캐스케이드는 더 높은 속도 향상과 더 나은 품질 지표를 달성했습니다. 연기 규칙의 유연성은 신뢰도, 비용-편익 분석 또는 토큰별 검사에 따라 맞춤 설정할 수 있습니다. 이 혁신은 계산 비용과 출력 품질 간의 균형을 최적화하여 LLM 애플리케이션을 더 빠르고 스마트하게 만들 수 있습니다.
CdXz5zHNQW_2WaKDny7yL.png