LLM(대규모 언어 모델)에서 멀티 토큰 예측을 위한 대체 아키텍처

대규모 언어 모델(LLM)에서 다중 토큰 예측을 구현하기 위한 대체 아키텍처 설계를 탐구하고 비교합니다. 여기에는 복제된 unembedding(임베딩 해제)과 반인과적(anticausal) 변형이 포함됩니다.