LLM의 모든 레이어를 활용하여 정확도를 높이기 노트

LLM의 모든 레이어를 활용하여 정확도를 높이기

대형 언어 모델은 종종 사실성에 어려움을 겪으며, 때로는 잘못된 정보를 환각합니다. 이 문제는 편향되거나 불완전한 훈련 데이터 등 다양한 요인에서 비롯됩니다. 사실성, 즉 진실된 콘텐츠를 생성하는 능력은 신뢰할 수 있는 LLM 응용 프로그램에 매우 중요합니다. 새로운 디코딩 방법인 SLED는 외부 지식 기반 없이 사실성을 향상시키는 것을 목표로 합니다. SLED는 최종 레이어뿐만 아니라 LLM의 모든 레이어에서 정보를 활용하여 예측을 개선합니다. 이전 레이어를 사용하여 토큰 확률을 계산하고, 각 레이어에 가중치를 할당하여 보다 정확한 출력을 생성합니다. 여러 작업 및 벤치마크에 대한 실험 결과, SLED는 다양한 LLM에서 사실 정확도를 향상시키는 것으로 나타났습니다. 예를 들어, 수학 오류를 수정하거나 객관식 문제에 대한 정답을 선택할 수 있습니다. SLED는 쉽게 구현할 수 있으며, 다양한 LLM과 호환되며, 다른 방법과 결합할 수 있습니다. 주요 단점은 다른 대안에 비해 추론 시간이 최소한으로 증가한다는 것입니다. SLED는 광범위한 미세 조정 없이도 최첨단 정확도 향상을 보여줍니다. 향후 연구에서는 SLED를 지도 학습 기반 미세 조정과 결합하고 다른 작업에 적용하는 것을 고려할 수 있습니다.
CdXz5zHNQW_pbrRdL3gvF.png