LLM 정렬을 위한 직접 선호도 최적화

Direct Preference Optimization(DPO)은 대규모 언어 모델을 인간의 선호도에 맞추기 위한 전통적인 RLHF의 더 간단하고 안정적인 대안을 제공합니다. 선호도 학습을 분류 문제로 재구성하고 별도의 보상 모델의 필요성을 제거함으로써 DPO는 계산 오버헤드와 훈련 복잡성을 줄입니다. 효율성과 사용 편의성에서 뛰어나지만, RLHF는 복잡하거나, 중요한 결과가 따르거나, 온라인 학습 시나리오에서 여전히 장점을 가지고 있습니다.