인간의 선호도에 맞춘 메타 llama 3 Align - DPO, Amazon SageMaker Studio 및 Amazon SageMaker Ground Truth 사용

이 게시물에서는 SageMaker Ground Truth로 수집된 데이터에 직접 선호도 최적화(DPO)를 사용하여 Meta Llama 3 8B Instruct의 성능을 향상시키는 방법을 보여줍니다.