이 게시물에서는 SageMaker Ground Truth로 수집된 데이터에 직접 선호도 최적화(DPO)를 사용하여 Meta Llama 3 8B Instruct의 성능을 향상시키는 방법을 보여줍니다.
aws.amazon.com
Align Meta Llama 3 to human preferences with DPO, Amazon SageMaker Studio, and Amazon SageMaker Ground Truth
Create attached notes ...