RSS AWS 머신 러닝 블로그

인간의 선호도에 맞춘 메타 llama 3 Align - DPO, Amazon SageMaker Studio 및 Amazon SageMaker Ground Truth 사용

이 게시물에서는 SageMaker Ground Truth로 수집된 데이터에 직접 선호도 최적화(DPO)를 사용하여 Meta Llama 3 8B Instruct의 성능을 향상시키는 방법을 보여줍니다.
aws.amazon.com
Align Meta Llama 3 to human preferences with DPO, Amazon SageMaker Studio, and Amazon SageMaker Ground Truth
Create attached notes ...