RSS Блог о машинном обучении AWS

Выровни Meta Llama 3 по предпочтениям человека с помощью DPO, Amazon SageMaker Studio и Amazon SageMaker Ground Truth

В этом посте мы покажем вам, как улучшить производительность Meta Llama 3 8B Instruct, проведя дообучение с помощью direct preference optimization (DPO) на данных, собранных с помощью SageMaker Ground Truth.
aws.amazon.com
Align Meta Llama 3 to human preferences with DPO, Amazon SageMaker Studio, and Amazon SageMaker Ground Truth
Create attached notes ...