В этом посте мы покажем вам, как улучшить производительность Meta Llama 3 8B Instruct, проведя дообучение с помощью direct preference optimization (DPO) на данных, собранных с помощью SageMaker Ground Truth.
aws.amazon.com
Align Meta Llama 3 to human preferences with DPO, Amazon SageMaker Studio, and Amazon SageMaker Ground Truth