Flux RSS du blog d'apprentissage automatique AWS

Aligner Meta Llama 3 aux préférences humaines avec DPO, Amazon SageMaker Studio et Amazon SageMaker Ground Truth

Dans cet article, nous vous montrons comment améliorer les performances de Meta Llama 3 8B Instruct en l'affinant à l'aide de l'optimisation des préférences directes (DPO) sur des données collectées avec SageMaker Ground Truth.
aws.amazon.com
Align Meta Llama 3 to human preferences with DPO, Amazon SageMaker Studio, and Amazon SageMaker Ground Truth
Create attached notes ...