このポストでは、SageMaker Ground Truth で収集されたデータを使用して直接的好み最適化(DPO)によるファインチューニングを行うことで、Meta Llama 3 8B Instruct のパフォーマンスを向上させる方法を紹介します。
aws.amazon.com
Align Meta Llama 3 to human preferences with DPO, Amazon SageMaker Studio, and Amazon SageMaker Ground Truth