RSS AWS マシンラーニング ブログ

DPO、Amazon SageMaker Studio、およびAmazon SageMaker Ground Truthを使用して、Meta Llama 3を人間の嗜好に合わせる

このポストでは、SageMaker Ground Truth で収集されたデータを使用して直接的好み最適化(DPO)によるファインチューニングを行うことで、Meta Llama 3 8B Instruct のパフォーマンスを向上させる方法を紹介します。
aws.amazon.com
Align Meta Llama 3 to human preferences with DPO, Amazon SageMaker Studio, and Amazon SageMaker Ground Truth