DPO、Amazon SageMaker Studio、およびAmazon SageMaker Ground Truthを使用して、Meta Llama 3を人間の嗜好に合わせる

このポストでは、SageMaker Ground Truth で収集されたデータを使用して直接的好み最適化（DPO）によるファインチューニングを行うことで、Meta Llama 3 8B Instruct のパフォーマンスを向上させる方法を紹介します。