Выровни Meta Llama 3 по предпочтениям человека с помощью DPO, Amazon SageMaker Studio и Amazon SageMaker Ground Truth

В этом посте мы покажем вам, как улучшить производительность Meta Llama 3 8B Instruct, проведя дообучение с помощью direct preference optimization (DPO) на данных, собранных с помощью SageMaker Ground Truth.