В этой статье мы исследуем, где RFT наиболее эффективен, используя в качестве конкретного примера набор данных математических рассуждений GSM8K. Затем мы рассматриваем лучшие практики подготовки набора данных и проектирования функции вознаграждения, показываем, как отслеживать прогресс обучения с помощью метрик Amazon Bedrock, и завершаем практическими рекомендациями по настройке гиперпараметров, основанными на экспериментах с несколькими моделями и случаями использования.
aws.amazon.com
Reinforcement fine-tuning on Amazon Bedrock: Best practices
Create attached notes ...
