Чтобы научить AWS DeepRacer безопасно проезжать по треку, не разбиваясь, необходимо выбрать соответствующую пространство действий, функцию вознаграждения и парадигму обучения. Начните с использования дискретного пространства действий с ограниченными углами поворота и значениями газа.
Создайте функцию вознаграждения, чтобы поощрять машину оставаться на треке, замедляться на поворотах и избегать выезда за пределы трека. Рассмотрите награды за близость к центральной линии трека и штрафы за все выезды за пределы трека.
Чтобы предотвратить непреднамеренные зигзаги, включите штраф за экстремальные углы поворота. Итеративно тренируйте модель, клонируя и улучшая лучшую выполняющую версию, постепенно уменьшая скорость обучения, чтобы отточить ее работу.
Переключайтесь между часовой и против часовой ориентацией трека, чтобы минимизировать переобучение. Стремитесь к стабильному графику награды, даже если полного завершения не всегда удается достичь. Следуя этим стратегиям, вы сможете обучать модель DeepRacer, которая может надежно проезжать по треку, не разбиваясь.
towardsdatascience.com
AWS DeepRacer : A Practical Guide to Reducing The Sim2Real Gap — Part 2 || Training Guide
