AWS DeepRacer: Практическое руководство по уменьшению разрыва между симуляцией и реальностью — Часть 2 || Руководство по обучению

Чтобы научить AWS DeepRacer безопасно проезжать по треку, не разбиваясь, необходимо выбрать соответствующую пространство действий, функцию вознаграждения и парадигму обучения. Начните с использования дискретного пространства действий с ограниченными углами поворота и значениями газа. Создайте функцию вознаграждения, чтобы поощрять машину оставаться на треке, замедляться на поворотах и избегать выезда за пределы трека. Рассмотрите награды за близость к центральной линии трека и штрафы за все выезды за пределы трека. Чтобы предотвратить непреднамеренные зигзаги, включите штраф за экстремальные углы поворота. Итеративно тренируйте модель, клонируя и улучшая лучшую выполняющую версию, постепенно уменьшая скорость обучения, чтобы отточить ее работу. Переключайтесь между часовой и против часовой ориентацией трека, чтобы минимизировать переобучение. Стремитесь к стабильному графику награды, даже если полного завершения не всегда удается достичь. Следуя этим стратегиям, вы сможете обучать модель DeepRacer, которая может надежно проезжать по треку, не разбиваясь.

towardsdatascience.com

AWS DeepRacer : A Practical Guide to Reducing The Sim2Real Gap — Part 2 || Training Guide

RSS Hunter

2024-08-28