Обучение с подкреплением включает в себя взаимодействие агента с окружающей средой, получение наград за действия, которые приводят к желаемым результатам.
Окружающая среда может быть представлена как марковский процесс принятия решений (МПР), где действия агента и ответы окружающей среды определяются вероятностями.
Оптимальный курс действий определяется прогнозированием будущих наград, известного как функция состояния-ценности или функция действия-ценности.
Q-обучение - это алгоритм, который итеративно обновляет функцию действия-ценности на основе опыта, позволяя агенту учиться оптимальным действиям для каждого состояния.
В окружающей среде "Замерзшее озеро" агент перемещается по сетке, избегая ям, с целью достичь конечной позиции.
Функция действия-ценности для окружающей среды "Замерзшее озеро" изначально равна нулю для всех состояний.
Когда агент исследует окружающую среду, функция действия-ценности обновляется на основе наград, полученных за каждую пару действие-состояние.
Агент выбирает действия на основе наивысшей функции действия-ценности, постепенно учиться оптимальному пути к конечной позиции.
Преходящие вероятности в окружающей среде "Замерзшее озеро" вводят случайность, делая более сложным для агента определение оптимального пути.
Q-обучение позволяет агенту адаптироваться к стохастической природе окружающей среды и учиться оптимальной политике, максимизируя ожидаемую долгосрочную награду.
towardsdatascience.com
An Intuitive Introduction to Reinforcement Learning, Part I