Интуитивное введение в обучение с подкреплением, Часть I

Обучение с подкреплением включает в себя взаимодействие агента с окружающей средой, получение наград за действия, которые приводят к желаемым результатам. Окружающая среда может быть представлена как марковский процесс принятия решений (МПР), где действия агента и ответы окружающей среды определяются вероятностями. Оптимальный курс действий определяется прогнозированием будущих наград, известного как функция состояния-ценности или функция действия-ценности. Q-обучение - это алгоритм, который итеративно обновляет функцию действия-ценности на основе опыта, позволяя агенту учиться оптимальным действиям для каждого состояния. В окружающей среде "Замерзшее озеро" агент перемещается по сетке, избегая ям, с целью достичь конечной позиции. Функция действия-ценности для окружающей среды "Замерзшее озеро" изначально равна нулю для всех состояний. Когда агент исследует окружающую среду, функция действия-ценности обновляется на основе наград, полученных за каждую пару действие-состояние. Агент выбирает действия на основе наивысшей функции действия-ценности, постепенно учиться оптимальному пути к конечной позиции. Преходящие вероятности в окружающей среде "Замерзшее озеро" вводят случайность, делая более сложным для агента определение оптимального пути. Q-обучение позволяет агенту адаптироваться к стохастической природе окружающей среды и учиться оптимальной политике, максимизируя ожидаемую долгосрочную награду.

towardsdatascience.com

An Intuitive Introduction to Reinforcement Learning, Part I

RSS Hunter

2024-09-06

Create attached notes ...