обучение с подкреплением

Статьи EssayAI по теме «обучение с подкреплением»: разборы, методы и примеры.

Алгоритм policy gradient: как обучают стратегию напрямую

Разбираем алгоритм policy gradient: теорема о градиенте, формула REINFORCE, роль baseline и log-производной. С примерами вывода, типовыми ошибками и интерактивным расчётом сходимости.

20 июня 20267 минут

Алгоритм SARSA: on-policy обучение с подкреплением по шагам

Алгоритм SARSA в обучении с подкреплением: правило обновления Q по пятёрке state-action-reward-state-action, on-policy логика, выбор действия epsilon-жадно и отличие от Q-обучения на примерах.

20 июня 20267 минут

Марковский процесс принятия решений (MDP): кортеж и решение

Марковский процесс принятия решений (MDP): кортеж из состояний, действий, переходов и наград, уравнение Беллмана, итерация по ценности и по политике, роль дисконта gamma и связь с RL.

20 июня 20268 минут

Q-обучение: алгоритм обучения с подкреплением по шагам

Q-обучение в обучении с подкреплением: правило обновления Q-таблицы, формула Беллмана, выбор действия по epsilon-жадной стратегии, сходимость и отличие от SARSA на простых примерах.

19 июня 20268 минут

Уравнение Беллмана: принцип оптимальности простыми словами

Разбираем уравнение Беллмана: что такое принцип оптимальности, как записать рекуррентность для функции ценности, чем отличаются V и Q, как работает итерация по ценности с примерами.

19 июня 20268 минут