обучение с подкреплением
Статьи EssayAI по теме «обучение с подкреплением»: разборы, методы и примеры.

Алгоритм policy gradient: как обучают стратегию напрямую
Разбираем алгоритм policy gradient: теорема о градиенте, формула REINFORCE, роль baseline и log-производной. С примерами вывода, типовыми ошибками и интерактивным расчётом сходимости.

Алгоритм SARSA: on-policy обучение с подкреплением по шагам
Алгоритм SARSA в обучении с подкреплением: правило обновления Q по пятёрке state-action-reward-state-action, on-policy логика, выбор действия epsilon-жадно и отличие от Q-обучения на примерах.

Марковский процесс принятия решений (MDP): кортеж и решение
Марковский процесс принятия решений (MDP): кортеж из состояний, действий, переходов и наград, уравнение Беллмана, итерация по ценности и по политике, роль дисконта gamma и связь с RL.

Q-обучение: алгоритм обучения с подкреплением по шагам
Q-обучение в обучении с подкреплением: правило обновления Q-таблицы, формула Беллмана, выбор действия по epsilon-жадной стратегии, сходимость и отличие от SARSA на простых примерах.

Уравнение Беллмана: принцип оптимальности простыми словами
Разбираем уравнение Беллмана: что такое принцип оптимальности, как записать рекуррентность для функции ценности, чем отличаются V и Q, как работает итерация по ценности с примерами.