Алгоритм policy gradient: как обучают стратегию напрямую

20 июня 2026Время чтения: 7 минут

#policy gradient#REINFORCE#обучение с подкреплением#градиент стратегии#машинное обучение

Алгоритм policy gradient - это семейство методов обучения с подкреплением, где агент учится сразу параметризованной стратегии $\pi_\theta(a \mid s)$ , а не функции ценности. Вместо того чтобы оценивать «насколько хорошо состояние», мы напрямую сдвигаем параметры $\theta$ в сторону действий, которые принесли больше награды. Ниже разберём теорему о градиенте, формулу REINFORCE и роль baseline, а интерактивный расчёт ниже покажет, как скорость обучения и базовая линия влияют на сходимость.

Что оптимизирует policy gradient

Цель агента - максимизировать ожидаемую суммарную награду по траекториям $\tau = (s_0, a_0, s_1, a_1, \dots)$ , которые порождает текущая стратегия:

J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T} \gamma^t r_t \right].

Здесь $\pi_\theta$ - параметризованная стратегия (обычно нейросеть с softmax-выходом для дискретных действий или гауссовой головой для непрерывных), $\gamma \in [0, 1]$ - коэффициент дисконтирования, а $r_t$ - награда на шаге $t$ . Параметр $\theta$ - это веса политики. Идея метода в том, чтобы посчитать градиент $\nabla_\theta J(\theta)$ и сделать шаг градиентного подъёма: $\theta \leftarrow \theta + \alpha \nabla_\theta J(\theta)$ .

Сложность в том, что распределение траекторий само зависит от $\theta$ - менять параметры значит менять и то, по чему берётся матожидание. Именно эту проблему решает теорема о градиенте стратегии.

Схема policy gradient: стратегия порождает траекторию, награда формирует градиент, параметры сдвигаются в сторону выгодных действий

Теорема о градиенте и трюк с log-производной

Прямое дифференцирование $J(\theta)$ упирается в зависимость распределения от $\theta$ . Спасает тождество log-производной (log-derivative trick): для любой плотности $\nabla_\theta p_\theta(x) = p_\theta(x) \nabla_\theta \log p_\theta(x)$ . Применив его к вероятности траектории, получаем теорему о градиенте стратегии:

\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t \mid s_t) \, R_t \right],

где $R_t = \sum_{k=t}^{T} \gamma^{k-t} r_k$ - отдача (return) с момента $t$ . Ключевое наблюдение: динамика среды $p(s_{t+1} \mid s_t, a_t)$ от $\theta$ не зависит и из градиента выпадает. Поэтому модель среды знать не нужно - это и делает метод безмодельным (model-free).

Смысл формулы интуитивно прост. Множитель $\nabla_\theta \log \pi_\theta(a_t \mid s_t)$ показывает, в какую сторону подкрутить $\theta$ , чтобы повысить вероятность выбранного действия. Множитель $R_t$ - это вес: если за действием последовала большая отдача, шаг в его сторону делается крупным; если отдача мала или отрицательна - вероятность действия снижается. Близкая по духу идея напрямую двигаться по антиградиенту цели разобрана в материале про метод сопряжённых градиентов.

Формула REINFORCE: оценка градиента по выборке

Матожидание в теореме посчитать точно нельзя - его оценивают по выборке траекторий методом Монте-Карло. Прогнали $N$ эпизодов текущей стратегией, усреднили - получили несмещённую оценку градиента. Это и есть алгоритм REINFORCE (Уильямс, 1992):

\nabla_\theta J(\theta) \approx \frac{1}{N} \sum_{i=1}^{N} \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t^i \mid s_t^i) \, R_t^i.

Один цикл алгоритма выглядит так:

Сыграть эпизод (или batch эпизодов) текущей стратегией $\pi_\theta$ , сохранив все пары «состояние-действие» и награды.
Посчитать отдачи $R_t$ для каждого шага.
Накопить градиент $\sum_t \nabla_\theta \log \pi_\theta(a_t \mid s_t) R_t$ .
Сделать шаг подъёма $\theta \leftarrow \theta + \alpha \nabla_\theta J$ .

REINFORCE концептуально прост и работает «из коробки», но у него высокая дисперсия оценки: отдача $R_t$ - это сумма случайных наград, и от эпизода к эпизоду она сильно прыгает. Высокая дисперсия означает шумные градиенты и медленную, неустойчивую сходимость. Главный инструмент борьбы с этим - baseline.

Baseline: как снизить дисперсию без смещения

Идея baseline в том, чтобы вычитать из отдачи опорное значение $b(s_t)$ , не зависящее от выбранного действия:

\nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_{t} \nabla_\theta \log \pi_\theta(a_t \mid s_t) \, \big( R_t - b(s_t) \big) \right].

Почему вычитание baseline не вносит смещения? Потому что $\mathbb{E}_{a \sim \pi}[\nabla_\theta \log \pi_\theta(a \mid s) \, b(s)] = b(s) \nabla_\theta \sum_a \pi_\theta(a \mid s) = b(s) \nabla_\theta 1 = 0$ . Любая функция, не зависящая от действия, в матожидании даёт ноль - оценка остаётся несмещённой, а вот её дисперсию правильно подобранный baseline заметно уменьшает.

Самый частый выбор - оценка функции ценности $b(s) = V(s)$ , среднее ожидаемое возвращение из состояния. Тогда вместо «голой» отдачи в формуле появляется преимущество (advantage) $A_t = R_t - V(s_t)$ : насколько выбранное действие оказалось лучше среднего. Этот переход - мостик к методам actor-critic, где политика (actor) учится по advantage, а отдельная сеть (critic) оценивает $V(s)$ .

Сравнение градиента без baseline и с baseline: вычитание опорного уровня сжимает разброс шагов вокруг истинного направления

Дискретные и непрерывные действия

Вид $\nabla_\theta \log \pi_\theta(a \mid s)$ зависит от того, как параметризована стратегия.

Для дискретных действий берут softmax по логитам $h_\theta(s, a)$ :

\pi_\theta(a \mid s) = \frac{e^{h_\theta(s, a)}}{\sum_{a'} e^{h_\theta(s, a')}}.

Тогда $\nabla_\theta \log \pi_\theta(a \mid s) = \nabla_\theta h_\theta(s, a) - \sum_{a'} \pi_\theta(a' \mid s) \nabla_\theta h_\theta(s, a')$ - разность градиента логита выбранного действия и среднего по политике. Именно эта модель используется в интерактивном расчёте выше.

Для непрерывных действий берут гауссову политику $a \sim \mathcal{N}(\mu_\theta(s), \sigma_\theta^2(s))$ , и log-плотность даёт явный градиент по $\mu$ и $\sigma$ . Это позволяет применять policy gradient к управлению роботами и физическим системам, где действие - вещественный вектор сил или моментов.

Связь со стохастическим градиентным подъёмом

По сути policy gradient - это стохастический градиентный подъём по $J(\theta)$ , где честный градиент заменён несмещённой выборочной оценкой. Отсюда наследуются все привычные нюансы: выбор скорости обучения $\alpha$ , чувствительность к масштабу награды, риск застрять в локальном оптимуме стратегии. Слишком большой $\alpha$ - и политика «перепрыгивает» хорошее решение, обновления раскачиваются; слишком малый - обучение ползёт. Нормализация наград и advantage в пределах batch помогает удержать масштаб шага стабильным независимо от того, какие абсолютные значения наград выдаёт среда.

Частые ошибки

Путают знак шага. Policy gradient - это градиентный подъём (максимизируем награду): $\theta \leftarrow \theta + \alpha \nabla_\theta J$ . Если использовать автоград фреймворка, минимизирующего loss, нужно подавать loss со знаком минус: $-\sum_t \log \pi_\theta(a_t \mid s_t) R_t$ .
Считают baseline зависящим от действия. Если $b$ зависит от $a_t$ , вычитание вносит смещение и теорема ломается. Baseline должен зависеть только от состояния $s_t$ (или быть константой).
Забывают про дисперсию. Запускают чистый REINFORCE без baseline и нормализации и удивляются, что сходимость рваная. Высокая дисперсия - врождённое свойство метода, без её снижения обучение крайне шумное.
Дисконтируют отдачу неправильно. В $R_t$ суммируются награды начиная с шага $t$ , а не вся отдача эпизода для каждого шага - иначе ранние действия получают незаслуженный кредит за поздние награды.
Переиспользуют старые траектории. REINFORCE - on-policy: градиент верен только для данных, собранных текущей стратегией. После шага по $\theta$ старые эпизоды уже не дают несмещённую оценку.

FAQ

Чем policy gradient отличается от Q-learning? Q-learning учит функцию ценности действий $Q(s, a)$ и выводит стратегию косвенно (жадно по $Q$ ). Policy gradient оптимизирует параметры стратегии напрямую. Это даёт естественную работу с непрерывными действиями и стохастическими политиками, но ценой большей дисперсии и обучения on-policy.

Почему вообще работает трюк с log-производной? Он переписывает $\nabla_\theta p_\theta = p_\theta \nabla_\theta \log p_\theta$ , что превращает градиент распределения в матожидание под тем же распределением. Благодаря этому градиент цели становится выборочно оцениваемым: достаточно играть эпизоды текущей стратегией и усреднять.

REINFORCE и policy gradient - это одно и то же? Не совсем. Policy gradient - общий принцип (теорема о градиенте стратегии). REINFORCE - конкретный Монте-Карло алгоритм, оценивающий этот градиент по полным эпизодам. Actor-critic, PPO, TRPO - тоже policy gradient методы, но с другими оценками градиента и ограничениями на шаг.

Коротко

Алгоритм policy gradient оптимизирует параметризованную стратегию $\pi_\theta$ напрямую через градиентный подъём по ожидаемой награде. Теорема о градиенте и трюк с log-производной превращают $\nabla_\theta J$ в матожидание $\mathbb{E}[\nabla_\theta \log \pi_\theta(a \mid s) R]$ , которое REINFORCE оценивает по выборке эпизодов. Главная проблема - высокая дисперсия оценки; её снижают вычитанием baseline, не зависящего от действия, что и ведёт к advantage-формулировке и методам actor-critic.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Алгоритм policy gradient: как обучают стратегию напрямую

Что оптимизирует policy gradient

Теорема о градиенте и трюк с log-производной

Формула REINFORCE: оценка градиента по выборке

Baseline: как снизить дисперсию без смещения

Дискретные и непрерывные действия

Связь со стохастическим градиентным подъёмом

Частые ошибки

FAQ

Коротко

Читайте также

Алгоритм AdaBoost: как слабые классификаторы дают сильный

Алгоритм CatBoost: бустинг с обработкой категорий

Алгоритм LightGBM: быстрый градиентный бустинг