Неравенство Маркова в теории вероятностей

31 января 2026Время чтения: 7 минут

#неравенство Маркова#теория вероятностей#оценка хвоста#неравенство Чебышёва#матожидание

Неравенство Маркова - простейший из инструментов, который позволяет оценить вероятность того, что случайная величина «выскочила далеко вправо», зная только её математическое ожидание. Никаких предположений о форме распределения, никакой дисперсии, никакой плотности - только неотрицательность и конечное $E[X]$ . Именно поэтому неравенство Маркова - стартовая точка для большинства концентрационных неравенств: из него выводится неравенство Чебышёва, экспоненциальное неравенство Чернова, оценка Беннета, а в паре с неравенством Гёльдера для интегралов - и более тонкие моментные оценки.

Формулировка неравенства Маркова

Пусть $X$ - неотрицательная случайная величина с конечным математическим ожиданием $E[X]$ . Тогда для любого $a > 0$ выполнено

$P(X \ge a) \le \frac{E[X]}{a}.$

Эквивалентная форма с $t = a/E[X]$ при $E[X] > 0$ :

$P(X \ge t \cdot E[X]) \le \frac{1}{t}, \quad t \ge 1.$

Это значит: вероятность того, что $X$ окажется в $t$ раз больше своего среднего, не превышает $1/t$ . При $t = 2$ - не больше половины, при $t = 10$ - не больше десятой доли. Условие неотрицательности существенно: для $X$ , принимающей и отрицательные значения, оценка неверна, и её сначала переводят на $|X|$ или на $X - \min X$ .

Подстановка в калькуляторе

Чтобы получить численную оценку под свою пару $(E[X], a)$ , не считая в уме: введи матожидание и порог, нажми «Показать ответ» - соберём подстановку в $P(X \ge a) \le E[X]/a$ , посчитаем дробь и обсудим, когда оценка реально что-то говорит, а когда вырождается в тривиальное $P \le 1$ .

Доказательство (набросок)

Идея - представить ожидание как интеграл по индикатору и обрезать снизу. Для неотрицательной $X$ и фиксированного $a > 0$ :

$E[X] = E[X \cdot \mathbf{1}_{X \ge a}] + E[X \cdot \mathbf{1}_{X < a}] \ge E[X \cdot \mathbf{1}_{X \ge a}] \ge a \cdot E[\mathbf{1}_{X \ge a}] = a \cdot P(X \ge a).$

Первое неравенство - потому что обе слагаемые неотрицательны (тут и нужно $X \ge 0$ ). Второе - потому что на событии $\{X \ge a\}$ значение $X$ не меньше $a$ . Делим на $a$ - и получаем нужную форму. Дискретный и непрерывный случаи разбираются одинаково: меняется только обозначение, $\sum$ или $\int$ , суть та же.

Типовые задачи

В большинстве учебных задач неравенство Маркова применяется в трёх сценариях.

Оценка вероятности «большого» отклонения. Пусть среднее число опечаток на странице рукописи равно $E[X] = 2$ . Тогда $P(X \ge 10) \le 2/10 = 0{,}2$ - вероятность встретить страницу с десятью и более опечатками не превышает 20%. Никаких допущений о распределении не делалось.

Сведение к неотрицательности. Если $Y$ - произвольная случайная величина, а нас интересует $P(|Y - E[Y]| \ge a)$ , формулу применяют к $X = (Y - E[Y])^2$ . Это и есть стандартный шаг к неравенству Чебышёва: $X$ неотрицательна, её матожидание - дисперсия $D[Y]$ , и

$P(|Y - E[Y]| \ge a) = P\big((Y - E[Y])^2 \ge a^2\big) \le \frac{D[Y]}{a^2}.$

Концентрационные оценки. Применяя неравенство Маркова к экспоненциальной функции $e^{\lambda X}$ и минимизируя по $\lambda > 0$ , получают границу Чернова:

$P(X \ge a) \le \inf_{\lambda > 0} \frac{E[e^{\lambda X}]}{e^{\lambda a}}.$

Это уже даёт экспоненциально малую оценку для суммы независимых ограниченных величин - основа теории больших уклонений и качественных результатов вроде леммы Бореля-Кантелли о почти наверной сходимости.

Связь с неравенством Чебышёва

Неравенство Чебышёва - частный случай неравенства Маркова, применённый к квадрату центрированной величины. Формально:

$P(|Y - E[Y]| \ge k \sigma) \le \frac{1}{k^2},$

где $\sigma = \sqrt{D[Y]}$ . То есть мы перешли от информации «знаем $E[X]$ » к «знаем $E[X]$ и $D[X]$ » и получили в обмен квадратичное затухание $1/k^2$ вместо линейного $1/k$ .

Что известно	Оценка хвоста	Затухание
Только $E[X]$ , $X \ge 0$	$P(X \ge a) \le E[X]/a$	$1/a$
$E[X]$ и $D[X]$	$P(	X - E[X]
$E[e^{\lambda X}]$ конечно	оценка Чернова	экспоненциальное

Чем больше моментов мы знаем, тем точнее оценка. Неравенство Маркова - нижняя ступенька этой лестницы.

Граница применимости

Неравенство Маркова работает всегда, когда $X \ge 0$ и $E[X] < \infty$ , но это не значит, что его оценка всегда содержательна.

При $a \le E[X]$ неравенство даёт $E[X]/a \ge 1$ - это тривиальная верхняя граница, потому что любая вероятность и так не больше единицы. Полезная оценка возникает только когда $a$ заметно превышает $E[X]$ .
Оценка точна для двухточечного распределения: $X = a$ с вероятностью $E[X]/a$ и $X = 0$ с вероятностью $1 - E[X]/a$ . Это и есть «худший случай», при котором неравенство превращается в равенство - поэтому без дополнительной информации улучшить его нельзя.
Если у $X$ есть лёгкие хвосты (например, нормальное распределение, ограниченное снизу), реальный $P(X \ge a)$ убывает экспоненциально, а Марков даёт лишь $1/a$ . Это много, но это лучшее, что можно сказать «по чистому матожиданию».
Для величин со знаком сначала надо перейти к $|X|$ или $(X - E[X])^2$ . Прямая подстановка в формулу при $X < 0$ даёт бессмыслицу.

Что показывают вычисления

Подставим конкретику. Пусть $E[X] = 1$ . Тогда:

$P(X \ge 2) \le 0{,}5$ - слабая, но честная оценка.
$P(X \ge 10) \le 0{,}1$ - заметно полезнее.
$P(X \ge 100) \le 0{,}01$ - для длинного хвоста уже немало.

При $E[X] = 2$ и $a = 10$ получаем $P \le 0{,}2$ ; при $a = 1$ - тривиальные $P \le 2$ , то есть никакой информации. Это и есть рабочее правило: чем больше отношение $a/E[X]$ , тем содержательнее граница.

Частые ошибки

Применять неравенство Маркова к величине, принимающей отрицательные значения. Условие $X \ge 0$ - не формальность: без него средняя часть доказательства ломается, и оценка становится неверной.
Думать, что оценка точна для гладких распределений. Для нормального или экспоненциального хвоста реальная вероятность меньше марковской на порядки - но улучшить её можно только привлекая дисперсию (Чебышёв) или производящую моментов (Чернов).
Путать $P(X \ge a)$ и $P(X > a)$ . В дискретном случае при $a$ , совпадающем со значением $X$ , разница может быть существенна. Неравенство одинаково работает для обоих, но численный ответ задачи зависит от формулировки.
Забывать, что $E[X]/a > 1$ - это «нет информации», а не «вероятность больше единицы». Корректный ответ в таком случае - $P \le 1$ .
Применять формулу к центрированной величине $Y - E[Y]$ без перехода к квадрату. Сам $Y - E[Y]$ имеет нулевое матожидание, и формула не даст ничего полезного.

FAQ

Чем неравенство Маркова отличается от неравенства Чебышёва?

Маркова - про неотрицательную величину и её матожидание, даёт оценку $E[X]/a$ . Чебышёв - про модуль отклонения от среднего и дисперсию, даёт оценку $D[X]/a^2$ . Чебышёв сильнее, потому что использует больше информации (второй момент), и формально выводится из Маркова применением к $(Y - E[Y])^2$ .

Когда неравенство Маркова становится бесполезным?

Когда $a \le E[X]$ : правая часть выходит $\ge 1$ , и оценка вырождается в тривиальное $P \le 1$ . На практике это сигнал, что нужно либо взять больший порог, либо привлечь дисперсию (Чебышёв), либо производящую функцию моментов (Чернов) - родственник характеристической функции в теории вероятностей.

Можно ли применять неравенство Маркова к матожиданию случайной выборки?

Да, если речь о неотрицательной статистике. Например, для $\bar{X}_n = \frac{1}{n}\sum X_i$ при $X_i \ge 0$ оценка $P(\bar{X}_n \ge a) \le E[\bar{X}_n]/a$ остаётся в силе. Но для оценки отклонения $|\bar{X}_n - E[X]|$ нужен Чебышёв или Хёфдинг - Марков напрямую не подходит.

Коротко

Неравенство Маркова - базовая оценка хвоста для неотрицательной случайной величины с конечным матожиданием: $P(X \ge a) \le E[X]/a$ . Доказывается обрезкой ожидания снизу на множестве $\{X \ge a\}$ . Полезно, когда $a$ заметно больше $E[X]$ ; иначе вырождается в тривиальную единицу. Из него выводятся неравенство Чебышёва (применением к квадрату центрированной величины) и оценка Чернова (применением к экспоненте). Цена простоты - линейное затухание $1/a$ вместо экспоненциального; зато не требуется ни форма распределения, ни моменты выше первого.