Совместное распределение двух случайных величин

16 июня 2026Время чтения: 8 минут

#совместное распределение#случайные величины#ковариация#корреляция#теория вероятностей

Когда задача включает сразу две случайные величины, одних маргинальных распределений недостаточно: важно знать, как $X$ и $Y$ «сочетаются» друг с другом. Именно для этого вводят совместное распределение. Оно полностью описывает, с какой вероятностью $X$ принимает одно значение, а $Y$ - другое одновременно, и позволяет вычислить ковариацию, корреляцию и проверить независимость. Изучите поведение распределения на интерактивном калькуляторе ниже, а затем разберём каждое понятие строго.

Что такое совместное распределение

Для двух дискретных случайных величин $X$ и $Y$ совместное распределение задаётся таблицей вероятностей:

$p(x_i, y_j) = P(X = x_i,\; Y = y_j).$

Условие нормировки: сумма всех элементов таблицы должна равняться единице:

$\sum_i \sum_j p(x_i, y_j) = 1.$

Тепловая карта 3x3: параметр зависимости плавно меняется от отрицательного к положительному, показывая, как «горячие» клетки смещаются с антидиагонали на главную

Для непрерывных случайных величин роль таблицы играет совместная плотность $f(x, y) \ge 0$ такая, что:

$\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f(x, y)\,dx\,dy = 1.$

Вероятность попасть в прямоугольник $[a,b]\times[c,d]$ равна двойному интегралу плотности по этой области. Далее будем работать в первую очередь с дискретным случаем, поскольку именно он чаще встречается в вузовских задачах.

Маргинальные распределения

Из совместной таблицы легко восстановить распределение каждой величины в отдельности - маргинальное распределение. Чтобы получить $P(X = x_i)$ , достаточно просуммировать строку (или столбец, в зависимости от ориентации таблицы) по всем значениям $Y$ :

$P(X = x_i) = \sum_j p(x_i, y_j), \qquad P(Y = y_j) = \sum_i p(x_i, y_j).$

Это - операция «свёртки» таблицы по одному из измерений. Маргиналы дают правые и нижние поля стандартной совместной таблицы - отсюда и название.

Тепловая карта совместного распределения с положительной зависимостью: «горячие» клетки сосредоточены на главной диагонали, маргиналы показаны сбоку

Важно понимать: маргиналы не восстанавливают совместное распределение. По $P(X=x)$ и $P(Y=y)$ нельзя однозначно определить $p(x,y)$ - для этого нужна дополнительная информация о связи между $X$ и $Y$ .

Независимость двух случайных величин

$X$ и $Y$ называются независимыми, если их совместное распределение равно произведению маргинальных:

$p(x_i, y_j) = P(X = x_i) \cdot P(Y = y_j) \quad \text{для всех } i, j.$

Это многомерное условие: одного совпадения недостаточно, нужно проверить каждую клетку таблицы. Если хотя бы одна клетка «не выкладывается» в произведение, величины зависимы.

Для непрерывных величин аналог: $f(x,y) = f_X(x) \cdot f_Y(y)$ для всех $(x,y)$ .

На практике независимость часто предполагается по условию задачи (« $X$ и $Y$ независимы»), и тогда совместную таблицу можно построить самостоятельно из маргиналов.

Математическое ожидание функции от двух величин

Если известна совместная таблица, математическое ожидание любой функции $g(X, Y)$ вычисляется как:

$E[g(X,Y)] = \sum_i \sum_j g(x_i, y_j)\cdot p(x_i, y_j).$

Частный случай - $g(X,Y) = XY$ , тогда получаем $E[XY]$ , который нужен для ковариации. Другой важный частный случай: $E[X + Y] = E[X] + E[Y]$ (линейность математического ожидания; выполняется всегда, независимо от зависимости).

Ковариация и её смысл

Ковариация характеризует, насколько $X$ и $Y$ «меняются вместе»:

$\text{Cov}(X, Y) = E[XY] - E[X]\cdot E[Y].$

Равносильная формула через центрированные величины $\tilde{X} = X - E[X]$ :

$\text{Cov}(X,Y) = E[\tilde{X}\,\tilde{Y}].$

Знак ковариации указывает на направление связи:

$\text{Cov} > 0$ - рост $X$ в среднем сопровождается ростом $Y$ ;
$\text{Cov} < 0$ - рост $X$ в среднем сопровождается убыванием $Y$ ;
$\text{Cov} = 0$ - линейной связи нет (но нелинейная может быть).

Если $X$ и $Y$ независимы, то $\text{Cov}(X,Y) = 0$ . Обратное неверно: нулевая ковариация не означает независимости.

Дисперсия суммы выражается через ковариацию:

$D[X + Y] = D[X] + D[Y] + 2\,\text{Cov}(X, Y).$

При независимости ковариация зануляется и дисперсия суммы просто складывается.

Коэффициент корреляции

Ковариация зависит от масштаба величин. Чтобы получить безразмерную меру силы линейной связи, делят ковариацию на произведение стандартных отклонений:

$r_{XY} = \frac{\text{Cov}(X,Y)}{\sqrt{D[X]\cdot D[Y]}} = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}.$

Коэффициент корреляции всегда лежит в $[-1, 1]$ . Значения $r = \pm 1$ означают точную линейную зависимость ( $Y = aX + b$ ). Значения вблизи нуля - слабую или отсутствующую линейную связь.

Слева облако точек с параметром корреляции r, справа совместная таблица 3x3: при r=-1 точки ложатся на убывающую прямую, при r=+1 - на возрастающую, при r=0 - рассеяны хаотично

Корреляция измеряет только линейную зависимость. Величины могут иметь нулевую корреляцию и при этом жёстко детерминированы нелинейно (например, $Y = X^2$ при симметричном $X$ ).

Пример расчёта по таблице

Разберём задачу полностью. Дано совместное распределение дискретных величин $X \in \{0,1,2\}$ и $Y \in \{0,1\}$ :

	$Y=0$	$Y=1$
$X=0$	0,10	0,20
$X=1$	0,30	0,15
$X=2$	0,15	0,10

Шаг 1: проверяем нормировку. $0{,}10+0{,}20+0{,}30+0{,}15+0{,}15+0{,}10 = 1{,}00$ - всё верно.

Шаг 2: находим маргинальные распределения суммированием по строкам и столбцам:

$P(X=0) = 0{,}10+0{,}20 = 0{,}30;\quad P(X=1) = 0{,}45;\quad P(X=2) = 0{,}25.$

$P(Y=0) = 0{,}10+0{,}30+0{,}15 = 0{,}55;\quad P(Y=1) = 0{,}45.$

Шаг 3: математические ожидания:

$E[X] = 0\cdot0{,}30 + 1\cdot0{,}45 + 2\cdot0{,}25 = 0{,}95.$

$E[Y] = 0\cdot0{,}55 + 1\cdot0{,}45 = 0{,}45.$

Шаг 4: считаем $E[XY]$ по совместной таблице (ненулевой вклад даёт только $X=1, Y=1$ и $X=2, Y=1$ ):

$E[XY] = 1\cdot1\cdot0{,}15 + 2\cdot1\cdot0{,}10 = 0{,}35.$

Шаг 5: ковариация:

$\text{Cov}(X,Y) = E[XY] - E[X]\cdot E[Y] = 0{,}35 - 0{,}95\cdot0{,}45 = 0{,}35 - 0{,}4275 = -0{,}0775.$

Отрицательная ковариация указывает, что с ростом $X$ значение $Y$ в среднем убывает. Чтобы найти корреляцию, нужны дисперсии $D[X]$ и $D[Y]$ :

$D[X] = E[X^2] - (E[X])^2;\quad E[X^2] = 0+0{,}45+4\cdot0{,}25 = 1{,}45;\quad D[X]=1{,}45-0{,}9025=0{,}5475.$

$D[Y] = E[Y^2] - (E[Y])^2 = 0{,}45 - 0{,}2025 = 0{,}2475.$

$r = \frac{-0{,}0775}{\sqrt{0{,}5475\cdot0{,}2475}} \approx \frac{-0{,}0775}{0{,}368} \approx -0{,}21.$

Слабая отрицательная линейная связь. Проверка независимости: $p(0,0) = 0{,}10$ , а $P(X=0)\cdot P(Y=0) = 0{,}30\cdot0{,}55 = 0{,}165 \ne 0{,}10$ - величины зависимы.

Условные распределения

Условное распределение $Y$ при условии $X = x_i$ - это «сечение» совместной таблицы по столбцу $x_i$ , нормированное на маргиналь $P(X = x_i)$ :

$P(Y = y_j \mid X = x_i) = \frac{p(x_i, y_j)}{P(X = x_i)}.$

Условное математическое ожидание $E[Y \mid X = x_i]$ вычисляется как обычное ожидание по этому условному распределению. Например, в задаче выше:

$P(Y=1 \mid X=2) = \frac{0{,}10}{0{,}25} = 0{,}40,$

то есть зная, что $X=2$ , вероятность $Y=1$ снижается с маргинальных $0{,}45$ до $0{,}40$ - маленький сдвиг, но он подтверждает слабую отрицательную зависимость.

Если $X$ и $Y$ независимы, условное распределение $Y$ совпадает с маргинальным - знание значения $X$ не меняет «прогноза» для $Y$ . Именно это свойство является математически строгим определением независимости случайных величин через условные вероятности.

Частые ошибки

Путать маргинальное с совместным. Знать $P(X=x)$ и $P(Y=y)$ недостаточно для восстановления $p(x,y)$ - нужно либо совместное распределение, либо условие независимости.
Считать нулевую ковариацию признаком независимости. $\text{Cov}=0$ не означает независимости: контрпример - $X \sim \{-1, 0, 1\}$ равновероятно, $Y = X^2$ .
Забыть про условие нормировки. Перед подстановкой в формулы убедитесь, что сумма всех $p(x_i, y_j)$ равна ровно 1. Ошибка нормировки «переезжает» во все вычисленные характеристики.
Применять формулу дисперсии суммы без ковариации. $D[X+Y] = D[X] + D[Y]$ верно только при независимости; в общем случае нужно добавить $2\,\text{Cov}(X,Y)$ .
Брать $E[XY] = E[X]\cdot E[Y]$ . Это равенство выполняется только при независимости; при зависимости нужно считать $E[XY]$ напрямую по совместной таблице.

FAQ

Как проверить независимость X и Y по таблице? Для каждой клетки $(x_i, y_j)$ проверьте равенство $p(x_i, y_j) = P(X=x_i)\cdot P(Y=y_j)$ . Если хотя бы одно равенство нарушено - величины зависимы. На практике проверяют все $n \times m$ клеток.

Чем ковариация отличается от корреляции? Ковариация имеет размерность произведения единиц $X$ и $Y$ и зависит от масштаба измерений. Корреляция - нормированная ковариация без единиц, всегда в $[-1,1]$ , удобна для сравнения разных пар величин. При одинаковых шкалах обе меры дают одинаковую качественную картину.

Можно ли по маргинальным распределениям восстановить совместное? В общем случае - нет. По $P(X=x)$ и $P(Y=y)$ существует бесконечно много совместных распределений с теми же маргиналами. Единственный случай однозначного восстановления - независимость: тогда $p(x,y) = P(X=x)\cdot P(Y=y)$ .

Коротко

Совместное распределение двух случайных величин полностью описывает их совместное поведение. Из него получают маргиналы суммированием по строкам и столбцам, проверяют независимость сравнением $p(x,y)$ с произведением маргиналов, вычисляют ковариацию $\text{Cov}(X,Y) = E[XY] - E[X]E[Y]$ и коэффициент корреляции $r = \text{Cov}/(\sigma_X\sigma_Y)$ . Нулевая ковариация не гарантирует независимость, а дисперсия суммы содержит ковариационный член, который обнуляется лишь при независимости.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN