EssayAI
Блог
Блог
Математика и алгоритмы

Совместное распределение двух случайных величин

16 июня 2026Время чтения: 8 минут
#совместное распределение#случайные величины#ковариация#корреляция#теория вероятностей
Совместное распределение двух случайных величин

Когда задача включает сразу две случайные величины, одних маргинальных распределений недостаточно: важно знать, как XX и YY «сочетаются» друг с другом. Именно для этого вводят совместное распределение. Оно полностью описывает, с какой вероятностью XX принимает одно значение, а YY - другое одновременно, и позволяет вычислить ковариацию, корреляцию и проверить независимость. Изучите поведение распределения на интерактивном калькуляторе ниже, а затем разберём каждое понятие строго.

Что такое совместное распределение

Для двух дискретных случайных величин XX и YY совместное распределение задаётся таблицей вероятностей:

p(xi,yj)=P(X=xi,  Y=yj).p(x_i, y_j) = P(X = x_i,\; Y = y_j).

Условие нормировки: сумма всех элементов таблицы должна равняться единице:

ijp(xi,yj)=1.\sum_i \sum_j p(x_i, y_j) = 1.

Тепловая карта 3x3: параметр зависимости плавно меняется от отрицательного к положительному, показывая, как «горячие» клетки смещаются с антидиагонали на главную

Для непрерывных случайных величин роль таблицы играет совместная плотность f(x,y)0f(x, y) \ge 0 такая, что:

++f(x,y)dxdy=1.\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f(x, y)\,dx\,dy = 1.

Вероятность попасть в прямоугольник [a,b]×[c,d][a,b]\times[c,d] равна двойному интегралу плотности по этой области. Далее будем работать в первую очередь с дискретным случаем, поскольку именно он чаще встречается в вузовских задачах.

Маргинальные распределения

Из совместной таблицы легко восстановить распределение каждой величины в отдельности - маргинальное распределение. Чтобы получить P(X=xi)P(X = x_i), достаточно просуммировать строку (или столбец, в зависимости от ориентации таблицы) по всем значениям YY:

P(X=xi)=jp(xi,yj),P(Y=yj)=ip(xi,yj).P(X = x_i) = \sum_j p(x_i, y_j), \qquad P(Y = y_j) = \sum_i p(x_i, y_j).

Это - операция «свёртки» таблицы по одному из измерений. Маргиналы дают правые и нижние поля стандартной совместной таблицы - отсюда и название.

Тепловая карта совместного распределения с положительной зависимостью: «горячие» клетки сосредоточены на главной диагонали, маргиналы показаны сбоку
Тепловая карта совместного распределения с положительной зависимостью: «горячие» клетки сосредоточены на главной диагонали, маргиналы показаны сбоку

Важно понимать: маргиналы не восстанавливают совместное распределение. По P(X=x)P(X=x) и P(Y=y)P(Y=y) нельзя однозначно определить p(x,y)p(x,y) - для этого нужна дополнительная информация о связи между XX и YY.

Независимость двух случайных величин

XX и YY называются независимыми, если их совместное распределение равно произведению маргинальных:

p(xi,yj)=P(X=xi)P(Y=yj)для всех i,j.p(x_i, y_j) = P(X = x_i) \cdot P(Y = y_j) \quad \text{для всех } i, j.

Это многомерное условие: одного совпадения недостаточно, нужно проверить каждую клетку таблицы. Если хотя бы одна клетка «не выкладывается» в произведение, величины зависимы.

Для непрерывных величин аналог: f(x,y)=fX(x)fY(y)f(x,y) = f_X(x) \cdot f_Y(y) для всех (x,y)(x,y).

На практике независимость часто предполагается по условию задачи («XX и YY независимы»), и тогда совместную таблицу можно построить самостоятельно из маргиналов.

Математическое ожидание функции от двух величин

Если известна совместная таблица, математическое ожидание любой функции g(X,Y)g(X, Y) вычисляется как:

E[g(X,Y)]=ijg(xi,yj)p(xi,yj).E[g(X,Y)] = \sum_i \sum_j g(x_i, y_j)\cdot p(x_i, y_j).

Частный случай - g(X,Y)=XYg(X,Y) = XY, тогда получаем E[XY]E[XY], который нужен для ковариации. Другой важный частный случай: E[X+Y]=E[X]+E[Y]E[X + Y] = E[X] + E[Y] (линейность математического ожидания; выполняется всегда, независимо от зависимости).

Ковариация и её смысл

Ковариация характеризует, насколько XX и YY «меняются вместе»:

Cov(X,Y)=E[XY]E[X]E[Y].\text{Cov}(X, Y) = E[XY] - E[X]\cdot E[Y].

Равносильная формула через центрированные величины X~=XE[X]\tilde{X} = X - E[X]:

Cov(X,Y)=E[X~Y~].\text{Cov}(X,Y) = E[\tilde{X}\,\tilde{Y}].

Знак ковариации указывает на направление связи:

  • Cov>0\text{Cov} > 0 - рост XX в среднем сопровождается ростом YY;
  • Cov<0\text{Cov} < 0 - рост XX в среднем сопровождается убыванием YY;
  • Cov=0\text{Cov} = 0 - линейной связи нет (но нелинейная может быть).

Если XX и YY независимы, то Cov(X,Y)=0\text{Cov}(X,Y) = 0. Обратное неверно: нулевая ковариация не означает независимости.

Дисперсия суммы выражается через ковариацию:

D[X+Y]=D[X]+D[Y]+2Cov(X,Y).D[X + Y] = D[X] + D[Y] + 2\,\text{Cov}(X, Y).

При независимости ковариация зануляется и дисперсия суммы просто складывается.

Коэффициент корреляции

Ковариация зависит от масштаба величин. Чтобы получить безразмерную меру силы линейной связи, делят ковариацию на произведение стандартных отклонений:

rXY=Cov(X,Y)D[X]D[Y]=Cov(X,Y)σXσY.r_{XY} = \frac{\text{Cov}(X,Y)}{\sqrt{D[X]\cdot D[Y]}} = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}.

Коэффициент корреляции всегда лежит в [1,1][-1, 1]. Значения r=±1r = \pm 1 означают точную линейную зависимость (Y=aX+bY = aX + b). Значения вблизи нуля - слабую или отсутствующую линейную связь.

Слева облако точек с параметром корреляции r, справа совместная таблица 3x3: при r=-1 точки ложатся на убывающую прямую, при r=+1 - на возрастающую, при r=0 - рассеяны хаотично

Корреляция измеряет только линейную зависимость. Величины могут иметь нулевую корреляцию и при этом жёстко детерминированы нелинейно (например, Y=X2Y = X^2 при симметричном XX).

Пример расчёта по таблице

Разберём задачу полностью. Дано совместное распределение дискретных величин X{0,1,2}X \in \{0,1,2\} и Y{0,1}Y \in \{0,1\}:

Y=0Y=0Y=1Y=1
X=0X=00,100,20
X=1X=10,300,15
X=2X=20,150,10

Шаг 1: проверяем нормировку. 0,10+0,20+0,30+0,15+0,15+0,10=1,000{,}10+0{,}20+0{,}30+0{,}15+0{,}15+0{,}10 = 1{,}00 - всё верно.

Шаг 2: находим маргинальные распределения суммированием по строкам и столбцам:

P(X=0)=0,10+0,20=0,30;P(X=1)=0,45;P(X=2)=0,25.P(X=0) = 0{,}10+0{,}20 = 0{,}30;\quad P(X=1) = 0{,}45;\quad P(X=2) = 0{,}25.

P(Y=0)=0,10+0,30+0,15=0,55;P(Y=1)=0,45.P(Y=0) = 0{,}10+0{,}30+0{,}15 = 0{,}55;\quad P(Y=1) = 0{,}45.

Шаг 3: математические ожидания:

E[X]=00,30+10,45+20,25=0,95.E[X] = 0\cdot0{,}30 + 1\cdot0{,}45 + 2\cdot0{,}25 = 0{,}95.

E[Y]=00,55+10,45=0,45.E[Y] = 0\cdot0{,}55 + 1\cdot0{,}45 = 0{,}45.

Шаг 4: считаем E[XY]E[XY] по совместной таблице (ненулевой вклад даёт только X=1,Y=1X=1, Y=1 и X=2,Y=1X=2, Y=1):

E[XY]=110,15+210,10=0,35.E[XY] = 1\cdot1\cdot0{,}15 + 2\cdot1\cdot0{,}10 = 0{,}35.

Шаг 5: ковариация:

Cov(X,Y)=E[XY]E[X]E[Y]=0,350,950,45=0,350,4275=0,0775.\text{Cov}(X,Y) = E[XY] - E[X]\cdot E[Y] = 0{,}35 - 0{,}95\cdot0{,}45 = 0{,}35 - 0{,}4275 = -0{,}0775.

Отрицательная ковариация указывает, что с ростом XX значение YY в среднем убывает. Чтобы найти корреляцию, нужны дисперсии D[X]D[X] и D[Y]D[Y]:

D[X]=E[X2](E[X])2;E[X2]=0+0,45+40,25=1,45;D[X]=1,450,9025=0,5475.D[X] = E[X^2] - (E[X])^2;\quad E[X^2] = 0+0{,}45+4\cdot0{,}25 = 1{,}45;\quad D[X]=1{,}45-0{,}9025=0{,}5475.

D[Y]=E[Y2](E[Y])2=0,450,2025=0,2475.D[Y] = E[Y^2] - (E[Y])^2 = 0{,}45 - 0{,}2025 = 0{,}2475.

r=0,07750,54750,24750,07750,3680,21.r = \frac{-0{,}0775}{\sqrt{0{,}5475\cdot0{,}2475}} \approx \frac{-0{,}0775}{0{,}368} \approx -0{,}21.

Слабая отрицательная линейная связь. Проверка независимости: p(0,0)=0,10p(0,0) = 0{,}10, а P(X=0)P(Y=0)=0,300,55=0,1650,10P(X=0)\cdot P(Y=0) = 0{,}30\cdot0{,}55 = 0{,}165 \ne 0{,}10 - величины зависимы.

Условные распределения

Условное распределение YY при условии X=xiX = x_i - это «сечение» совместной таблицы по столбцу xix_i, нормированное на маргиналь P(X=xi)P(X = x_i):

P(Y=yjX=xi)=p(xi,yj)P(X=xi).P(Y = y_j \mid X = x_i) = \frac{p(x_i, y_j)}{P(X = x_i)}.

Условное математическое ожидание E[YX=xi]E[Y \mid X = x_i] вычисляется как обычное ожидание по этому условному распределению. Например, в задаче выше:

P(Y=1X=2)=0,100,25=0,40,P(Y=1 \mid X=2) = \frac{0{,}10}{0{,}25} = 0{,}40,

то есть зная, что X=2X=2, вероятность Y=1Y=1 снижается с маргинальных 0,450{,}45 до 0,400{,}40 - маленький сдвиг, но он подтверждает слабую отрицательную зависимость.

Если XX и YY независимы, условное распределение YY совпадает с маргинальным - знание значения XX не меняет «прогноза» для YY. Именно это свойство является математически строгим определением независимости случайных величин через условные вероятности.

Частые ошибки

  • Путать маргинальное с совместным. Знать P(X=x)P(X=x) и P(Y=y)P(Y=y) недостаточно для восстановления p(x,y)p(x,y) - нужно либо совместное распределение, либо условие независимости.
  • Считать нулевую ковариацию признаком независимости. Cov=0\text{Cov}=0 не означает независимости: контрпример - X{1,0,1}X \sim \{-1, 0, 1\} равновероятно, Y=X2Y = X^2.
  • Забыть про условие нормировки. Перед подстановкой в формулы убедитесь, что сумма всех p(xi,yj)p(x_i, y_j) равна ровно 1. Ошибка нормировки «переезжает» во все вычисленные характеристики.
  • Применять формулу дисперсии суммы без ковариации. D[X+Y]=D[X]+D[Y]D[X+Y] = D[X] + D[Y] верно только при независимости; в общем случае нужно добавить 2Cov(X,Y)2\,\text{Cov}(X,Y).
  • Брать E[XY]=E[X]E[Y]E[XY] = E[X]\cdot E[Y]. Это равенство выполняется только при независимости; при зависимости нужно считать E[XY]E[XY] напрямую по совместной таблице.

FAQ

Как проверить независимость X и Y по таблице? Для каждой клетки (xi,yj)(x_i, y_j) проверьте равенство p(xi,yj)=P(X=xi)P(Y=yj)p(x_i, y_j) = P(X=x_i)\cdot P(Y=y_j). Если хотя бы одно равенство нарушено - величины зависимы. На практике проверяют все n×mn \times m клеток.

Чем ковариация отличается от корреляции? Ковариация имеет размерность произведения единиц XX и YY и зависит от масштаба измерений. Корреляция - нормированная ковариация без единиц, всегда в [1,1][-1,1], удобна для сравнения разных пар величин. При одинаковых шкалах обе меры дают одинаковую качественную картину.

Можно ли по маргинальным распределениям восстановить совместное? В общем случае - нет. По P(X=x)P(X=x) и P(Y=y)P(Y=y) существует бесконечно много совместных распределений с теми же маргиналами. Единственный случай однозначного восстановления - независимость: тогда p(x,y)=P(X=x)P(Y=y)p(x,y) = P(X=x)\cdot P(Y=y).

Коротко

Совместное распределение двух случайных величин полностью описывает их совместное поведение. Из него получают маргиналы суммированием по строкам и столбцам, проверяют независимость сравнением p(x,y)p(x,y) с произведением маргиналов, вычисляют ковариацию Cov(X,Y)=E[XY]E[X]E[Y]\text{Cov}(X,Y) = E[XY] - E[X]E[Y] и коэффициент корреляции r=Cov/(σXσY)r = \text{Cov}/(\sigma_X\sigma_Y). Нулевая ковариация не гарантирует независимость, а дисперсия суммы содержит ковариационный член, который обнуляется лишь при независимости.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также