EssayAI
Блог
Блог
Математика и алгоритмы

Правило сложения дисперсий: межгрупповая и внутригрупповая

17 июня 2026Время чтения: 8 минут
#дисперсия#правило сложения дисперсий#межгрупповая дисперсия#эконометрика#статистика
Правило сложения дисперсий: межгрупповая и внутригрупповая

Правило сложения дисперсий - это фундаментальное утверждение математической статистики: общая дисперсия признака равна сумме межгрупповой и средней внутригрупповой дисперсий. Именно на этом тождестве строится логика дисперсионного анализа и оценка влияния фактора в эконометрических моделях. Разберитесь с формулами и механикой расчёта, а затем проверьте понимание через интерактивный разборщик ниже.

Зачем нужно разбивать дисперсию на части

Когда исследователь наблюдает разброс данных, перед ним встаёт вопрос: откуда он берётся? Часть изменчивости объясняется принадлежностью объектов к разным группам (факторная или межгрупповая дисперсия), а часть остаётся внутри каждой группы и объясняется случайными причинами (остаточная или внутригрупповая дисперсия). Правило сложения дисперсий формализует эту идею в одном тождестве:

D=dˉ+DxˉD = \bar{d} + D_{\bar{x}}

где DD - общая дисперсия, dˉ\bar{d} - средняя из внутригрупповых дисперсий, DxˉD_{\bar{x}} - межгрупповая дисперсия (дисперсия групповых средних).

Разложение не приближённое - это алгебраическое равенство, верное при любых данных и любом числе групп.

Схема разложения общей дисперсии на межгрупповую и внутригрупповую части: два прямоугольника складываются в общий блок
Схема разложения общей дисперсии на межгрупповую и внутригрупповую части: два прямоугольника складываются в общий блок

Общая дисперсия и её формула

Общая дисперсия рассчитывается по всей совокупности наблюдений без учёта группировки. Пусть есть NN наблюдений xijx_{ij} (объект jj в группе ii), xˉ\bar{x} - общее среднее:

D=1Ni=1kj=1ni(xijxˉ)2D = \frac{1}{N} \sum_{i=1}^{k} \sum_{j=1}^{n_i} (x_{ij} - \bar{x})^2

Это исходная мера «суммарного беспорядка» в данных. Она не учитывает структуру групп - объекты рассматриваются единым массивом.

Межгрупповая дисперсия

Межгрупповая дисперсия DxˉD_{\bar{x}} измеряет, насколько сильно групповые средние xˉi\bar{x}_i отклоняются от общего среднего xˉ\bar{x}. Каждое отклонение взвешивается на относительный размер группы wi=ni/Nw_i = n_i / N:

Dxˉ=i=1kwi(xˉixˉ)2=1Ni=1kni(xˉixˉ)2D_{\bar{x}} = \sum_{i=1}^{k} w_i\,(\bar{x}_i - \bar{x})^2 = \frac{1}{N}\sum_{i=1}^{k} n_i\,(\bar{x}_i - \bar{x})^2

Если все групповые средние совпадают с общим средним, межгрупповая дисперсия равна нулю: фактор никак не объясняет разброс. Чем дальше группы расходятся друг от друга, тем больше DxˉD_{\bar{x}}.

Межгрупповую дисперсию также называют «факторной» - именно она отражает систематическое влияние группирующего признака (пола, региона, типа предприятия и т. д.).

Средняя внутригрупповая дисперсия

Внутри каждой группы ii вычисляется собственная дисперсия did_i относительно группового среднего xˉi\bar{x}_i:

di=1nij=1ni(xijxˉi)2d_i = \frac{1}{n_i} \sum_{j=1}^{n_i} (x_{ij} - \bar{x}_i)^2

Средняя внутригрупповая дисперсия dˉ\bar{d} - это взвешенное среднее таких дисперсий по всем группам:

dˉ=i=1kwidi=1Ni=1kj=1ni(xijxˉi)2\bar{d} = \sum_{i=1}^{k} w_i\, d_i = \frac{1}{N}\sum_{i=1}^{k} \sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2

Эта величина отражает «внутреннюю шумовую» изменчивость, которая не объясняется принадлежностью к группе. В регрессии её аналогом служит дисперсия остатков.

Доказательство тождества

Ключевой приём - добавить и вычесть xˉi\bar{x}_i в разность (xijxˉ)(x_{ij} - \bar{x}):

(xijxˉ)=(xijxˉi)+(xˉixˉ)(x_{ij} - \bar{x}) = (x_{ij} - \bar{x}_i) + (\bar{x}_i - \bar{x})

Возводим в квадрат и суммируем по всем i,ji,j:

i,j(xijxˉ)2=i,j(xijxˉi)2+i,j(xˉixˉ)2+2i,j(xijxˉi)(xˉixˉ)\sum_{i,j}(x_{ij}-\bar{x})^2 = \sum_{i,j}(x_{ij}-\bar{x}_i)^2 + \sum_{i,j}(\bar{x}_i-\bar{x})^2 + 2\sum_{i,j}(x_{ij}-\bar{x}_i)(\bar{x}_i-\bar{x})

Перекрёстное слагаемое обнуляется: для каждой группы ii сумма (xijxˉi)(x_{ij}-\bar{x}_i) по jj равна нулю. Деля всё на NN, получаем:

D=dˉ+DxˉD = \bar{d} + D_{\bar{x}}

Это тождество - не случайность, а прямое следствие определения среднего.

График с тремя группами точек: вертикальные отрезки показывают внутригрупповой разброс, стрелки между средними - межгрупповую дисперсию
График с тремя группами точек: вертикальные отрезки показывают внутригрупповой разброс, стрелки между средними - межгрупповую дисперсию

Числовой пример расчёта

Рассмотрим три группы предприятий по числу сотрудников:

ГруппаЗначенияxˉi\bar{x}_inin_i
A (малые)10, 12, 14123
B (средние)20, 22, 24223
C (крупные)30, 32, 34323

Общее среднее: xˉ=(12+22+32)/3=22\bar{x} = (12 + 22 + 32) / 3 = 22.

Межгрупповая дисперсия: Dxˉ=19[3(1222)2+3(2222)2+3(3222)2]=3100+0+31009=600966,7D_{\bar{x}} = \frac{1}{9}\bigl[3(12-22)^2 + 3(22-22)^2 + 3(32-22)^2\bigr] = \frac{3\cdot100 + 0 + 3\cdot100}{9} = \frac{600}{9} \approx 66{,}7

Средняя внутригрупповая дисперсия (каждая di=(4+0+4)/3=8/3d_i = (4+0+4)/3 = 8/3): dˉ=8/32,67\bar{d} = 8/3 \approx 2{,}67

Проверка: D=66,7+2,6769,4D = 66{,}7 + 2{,}67 \approx 69{,}4. Прямой подсчёт по всем 9 значениям даёт D69,3D \approx 69{,}3 (расхождение - округление).

Коэффициент детерминации и эта-квадрат

Отношение межгрупповой дисперсии к общей называется коэффициентом детерминации (или эта-квадрат η2\eta^2):

η2=DxˉD\eta^2 = \frac{D_{\bar{x}}}{D}

Он показывает долю общей изменчивости, объяснённую группировкой: η2[0,1]\eta^2 \in [0,1], и чем ближе к 1, тем сильнее факторный признак определяет поведение зависимой переменной. В примере выше η266,7/69,40,96\eta^2 \approx 66{,}7 / 69{,}4 \approx 0{,}96 - группировка по размеру предприятия объясняет 96% разброса в числе сотрудников.

Интерпретация η2\eta^2 в прикладных задачах:

  • η2<0,06\eta^2 < 0{,}06 - слабый эффект: фактор мало что объясняет, большая часть изменчивости - шум.
  • 0,06η2<0,140{,}06 \le \eta^2 < 0{,}14 - умеренный эффект: фактор заметен, но объяснительная сила ограничена.
  • η20,14\eta^2 \ge 0{,}14 - сильный эффект: группировка хорошо описывает данные.

Важно помнить, что η2\eta^2 смещён вверх при малых выборках. Для корректировки используют ω2\omega^2 (омега-квадрат), который даёт несмещённую оценку объяснённой дисперсии в генеральной совокупности.

Связь с дисперсионным анализом ANOVA: в ANOVA суммы квадратов SSbetweenSS_{\text{between}} и SSwithinSS_{\text{within}} - это числитель и знаменатель, из которых затем рассчитываются дисперсии и F-критерий. Правило сложения дисперсий - математическое основание всей таблицы ANOVA.

Взаимосвязь с дисперсией суммы независимых случайных величин

Правило сложения дисперсий в смысле разложения выборочной дисперсии по группам следует отличать от другого одноимённого правила вероятностной теории: если XX и YY - независимые случайные величины, то Var(X+Y)=Var(X)+Var(Y)\mathrm{Var}(X+Y) = \mathrm{Var}(X) + \mathrm{Var}(Y). Это разные теоремы.

В контексте статистической группировки речь идёт о разложении одной наблюдаемой дисперсии на составляющие, а не о сложении дисперсий разных переменных. Путаница между двумя «правилами сложения» часто возникает у студентов при написании формул в задачах по математической статистике и эконометрике.

Применение в эконометрике

В эконометрике правило сложения дисперсий используется в нескольких контекстах:

  1. Панельные данные: общая вариация зависимой переменной раскладывается на вариацию «между объектами» (between) и «внутри объекта во времени» (within). Выбор между FE- и BE-оценщиком опирается именно на то, какая компонента несёт больше информации. Если DwithinD_{\text{within}} мала, а DbetweenD_{\text{between}} велика, данные слабо информативны для оценки эффектов, меняющихся со временем.

  2. Иерархические модели: школьники вложены в классы, классы - в школы. Дисперсия успеваемости раскладывается на три уровня; межгрупповая на каждом уровне задаёт ICC (intraclass correlation). ICC =Dмежду/Dобщая= D_{\text{между}} / D_{\text{общая}} показывает, насколько похожи друг на друга объекты внутри одной группы.

  3. Декомпозиция R²: в линейной регрессии R2=SSreg/SStotalR^2 = SS_{\text{reg}} / SS_{\text{total}} - это тот же принцип: доля дисперсии, объяснённой регрессорами. Если регрессор - бинарный индикатор группы, R2R^2 регрессии совпадает с η2\eta^2 дисперсионного анализа.

  4. Дисперсия прогнозной ошибки: при разработке прогнозных моделей полная ошибка раскладывается на систематическую (смещение, аналог межгрупповой) и случайную (дисперсию, аналог внутригрупповой). Минимизация одной компоненты часто увеличивает другую - этот компромисс известен как «смещение-дисперсия».

Понимание правила сложения дисперсий позволяет грамотно интерпретировать статистические пакеты: вывод таблицы ANOVA в R, Python (statsmodels) или SPSS - это буквально оформленное тождество D=dˉ+DxˉD = \bar{d} + D_{\bar{x}} в единицах сумм квадратов.

Частые ошибки

  • Перепутать dˉ\bar{d} и DxˉD_{\bar{x}}. Межгрупповая - это дисперсия «по средним», внутригрупповая - «по остаткам от средних»; при подстановке в формулу F-критерия ошибка приводит к обратному результату.
  • Не взвешивать при разных nin_i. Если группы неравные, в формулах wi=ni/Nw_i = n_i/N, а не 1/k1/k; иначе тождество не соблюдается.
  • Считать dˉ\bar{d} как среднее арифметическое дисперсий. Правильно - взвешенное среднее на размеры групп.
  • Игнорировать тождество при расчёте: если посчитать DD, DxˉD_{\bar{x}} и dˉ\bar{d} независимо, сумма двух последних должна совпасть с первой - это встроенный контроль вычислений.
  • Путать дисперсию с суммой квадратов. В ANOVA используют SSSS (сумма квадратов), а не DD (дисперсия = SS/NSS/N); при написании формул важно указывать, что именно разбивается.

FAQ

Работает ли правило сложения дисперсий при двух группах? Да, при k=2k = 2 оно полностью сохраняется. Тогда Dxˉ=w1(xˉ1xˉ)2+w2(xˉ2xˉ)2D_{\bar{x}} = w_1(\bar{x}_1-\bar{x})^2 + w_2(\bar{x}_2-\bar{x})^2. Именно на нём базируется связь дисперсионного анализа с двухвыборочным t-критерием.

Можно ли применять правило к нечисловым данным? Нет. Дисперсия определяется только для количественных переменных, для которых имеет смысл среднее и квадрат отклонения. Для категориальных переменных используют меры рассеяния на основе энтропии.

Как правило сложения дисперсий связано с теоремой Пифагора? Это один и тот же принцип в разных обозначениях. Разложение (xijxˉ)=(xijxˉi)+(xˉixˉ)(x_{ij}-\bar{x}) = (x_{ij}-\bar{x}_i) + (\bar{x}_i-\bar{x}) описывает два взаимно ортогональных вектора отклонений; сумма квадратов «гипотенузы» равна сумме квадратов «катетов». Нулевое перекрёстное произведение как раз и обеспечивает «прямой угол» в пространстве наблюдений.

Коротко

Правило сложения дисперсий - алгебраическое тождество D=dˉ+DxˉD = \bar{d} + D_{\bar{x}}: общая дисперсия равна сумме средней внутригрупповой и межгрупповой дисперсий. Межгрупповая компонента отражает вклад фактора-группировки, внутригрупповая - случайный шум. Отношение η2=Dxˉ/D\eta^2 = D_{\bar{x}}/D показывает, насколько хорошо группировка объясняет разброс. На этом же тождестве строится таблица ANOVA, коэффициент детерминации регрессии и декомпозиция вариации в панельных моделях эконометрики.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также