Правило сложения дисперсий: межгрупповая и внутригрупповая

Правило сложения дисперсий - это фундаментальное утверждение математической статистики: общая дисперсия признака равна сумме межгрупповой и средней внутригрупповой дисперсий. Именно на этом тождестве строится логика дисперсионного анализа и оценка влияния фактора в эконометрических моделях. Разберитесь с формулами и механикой расчёта, а затем проверьте понимание через интерактивный разборщик ниже.
Зачем нужно разбивать дисперсию на части
Когда исследователь наблюдает разброс данных, перед ним встаёт вопрос: откуда он берётся? Часть изменчивости объясняется принадлежностью объектов к разным группам (факторная или межгрупповая дисперсия), а часть остаётся внутри каждой группы и объясняется случайными причинами (остаточная или внутригрупповая дисперсия). Правило сложения дисперсий формализует эту идею в одном тождестве:
где - общая дисперсия, - средняя из внутригрупповых дисперсий, - межгрупповая дисперсия (дисперсия групповых средних).
Разложение не приближённое - это алгебраическое равенство, верное при любых данных и любом числе групп.

Общая дисперсия и её формула
Общая дисперсия рассчитывается по всей совокупности наблюдений без учёта группировки. Пусть есть наблюдений (объект в группе ), - общее среднее:
Это исходная мера «суммарного беспорядка» в данных. Она не учитывает структуру групп - объекты рассматриваются единым массивом.
Межгрупповая дисперсия
Межгрупповая дисперсия измеряет, насколько сильно групповые средние отклоняются от общего среднего . Каждое отклонение взвешивается на относительный размер группы :
Если все групповые средние совпадают с общим средним, межгрупповая дисперсия равна нулю: фактор никак не объясняет разброс. Чем дальше группы расходятся друг от друга, тем больше .
Межгрупповую дисперсию также называют «факторной» - именно она отражает систематическое влияние группирующего признака (пола, региона, типа предприятия и т. д.).
Средняя внутригрупповая дисперсия
Внутри каждой группы вычисляется собственная дисперсия относительно группового среднего :
Средняя внутригрупповая дисперсия - это взвешенное среднее таких дисперсий по всем группам:
Эта величина отражает «внутреннюю шумовую» изменчивость, которая не объясняется принадлежностью к группе. В регрессии её аналогом служит дисперсия остатков.
Доказательство тождества
Ключевой приём - добавить и вычесть в разность :
Возводим в квадрат и суммируем по всем :
Перекрёстное слагаемое обнуляется: для каждой группы сумма по равна нулю. Деля всё на , получаем:
Это тождество - не случайность, а прямое следствие определения среднего.

Числовой пример расчёта
Рассмотрим три группы предприятий по числу сотрудников:
| Группа | Значения | ||
|---|---|---|---|
| A (малые) | 10, 12, 14 | 12 | 3 |
| B (средние) | 20, 22, 24 | 22 | 3 |
| C (крупные) | 30, 32, 34 | 32 | 3 |
Общее среднее: .
Межгрупповая дисперсия:
Средняя внутригрупповая дисперсия (каждая ):
Проверка: . Прямой подсчёт по всем 9 значениям даёт (расхождение - округление).
Коэффициент детерминации и эта-квадрат
Отношение межгрупповой дисперсии к общей называется коэффициентом детерминации (или эта-квадрат ):
Он показывает долю общей изменчивости, объяснённую группировкой: , и чем ближе к 1, тем сильнее факторный признак определяет поведение зависимой переменной. В примере выше - группировка по размеру предприятия объясняет 96% разброса в числе сотрудников.
Интерпретация в прикладных задачах:
- - слабый эффект: фактор мало что объясняет, большая часть изменчивости - шум.
- - умеренный эффект: фактор заметен, но объяснительная сила ограничена.
- - сильный эффект: группировка хорошо описывает данные.
Важно помнить, что смещён вверх при малых выборках. Для корректировки используют (омега-квадрат), который даёт несмещённую оценку объяснённой дисперсии в генеральной совокупности.
Связь с дисперсионным анализом ANOVA: в ANOVA суммы квадратов и - это числитель и знаменатель, из которых затем рассчитываются дисперсии и F-критерий. Правило сложения дисперсий - математическое основание всей таблицы ANOVA.
Взаимосвязь с дисперсией суммы независимых случайных величин
Правило сложения дисперсий в смысле разложения выборочной дисперсии по группам следует отличать от другого одноимённого правила вероятностной теории: если и - независимые случайные величины, то . Это разные теоремы.
В контексте статистической группировки речь идёт о разложении одной наблюдаемой дисперсии на составляющие, а не о сложении дисперсий разных переменных. Путаница между двумя «правилами сложения» часто возникает у студентов при написании формул в задачах по математической статистике и эконометрике.
Применение в эконометрике
В эконометрике правило сложения дисперсий используется в нескольких контекстах:
-
Панельные данные: общая вариация зависимой переменной раскладывается на вариацию «между объектами» (between) и «внутри объекта во времени» (within). Выбор между FE- и BE-оценщиком опирается именно на то, какая компонента несёт больше информации. Если мала, а велика, данные слабо информативны для оценки эффектов, меняющихся со временем.
-
Иерархические модели: школьники вложены в классы, классы - в школы. Дисперсия успеваемости раскладывается на три уровня; межгрупповая на каждом уровне задаёт ICC (intraclass correlation). ICC показывает, насколько похожи друг на друга объекты внутри одной группы.
-
Декомпозиция R²: в линейной регрессии - это тот же принцип: доля дисперсии, объяснённой регрессорами. Если регрессор - бинарный индикатор группы, регрессии совпадает с дисперсионного анализа.
-
Дисперсия прогнозной ошибки: при разработке прогнозных моделей полная ошибка раскладывается на систематическую (смещение, аналог межгрупповой) и случайную (дисперсию, аналог внутригрупповой). Минимизация одной компоненты часто увеличивает другую - этот компромисс известен как «смещение-дисперсия».
Понимание правила сложения дисперсий позволяет грамотно интерпретировать статистические пакеты: вывод таблицы ANOVA в R, Python (statsmodels) или SPSS - это буквально оформленное тождество в единицах сумм квадратов.
Частые ошибки
- Перепутать и . Межгрупповая - это дисперсия «по средним», внутригрупповая - «по остаткам от средних»; при подстановке в формулу F-критерия ошибка приводит к обратному результату.
- Не взвешивать при разных . Если группы неравные, в формулах , а не ; иначе тождество не соблюдается.
- Считать как среднее арифметическое дисперсий. Правильно - взвешенное среднее на размеры групп.
- Игнорировать тождество при расчёте: если посчитать , и независимо, сумма двух последних должна совпасть с первой - это встроенный контроль вычислений.
- Путать дисперсию с суммой квадратов. В ANOVA используют (сумма квадратов), а не (дисперсия = ); при написании формул важно указывать, что именно разбивается.
FAQ
Работает ли правило сложения дисперсий при двух группах? Да, при оно полностью сохраняется. Тогда . Именно на нём базируется связь дисперсионного анализа с двухвыборочным t-критерием.
Можно ли применять правило к нечисловым данным? Нет. Дисперсия определяется только для количественных переменных, для которых имеет смысл среднее и квадрат отклонения. Для категориальных переменных используют меры рассеяния на основе энтропии.
Как правило сложения дисперсий связано с теоремой Пифагора? Это один и тот же принцип в разных обозначениях. Разложение описывает два взаимно ортогональных вектора отклонений; сумма квадратов «гипотенузы» равна сумме квадратов «катетов». Нулевое перекрёстное произведение как раз и обеспечивает «прямой угол» в пространстве наблюдений.
Коротко
Правило сложения дисперсий - алгебраическое тождество : общая дисперсия равна сумме средней внутригрупповой и межгрупповой дисперсий. Межгрупповая компонента отражает вклад фактора-группировки, внутригрупповая - случайный шум. Отношение показывает, насколько хорошо группировка объясняет разброс. На этом же тождестве строится таблица ANOVA, коэффициент детерминации регрессии и декомпозиция вариации в панельных моделях эконометрики.
Читайте также

Коэффициент вариации: интерпретация и пороги однородности
Коэффициент вариации интерпретация на примерах: что означают значения до 33 процентов, от 33 до 50 и выше, как читать разброс, сравнивать совокупности и не ошибаться при отрицательном среднем.

Отбор факторов в множественной регрессии: методы и критерии
Как отбирать факторы в множественной регрессии: пошаговый, прямой и обратный отбор, проверка значимости, мультиколлинеарность и VIF, критерии AIC и скорректированный R квадрат.

Средний уровень моментного ряда: хронологическая средняя
Как считать средний уровень моментного ряда динамики через среднюю хронологическую: формула с половинными весами крайних уровней, разбор отличия от интервального ряда и примеры расчёта.