Проверка гетероскедастичности остатков: методы и тесты

17 июня 2026Время чтения: 8 минут

#гетероскедастичность#остатки регрессии#тест Уайта#МНК#эконометрика

Гетероскедастичность остатков - одно из самых распространённых нарушений предпосылок метода наименьших квадратов в эконометрических моделях. Когда дисперсия ошибок не постоянна, оценки коэффициентов остаются несмещёнными, но их стандартные ошибки и t-статистики теряют достоверность. Это делает проверку гетероскедастичности обязательным шагом диагностики любой регрессионной модели. Ниже разберём основные методы обнаружения - от графических до формальных тестов, а также стратегии устранения проблемы.

Что такое гетероскедастичность и почему она опасна

Гомоскедастичность означает, что дисперсия случайной ошибки одинакова для всех наблюдений: $\operatorname{Var}(\varepsilon_i) = \sigma^2 = \text{const}$ . Гетероскедастичность нарушает это условие: $\operatorname{Var}(\varepsilon_i) = \sigma_i^2$ , где величина $\sigma_i^2$ меняется от наблюдения к наблюдению.

Типичные источники: данные с разными размерами единиц (расходы крупных и мелких фирм), агрегированные данные (усреднённые по регионам с разными размерами), временные ряды с нестабильной волатильностью, кросс-секционные данные по домохозяйствам с разным уровнем дохода.

Последствия для МНК-оценок:

коэффициенты $\hat{\beta}$ остаются несмещёнными, но неэффективными (не минимальная дисперсия);
стандартные ошибки коэффициентов оцениваются неверно - как правило, занижаются;
t-статистики и F-статистика искажены, вывод о значимости ненадёжен;
доверительные интервалы слишком узкие (или слишком широкие), что ведёт к ложным выводам.

Веерообразный разброс остатков при гетероскедастичности

Графические методы первичной диагностики

Первый шаг - построить графики остатков. Три основных:

График остатков против подогнанных значений $\hat{e}_i$ vs $\hat{Y}_i$ . При гомоскедастичности точки образуют горизонтальную полосу без расширения. Если полоса «раскрывается веером» - сигнал гетероскедастичности.

График стандартизованных остатков $\hat{e}_i / s$ против каждого регрессора $X_j$ . Позволяет определить, от какого именно фактора зависит дисперсия ошибок.

График квантилей остатков (QQ-plot) выявляет отклонения от нормальности, которые нередко сопровождают гетероскедастичность в реальных данных.

Графический анализ - необходимый, но не достаточный шаг: на малых выборках субъективное восприятие может ошибаться. Формальные тесты дают объективную оценку с заданным уровнем значимости.

Графики остатков стройте всегда - до применения формальных тестов. Нестандартная форма зависимости (U-образная, периодическая) иногда указывает на пропущенный нелинейный регрессор, а не на гетероскедастичность.

Тест Голдфелда-Квандта

Тест Голдфелда-Квандта (1965) - один из первых формальных тестов, подходит когда гетероскедастичность связана с одним конкретным регрессором.

Алгоритм:

Отсортировать наблюдения по предполагаемому источнику гетероскедастичности - переменной $X$ .
Отбросить центральные $c$ наблюдений (обычно 20-25% от $n$ ), получить две подвыборки: первые $n_1$ и последние $n_2$ .
Оценить МНК-регрессию отдельно для каждой подвыборки, получить остаточные суммы квадратов $RSS_1$ и $RSS_2$ .
Вычислить статистику $F = \dfrac{RSS_2 / (n_2 - k)}{RSS_1 / (n_1 - k)}$ при предположении, что $\sigma_2^2 > \sigma_1^2$ .
При нулевой гипотезе об равенстве дисперсий $F \sim F(n_2 - k,\, n_1 - k)$ .

Недостаток: тест чувствителен только к монотонно нарастающей гетероскедастичности вдоль выбранной переменной. Если дисперсия меняется нелинейно или зависит от нескольких факторов - тест потеряет мощность.

Тест Бройша-Пагана

Тест Бройша-Пагана (1979) более гибок: он проверяет, зависит ли дисперсия ошибок от линейной комбинации регрессоров.

Алгоритм:

Оценить исходную МНК-регрессию, получить остатки $\hat{e}_i$ .
Построить вспомогательную регрессию квадратов остатков на регрессоры: $\hat{e}_i^2 = \gamma_0 + \gamma_1 X_{1i} + \ldots + \gamma_k X_{ki} + v_i$ .
Вычислить LM-статистику: $LM = n \cdot R^2_{\text{вспом}}$ , где $R^2_{\text{вспом}}$ - коэффициент детерминации вспомогательной регрессии.
При нулевой гипотезе $H_0: \gamma_1 = \ldots = \gamma_k = 0$ статистика $LM \xrightarrow{d} \chi^2(k)$ .

Отвергаем $H_0$ если $LM > \chi^2_{\alpha}(k)$ . p-значение < 0,05 указывает на значимую гетероскедастичность, связанную с включёнными регрессорами.

Тест Уайта

Тест Уайта (1980) - наиболее универсальный, не требует заранее знать функциональную форму гетероскедастичности.

Идея: во вспомогательную регрессию включаются не только сами регрессоры, но и их квадраты, и все попарные произведения. Это позволяет уловить нелинейные зависимости дисперсии от факторов.

Для простой регрессии $Y = \beta_0 + \beta_1 X + \varepsilon$ вспомогательная регрессия: $\hat{e}_i^2 = \gamma_0 + \gamma_1 X_i + \gamma_2 X_i^2 + v_i$ , $df = 2$ .

Для множественной с $k$ регрессорами количество членов вспомогательной регрессии равно $k + \binom{k}{2} + k = \frac{k(k+3)}{2}$ . При большом $k$ тест теряет мощность из-за большого числа степеней свободы.

Статистика та же: $n R^2 \sim \chi^2(m)$ , где $m$ - число ограничений (число добавленных квадратов и произведений).

Вспомогательная регрессия теста Уайта: квадраты и произведения регрессоров

Сравнение тестов: какой выбрать

Тест	Гипотеза	Применимость	Степени свободы
Голдфелд-Квандт	дисперсия монотонно растёт вдоль $X_j$	один известный источник	$n_1 - k$ , $n_2 - k$
Бройш-Паган	$\operatorname{Var}(\varepsilon) = f(\mathbf{X}\gamma)$	линейная связь дисперсии с регрессорами	$k$
Уайт	любая форма гетероскедастичности	универсальный	$k(k+3)/2$

Практические рекомендации:

если есть априорное предположение об источнике - начните с Голдфелда-Квандта или Бройша-Пагана;
для общей диагностики без предположений используйте тест Уайта;
при большом числе регрессоров (k > 4-5) мощность теста Уайта снижается, поэтому его применяют совместно с Бройшем-Паганом.

В прикладных пакетах (R, Stata, Python statsmodels) все три теста реализованы готовыми функциями. В R: bptest() из пакета lmtest, white.test() из whitestrap; в Python: het_breuschpagan() и het_white() из statsmodels.stats.diagnostic.

Устранение гетероскедастичности

Обнаружив гетероскедастичность, применяют один из подходов:

1. Взвешенный МНК (WLS). Если функциональная форма $\sigma_i^2 = \sigma^2 h(X_i)$ известна, каждое наблюдение взвешивается на $1/\sqrt{h(X_i)}$ . После взвешивания новая ошибка имеет постоянную дисперсию.

2. Робастные стандартные ошибки (HC-ошибки). Метод Уайта (1980) позволяет получить состоятельные оценки ковариационной матрицы без корректировки самих коэффициентов. Используют версии HC0, HC1, HC2, HC3 (HC3 рекомендуется на малых выборках). Коэффициенты те же, что у МНК, но t-статистики и F-статистика теперь достоверны.

3. Логарифмирование. Если зависимая переменная правосторонне скошена (доходы, объёмы, цены), переход к логарифму часто стабилизирует дисперсию и устраняет гетероскедастичность естественным образом.

4. Обобщённый МНК (GLS). Если структура гетероскедастичности известна параметрически, GLS даёт состоятельные и эффективные оценки.

Робастные стандартные ошибки (HC) не устраняют гетероскедастичность - они лишь корректируют оценки неопределённости коэффициентов. Если гетероскедастичность очень сильная и структурная, WLS даст более эффективные оценки, чем робастные поправки к обычному МНК.

Гетероскедастичность в задачах курсового проекта

В курсовых и дипломных работах по эконометрике стандартная последовательность диагностики выглядит так:

Оценить МНК-регрессию, сохранить остатки $\hat{e}_i$ .
Построить графики $\hat{e}_i$ против $\hat{Y}_i$ и каждого $X_j$ - зафиксировать наблюдаемые закономерности.
Провести тест Бройша-Пагана - проверить линейную зависимость дисперсии от регрессоров.
При подозрении на нелинейную гетероскедастичность - дополнительно тест Уайта.
Если тест значим - выбрать метод устранения (HC-ошибки или WLS), переоценить модель и снова проверить.

Важно помнить, что тест, выявивший гетероскедастичность, сам по себе ничего не говорит о её причинах и структуре - это требует содержательного анализа данных.

Наряду с гетероскедастичностью на практике часто встречается и автокорреляция остатков - другое нарушение предпосылок МНК, которое также делает стандартные ошибки недостоверными.

Сравнение МНК и WLS при наличии гетероскедастичности

Частые ошибки

Полагаться только на графики. Визуальная диагностика субъективна: на малых выборках «веер» может быть случайным. Всегда дополняйте формальным тестом.
Применять один тест для всех ситуаций. Тест Голдфелда-Квандта с произвольно выбранным регрессором для сортировки теряет смысл, если гетероскедастичность зависит от другого фактора.
Путать гетероскедастичность с автокорреляцией. Оба нарушения дают смещённые стандартные ошибки, но причины и методы устранения разные. Применяйте соответствующие тесты к каждому нарушению отдельно.
Использовать робастные ошибки, не проверив необходимость. На малых выборках HC-коррекция может ухудшить точность оценок. Применяйте её осмысленно, а не «на всякий случай».
Не сообщать о выборе стандартных ошибок в работе. В исследовательской работе необходимо явно указать, использовались ли обычные МНК-стандартные ошибки, HC или WLS, и обосновать выбор.

FAQ

Влияет ли гетероскедастичность на коэффициенты регрессии? Нет, МНК-оценки коэффициентов при гетероскедастичности остаются несмещёнными и состоятельными. Гетероскедастичность влияет на эффективность (не минимальная дисперсия) и достоверность стандартных ошибок, но не смещает $\hat{\beta}$ .

Что означает p-значение > 0,05 в тесте Бройша-Пагана? Нет оснований отвергнуть нулевую гипотезу об гомоскедастичности при данном уровне значимости. Это не доказывает отсутствие гетероскедастичности - тест может иметь недостаточную мощность. Проверьте визуально и при необходимости применяйте тест Уайта.

Можно ли применять робастные стандартные ошибки профилактически, без теста? В современной прикладной эконометрике использование HC-ошибок стало нормой в кросс-секционных данных даже без предварительного теста, поскольку реальные данные редко строго гомоскедастичны. Тем не менее в академических работах принято обосновывать этот выбор результатами диагностических тестов.

Коротко

Проверка гетероскедастичности остатков - обязательный этап диагностики регрессионной модели. Начинают с графиков остатков против подогнанных значений и регрессоров, затем применяют формальные тесты: Голдфелда-Квандта (для монотонной гетероскедастичности вдоль одного фактора), Бройша-Пагана (для линейной зависимости дисперсии от регрессоров) или Уайта (универсальный, без предположений о форме). При обнаружении гетероскедастичности используют робастные стандартные ошибки Уайта (HC), взвешенный МНК или логарифмирование зависимой переменной. Ключевое правило: не ограничиваться одним методом диагностики - сочетать графический анализ с формальными тестами.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN