EssayAI
Блог
Блог
Гуманитарные науки

Проверка гетероскедастичности остатков: методы и тесты

17 июня 2026Время чтения: 8 минут
#гетероскедастичность#остатки регрессии#тест Уайта#МНК#эконометрика
Проверка гетероскедастичности остатков: методы и тесты

Гетероскедастичность остатков - одно из самых распространённых нарушений предпосылок метода наименьших квадратов в эконометрических моделях. Когда дисперсия ошибок не постоянна, оценки коэффициентов остаются несмещёнными, но их стандартные ошибки и t-статистики теряют достоверность. Это делает проверку гетероскедастичности обязательным шагом диагностики любой регрессионной модели. Ниже разберём основные методы обнаружения - от графических до формальных тестов, а также стратегии устранения проблемы.

Что такое гетероскедастичность и почему она опасна

Гомоскедастичность означает, что дисперсия случайной ошибки одинакова для всех наблюдений: Var(εi)=σ2=const\operatorname{Var}(\varepsilon_i) = \sigma^2 = \text{const}. Гетероскедастичность нарушает это условие: Var(εi)=σi2\operatorname{Var}(\varepsilon_i) = \sigma_i^2, где величина σi2\sigma_i^2 меняется от наблюдения к наблюдению.

Типичные источники: данные с разными размерами единиц (расходы крупных и мелких фирм), агрегированные данные (усреднённые по регионам с разными размерами), временные ряды с нестабильной волатильностью, кросс-секционные данные по домохозяйствам с разным уровнем дохода.

Последствия для МНК-оценок:

  • коэффициенты β^\hat{\beta} остаются несмещёнными, но неэффективными (не минимальная дисперсия);
  • стандартные ошибки коэффициентов оцениваются неверно - как правило, занижаются;
  • t-статистики и F-статистика искажены, вывод о значимости ненадёжен;
  • доверительные интервалы слишком узкие (или слишком широкие), что ведёт к ложным выводам.
Веерообразный разброс остатков при гетероскедастичности
Веерообразный разброс остатков при гетероскедастичности

Графические методы первичной диагностики

Первый шаг - построить графики остатков. Три основных:

График остатков против подогнанных значений e^i\hat{e}_i vs Y^i\hat{Y}_i. При гомоскедастичности точки образуют горизонтальную полосу без расширения. Если полоса «раскрывается веером» - сигнал гетероскедастичности.

График стандартизованных остатков e^i/s\hat{e}_i / s против каждого регрессора XjX_j. Позволяет определить, от какого именно фактора зависит дисперсия ошибок.

График квантилей остатков (QQ-plot) выявляет отклонения от нормальности, которые нередко сопровождают гетероскедастичность в реальных данных.

Графический анализ - необходимый, но не достаточный шаг: на малых выборках субъективное восприятие может ошибаться. Формальные тесты дают объективную оценку с заданным уровнем значимости.

Графики остатков стройте всегда - до применения формальных тестов. Нестандартная форма зависимости (U-образная, периодическая) иногда указывает на пропущенный нелинейный регрессор, а не на гетероскедастичность.

Тест Голдфелда-Квандта

Тест Голдфелда-Квандта (1965) - один из первых формальных тестов, подходит когда гетероскедастичность связана с одним конкретным регрессором.

Алгоритм:

  1. Отсортировать наблюдения по предполагаемому источнику гетероскедастичности - переменной XX.
  2. Отбросить центральные cc наблюдений (обычно 20-25% от nn), получить две подвыборки: первые n1n_1 и последние n2n_2.
  3. Оценить МНК-регрессию отдельно для каждой подвыборки, получить остаточные суммы квадратов RSS1RSS_1 и RSS2RSS_2.
  4. Вычислить статистику F=RSS2/(n2k)RSS1/(n1k)F = \dfrac{RSS_2 / (n_2 - k)}{RSS_1 / (n_1 - k)} при предположении, что σ22>σ12\sigma_2^2 > \sigma_1^2.
  5. При нулевой гипотезе об равенстве дисперсий FF(n2k,n1k)F \sim F(n_2 - k,\, n_1 - k).

Недостаток: тест чувствителен только к монотонно нарастающей гетероскедастичности вдоль выбранной переменной. Если дисперсия меняется нелинейно или зависит от нескольких факторов - тест потеряет мощность.

Тест Бройша-Пагана

Тест Бройша-Пагана (1979) более гибок: он проверяет, зависит ли дисперсия ошибок от линейной комбинации регрессоров.

Алгоритм:

  1. Оценить исходную МНК-регрессию, получить остатки e^i\hat{e}_i.
  2. Построить вспомогательную регрессию квадратов остатков на регрессоры: e^i2=γ0+γ1X1i++γkXki+vi\hat{e}_i^2 = \gamma_0 + \gamma_1 X_{1i} + \ldots + \gamma_k X_{ki} + v_i.
  3. Вычислить LM-статистику: LM=nRвспом2LM = n \cdot R^2_{\text{вспом}}, где Rвспом2R^2_{\text{вспом}} - коэффициент детерминации вспомогательной регрессии.
  4. При нулевой гипотезе H0:γ1==γk=0H_0: \gamma_1 = \ldots = \gamma_k = 0 статистика LMdχ2(k)LM \xrightarrow{d} \chi^2(k).

Отвергаем H0H_0 если LM>χα2(k)LM > \chi^2_{\alpha}(k). p-значение < 0,05 указывает на значимую гетероскедастичность, связанную с включёнными регрессорами.

Тест Уайта

Тест Уайта (1980) - наиболее универсальный, не требует заранее знать функциональную форму гетероскедастичности.

Идея: во вспомогательную регрессию включаются не только сами регрессоры, но и их квадраты, и все попарные произведения. Это позволяет уловить нелинейные зависимости дисперсии от факторов.

Для простой регрессии Y=β0+β1X+εY = \beta_0 + \beta_1 X + \varepsilon вспомогательная регрессия: e^i2=γ0+γ1Xi+γ2Xi2+vi\hat{e}_i^2 = \gamma_0 + \gamma_1 X_i + \gamma_2 X_i^2 + v_i, df=2df = 2.

Для множественной с kk регрессорами количество членов вспомогательной регрессии равно k+(k2)+k=k(k+3)2k + \binom{k}{2} + k = \frac{k(k+3)}{2}. При большом kk тест теряет мощность из-за большого числа степеней свободы.

Статистика та же: nR2χ2(m)n R^2 \sim \chi^2(m), где mm - число ограничений (число добавленных квадратов и произведений).

Вспомогательная регрессия теста Уайта: квадраты и произведения регрессоров
Вспомогательная регрессия теста Уайта: квадраты и произведения регрессоров

Сравнение тестов: какой выбрать

ТестГипотезаПрименимостьСтепени свободы
Голдфелд-Квандтдисперсия монотонно растёт вдоль XjX_jодин известный источникn1kn_1 - k, n2kn_2 - k
Бройш-ПаганVar(ε)=f(Xγ)\operatorname{Var}(\varepsilon) = f(\mathbf{X}\gamma)линейная связь дисперсии с регрессорамиkk
Уайтлюбая форма гетероскедастичностиуниверсальныйk(k+3)/2k(k+3)/2

Практические рекомендации:

  • если есть априорное предположение об источнике - начните с Голдфелда-Квандта или Бройша-Пагана;
  • для общей диагностики без предположений используйте тест Уайта;
  • при большом числе регрессоров (k > 4-5) мощность теста Уайта снижается, поэтому его применяют совместно с Бройшем-Паганом.

В прикладных пакетах (R, Stata, Python statsmodels) все три теста реализованы готовыми функциями. В R: bptest() из пакета lmtest, white.test() из whitestrap; в Python: het_breuschpagan() и het_white() из statsmodels.stats.diagnostic.

Устранение гетероскедастичности

Обнаружив гетероскедастичность, применяют один из подходов:

1. Взвешенный МНК (WLS). Если функциональная форма σi2=σ2h(Xi)\sigma_i^2 = \sigma^2 h(X_i) известна, каждое наблюдение взвешивается на 1/h(Xi)1/\sqrt{h(X_i)}. После взвешивания новая ошибка имеет постоянную дисперсию.

2. Робастные стандартные ошибки (HC-ошибки). Метод Уайта (1980) позволяет получить состоятельные оценки ковариационной матрицы без корректировки самих коэффициентов. Используют версии HC0, HC1, HC2, HC3 (HC3 рекомендуется на малых выборках). Коэффициенты те же, что у МНК, но t-статистики и F-статистика теперь достоверны.

3. Логарифмирование. Если зависимая переменная правосторонне скошена (доходы, объёмы, цены), переход к логарифму часто стабилизирует дисперсию и устраняет гетероскедастичность естественным образом.

4. Обобщённый МНК (GLS). Если структура гетероскедастичности известна параметрически, GLS даёт состоятельные и эффективные оценки.

Робастные стандартные ошибки (HC) не устраняют гетероскедастичность - они лишь корректируют оценки неопределённости коэффициентов. Если гетероскедастичность очень сильная и структурная, WLS даст более эффективные оценки, чем робастные поправки к обычному МНК.

Гетероскедастичность в задачах курсового проекта

В курсовых и дипломных работах по эконометрике стандартная последовательность диагностики выглядит так:

  1. Оценить МНК-регрессию, сохранить остатки e^i\hat{e}_i.
  2. Построить графики e^i\hat{e}_i против Y^i\hat{Y}_i и каждого XjX_j - зафиксировать наблюдаемые закономерности.
  3. Провести тест Бройша-Пагана - проверить линейную зависимость дисперсии от регрессоров.
  4. При подозрении на нелинейную гетероскедастичность - дополнительно тест Уайта.
  5. Если тест значим - выбрать метод устранения (HC-ошибки или WLS), переоценить модель и снова проверить.

Важно помнить, что тест, выявивший гетероскедастичность, сам по себе ничего не говорит о её причинах и структуре - это требует содержательного анализа данных.

Наряду с гетероскедастичностью на практике часто встречается и автокорреляция остатков - другое нарушение предпосылок МНК, которое также делает стандартные ошибки недостоверными.

Сравнение МНК и WLS при наличии гетероскедастичности
Сравнение МНК и WLS при наличии гетероскедастичности

Частые ошибки

  • Полагаться только на графики. Визуальная диагностика субъективна: на малых выборках «веер» может быть случайным. Всегда дополняйте формальным тестом.
  • Применять один тест для всех ситуаций. Тест Голдфелда-Квандта с произвольно выбранным регрессором для сортировки теряет смысл, если гетероскедастичность зависит от другого фактора.
  • Путать гетероскедастичность с автокорреляцией. Оба нарушения дают смещённые стандартные ошибки, но причины и методы устранения разные. Применяйте соответствующие тесты к каждому нарушению отдельно.
  • Использовать робастные ошибки, не проверив необходимость. На малых выборках HC-коррекция может ухудшить точность оценок. Применяйте её осмысленно, а не «на всякий случай».
  • Не сообщать о выборе стандартных ошибок в работе. В исследовательской работе необходимо явно указать, использовались ли обычные МНК-стандартные ошибки, HC или WLS, и обосновать выбор.

FAQ

Влияет ли гетероскедастичность на коэффициенты регрессии? Нет, МНК-оценки коэффициентов при гетероскедастичности остаются несмещёнными и состоятельными. Гетероскедастичность влияет на эффективность (не минимальная дисперсия) и достоверность стандартных ошибок, но не смещает β^\hat{\beta}.

Что означает p-значение > 0,05 в тесте Бройша-Пагана? Нет оснований отвергнуть нулевую гипотезу об гомоскедастичности при данном уровне значимости. Это не доказывает отсутствие гетероскедастичности - тест может иметь недостаточную мощность. Проверьте визуально и при необходимости применяйте тест Уайта.

Можно ли применять робастные стандартные ошибки профилактически, без теста? В современной прикладной эконометрике использование HC-ошибок стало нормой в кросс-секционных данных даже без предварительного теста, поскольку реальные данные редко строго гомоскедастичны. Тем не менее в академических работах принято обосновывать этот выбор результатами диагностических тестов.

Коротко

Проверка гетероскедастичности остатков - обязательный этап диагностики регрессионной модели. Начинают с графиков остатков против подогнанных значений и регрессоров, затем применяют формальные тесты: Голдфелда-Квандта (для монотонной гетероскедастичности вдоль одного фактора), Бройша-Пагана (для линейной зависимости дисперсии от регрессоров) или Уайта (универсальный, без предположений о форме). При обнаружении гетероскедастичности используют робастные стандартные ошибки Уайта (HC), взвешенный МНК или логарифмирование зависимой переменной. Ключевое правило: не ограничиваться одним методом диагностики - сочетать графический анализ с формальными тестами.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также