Проверка гетероскедастичности остатков: методы и тесты

Гетероскедастичность остатков - одно из самых распространённых нарушений предпосылок метода наименьших квадратов в эконометрических моделях. Когда дисперсия ошибок не постоянна, оценки коэффициентов остаются несмещёнными, но их стандартные ошибки и t-статистики теряют достоверность. Это делает проверку гетероскедастичности обязательным шагом диагностики любой регрессионной модели. Ниже разберём основные методы обнаружения - от графических до формальных тестов, а также стратегии устранения проблемы.
Что такое гетероскедастичность и почему она опасна
Гомоскедастичность означает, что дисперсия случайной ошибки одинакова для всех наблюдений: . Гетероскедастичность нарушает это условие: , где величина меняется от наблюдения к наблюдению.
Типичные источники: данные с разными размерами единиц (расходы крупных и мелких фирм), агрегированные данные (усреднённые по регионам с разными размерами), временные ряды с нестабильной волатильностью, кросс-секционные данные по домохозяйствам с разным уровнем дохода.
Последствия для МНК-оценок:
- коэффициенты остаются несмещёнными, но неэффективными (не минимальная дисперсия);
- стандартные ошибки коэффициентов оцениваются неверно - как правило, занижаются;
- t-статистики и F-статистика искажены, вывод о значимости ненадёжен;
- доверительные интервалы слишком узкие (или слишком широкие), что ведёт к ложным выводам.

Графические методы первичной диагностики
Первый шаг - построить графики остатков. Три основных:
График остатков против подогнанных значений vs . При гомоскедастичности точки образуют горизонтальную полосу без расширения. Если полоса «раскрывается веером» - сигнал гетероскедастичности.
График стандартизованных остатков против каждого регрессора . Позволяет определить, от какого именно фактора зависит дисперсия ошибок.
График квантилей остатков (QQ-plot) выявляет отклонения от нормальности, которые нередко сопровождают гетероскедастичность в реальных данных.
Графический анализ - необходимый, но не достаточный шаг: на малых выборках субъективное восприятие может ошибаться. Формальные тесты дают объективную оценку с заданным уровнем значимости.
Графики остатков стройте всегда - до применения формальных тестов. Нестандартная форма зависимости (U-образная, периодическая) иногда указывает на пропущенный нелинейный регрессор, а не на гетероскедастичность.
Тест Голдфелда-Квандта
Тест Голдфелда-Квандта (1965) - один из первых формальных тестов, подходит когда гетероскедастичность связана с одним конкретным регрессором.
Алгоритм:
- Отсортировать наблюдения по предполагаемому источнику гетероскедастичности - переменной .
- Отбросить центральные наблюдений (обычно 20-25% от ), получить две подвыборки: первые и последние .
- Оценить МНК-регрессию отдельно для каждой подвыборки, получить остаточные суммы квадратов и .
- Вычислить статистику при предположении, что .
- При нулевой гипотезе об равенстве дисперсий .
Недостаток: тест чувствителен только к монотонно нарастающей гетероскедастичности вдоль выбранной переменной. Если дисперсия меняется нелинейно или зависит от нескольких факторов - тест потеряет мощность.
Тест Бройша-Пагана
Тест Бройша-Пагана (1979) более гибок: он проверяет, зависит ли дисперсия ошибок от линейной комбинации регрессоров.
Алгоритм:
- Оценить исходную МНК-регрессию, получить остатки .
- Построить вспомогательную регрессию квадратов остатков на регрессоры: .
- Вычислить LM-статистику: , где - коэффициент детерминации вспомогательной регрессии.
- При нулевой гипотезе статистика .
Отвергаем если . p-значение < 0,05 указывает на значимую гетероскедастичность, связанную с включёнными регрессорами.
Тест Уайта
Тест Уайта (1980) - наиболее универсальный, не требует заранее знать функциональную форму гетероскедастичности.
Идея: во вспомогательную регрессию включаются не только сами регрессоры, но и их квадраты, и все попарные произведения. Это позволяет уловить нелинейные зависимости дисперсии от факторов.
Для простой регрессии вспомогательная регрессия: , .
Для множественной с регрессорами количество членов вспомогательной регрессии равно . При большом тест теряет мощность из-за большого числа степеней свободы.
Статистика та же: , где - число ограничений (число добавленных квадратов и произведений).

Сравнение тестов: какой выбрать
| Тест | Гипотеза | Применимость | Степени свободы |
|---|---|---|---|
| Голдфелд-Квандт | дисперсия монотонно растёт вдоль | один известный источник | , |
| Бройш-Паган | линейная связь дисперсии с регрессорами | ||
| Уайт | любая форма гетероскедастичности | универсальный |
Практические рекомендации:
- если есть априорное предположение об источнике - начните с Голдфелда-Квандта или Бройша-Пагана;
- для общей диагностики без предположений используйте тест Уайта;
- при большом числе регрессоров (k > 4-5) мощность теста Уайта снижается, поэтому его применяют совместно с Бройшем-Паганом.
В прикладных пакетах (R, Stata, Python statsmodels) все три теста реализованы готовыми функциями. В R: bptest() из пакета lmtest, white.test() из whitestrap; в Python: het_breuschpagan() и het_white() из statsmodels.stats.diagnostic.
Устранение гетероскедастичности
Обнаружив гетероскедастичность, применяют один из подходов:
1. Взвешенный МНК (WLS). Если функциональная форма известна, каждое наблюдение взвешивается на . После взвешивания новая ошибка имеет постоянную дисперсию.
2. Робастные стандартные ошибки (HC-ошибки). Метод Уайта (1980) позволяет получить состоятельные оценки ковариационной матрицы без корректировки самих коэффициентов. Используют версии HC0, HC1, HC2, HC3 (HC3 рекомендуется на малых выборках). Коэффициенты те же, что у МНК, но t-статистики и F-статистика теперь достоверны.
3. Логарифмирование. Если зависимая переменная правосторонне скошена (доходы, объёмы, цены), переход к логарифму часто стабилизирует дисперсию и устраняет гетероскедастичность естественным образом.
4. Обобщённый МНК (GLS). Если структура гетероскедастичности известна параметрически, GLS даёт состоятельные и эффективные оценки.
Робастные стандартные ошибки (HC) не устраняют гетероскедастичность - они лишь корректируют оценки неопределённости коэффициентов. Если гетероскедастичность очень сильная и структурная, WLS даст более эффективные оценки, чем робастные поправки к обычному МНК.
Гетероскедастичность в задачах курсового проекта
В курсовых и дипломных работах по эконометрике стандартная последовательность диагностики выглядит так:
- Оценить МНК-регрессию, сохранить остатки .
- Построить графики против и каждого - зафиксировать наблюдаемые закономерности.
- Провести тест Бройша-Пагана - проверить линейную зависимость дисперсии от регрессоров.
- При подозрении на нелинейную гетероскедастичность - дополнительно тест Уайта.
- Если тест значим - выбрать метод устранения (HC-ошибки или WLS), переоценить модель и снова проверить.
Важно помнить, что тест, выявивший гетероскедастичность, сам по себе ничего не говорит о её причинах и структуре - это требует содержательного анализа данных.
Наряду с гетероскедастичностью на практике часто встречается и автокорреляция остатков - другое нарушение предпосылок МНК, которое также делает стандартные ошибки недостоверными.

Частые ошибки
- Полагаться только на графики. Визуальная диагностика субъективна: на малых выборках «веер» может быть случайным. Всегда дополняйте формальным тестом.
- Применять один тест для всех ситуаций. Тест Голдфелда-Квандта с произвольно выбранным регрессором для сортировки теряет смысл, если гетероскедастичность зависит от другого фактора.
- Путать гетероскедастичность с автокорреляцией. Оба нарушения дают смещённые стандартные ошибки, но причины и методы устранения разные. Применяйте соответствующие тесты к каждому нарушению отдельно.
- Использовать робастные ошибки, не проверив необходимость. На малых выборках HC-коррекция может ухудшить точность оценок. Применяйте её осмысленно, а не «на всякий случай».
- Не сообщать о выборе стандартных ошибок в работе. В исследовательской работе необходимо явно указать, использовались ли обычные МНК-стандартные ошибки, HC или WLS, и обосновать выбор.
FAQ
Влияет ли гетероскедастичность на коэффициенты регрессии? Нет, МНК-оценки коэффициентов при гетероскедастичности остаются несмещёнными и состоятельными. Гетероскедастичность влияет на эффективность (не минимальная дисперсия) и достоверность стандартных ошибок, но не смещает .
Что означает p-значение > 0,05 в тесте Бройша-Пагана? Нет оснований отвергнуть нулевую гипотезу об гомоскедастичности при данном уровне значимости. Это не доказывает отсутствие гетероскедастичности - тест может иметь недостаточную мощность. Проверьте визуально и при необходимости применяйте тест Уайта.
Можно ли применять робастные стандартные ошибки профилактически, без теста? В современной прикладной эконометрике использование HC-ошибок стало нормой в кросс-секционных данных даже без предварительного теста, поскольку реальные данные редко строго гомоскедастичны. Тем не менее в академических работах принято обосновывать этот выбор результатами диагностических тестов.
Коротко
Проверка гетероскедастичности остатков - обязательный этап диагностики регрессионной модели. Начинают с графиков остатков против подогнанных значений и регрессоров, затем применяют формальные тесты: Голдфелда-Квандта (для монотонной гетероскедастичности вдоль одного фактора), Бройша-Пагана (для линейной зависимости дисперсии от регрессоров) или Уайта (универсальный, без предположений о форме). При обнаружении гетероскедастичности используют робастные стандартные ошибки Уайта (HC), взвешенный МНК или логарифмирование зависимой переменной. Ключевое правило: не ограничиваться одним методом диагностики - сочетать графический анализ с формальными тестами.
Читайте также

Тест Глейзера: проверка гетероскедастичности МНК
Тест Глейзера для выявления гетероскедастичности: три формы вспомогательной регрессии, t-критерий значимости, сравнение с тестом Уайта и Бройша-Пагана, пример расчёта.

Автокорреляция остатков: критерий Дарбина-Уотсона
Автокорреляция остатков в регрессии и критерий Дарбина-Уотсона: формула статистики d, зоны принятия решений, таблица критических значений, причины нарушения и способы устранения в МНК.

Стандартная ошибка коэффициента регрессии: формула и расчёт
Что такое стандартная ошибка коэффициента регрессии, как вывести формулу, рассчитать вручную и интерпретировать в эконометрике. Примеры и частые ошибки.