Гетероскедастичность тест Уайта: проверка дисперсии

Гетероскедастичность тест Уайта - это универсальный способ проверить, постоянна ли дисперсия ошибок регрессионной модели. Если разброс остатков растёт или падает вместе со значениями факторов, нарушается предпосылка гомоскедастичности метода наименьших квадратов: сами оценки коэффициентов остаются несмещёнными, но их стандартные ошибки и -статистики становятся неверными. Тест Уайта не требует заранее знать, от чего именно зависит дисперсия, и потому считается одним из самых общих. Ниже разберём идею вспомогательной регрессии, формулу статистики , распределение хи-квадрат, число степеней свободы, проверку гипотез и частые ошибки интерпретации.
Что такое гетероскедастичность
Гетероскедастичность - это непостоянство дисперсии случайной ошибки регрессии по наблюдениям. В корректной модели выполняется условие гомоскедастичности: дисперсия ошибки одинакова для всех наблюдений,
При гетероскедастичности дисперсия зависит от наблюдения, , и часто связана с уровнем какого-то фактора. Классический пример - расходы домохозяйств: чем выше доход, тем сильнее разброс трат, поэтому остатки «расходятся веером» с ростом дохода. Обычный МНК при этом даёт несмещённые, но неэффективные оценки, а главное - заниженные или завышенные стандартные ошибки, из-за чего выводы о значимости коэффициентов оказываются ненадёжными.
Хотите быстро проверить остатки своей модели на гетероскедастичность? Укажите параметры регрессии ниже - инструмент соберёт вспомогательную регрессию теста Уайта, посчитает статистику и подскажет, как трактовать результат.
Идея теста Уайта
Тест Уайта (White test), предложенный Холбертом Уайтом в 1980 году, проверяет, можно ли объяснить квадраты остатков основной регрессии через сами факторы, их квадраты и попарные произведения. Логика проста: если дисперсия ошибки постоянна, то квадрат остатка (выборочный аналог ) не должен систематически зависеть ни от одного регрессора. Если же такая зависимость есть - дисперсия меняется, и налицо гетероскедастичность.
Главное достоинство теста - он не предполагает конкретной формы зависимости дисперсии от факторов. В отличие от теста Бройша-Пагана, который улавливает в основном линейную связь, тест Уайта за счёт квадратов и кросс-произведений ловит и нелинейную гетероскедастичность. Платой за общность становится большое число регрессоров во вспомогательной модели и, как следствие, потеря мощности на малых выборках.
Вспомогательная регрессия
Процедура теста строится в два шага. Сначала оценивают исходную модель обычным МНК и сохраняют остатки . Затем строят вспомогательную регрессию, где зависимой переменной выступает квадрат остатка, а регрессорами - все исходные факторы, их квадраты и все попарные произведения. Для модели с двумя факторами и вспомогательное уравнение выглядит так:
Из этой вспомогательной регрессии нас интересует коэффициент детерминации . Чем лучше квадраты остатков объясняются факторами, тем выше и тем сильнее свидетельство против гомоскедастичности. Существует и упрощённый вариант теста - без кросс-произведений (no-cross-terms), когда оставляют только факторы и их квадраты; он экономит степени свободы, но менее чувствителен к взаимодействиям.
Статистика и распределение
Тестовая статистика равна произведению объёма выборки на коэффициент детерминации вспомогательной регрессии:
При справедливости нулевой гипотезы о гомоскедастичности эта статистика асимптотически распределена по закону хи-квадрат:
где - число регрессоров вспомогательной регрессии без учёта свободного члена. Это типичная статистика множителей Лагранжа (LM-тест): большое значение означает, что факторы хорошо объясняют квадраты остатков, то есть дисперсия непостоянна. Логика проверки гипотез по хи-квадрат здесь та же, что и в других критериях согласия и значимости.
Гипотезы и правило решения
Тест проверяет нулевую гипотезу об однородности дисперсии против общей альтернативы:
Решение принимают, сравнивая наблюдённую статистику с критическим значением для выбранного уровня значимости и степеней свободы (либо по -значению):
- (или ) - нулевая гипотеза отвергается, есть гетероскедастичность;
- (или ) - оснований отвергнуть нет, дисперсию считают постоянной.
Альтернатива в тесте Уайта ненаправленная: критерий говорит лишь о наличии гетероскедастичности, но не о её форме и не о том, какой именно фактор виноват. Чтобы понять структуру зависимости, придётся анализировать значимые коэффициенты вспомогательной регрессии или строить графики остатков.
Степени свободы и размер модели
Главная техническая тонкость теста - корректный подсчёт числа степеней свободы , равного количеству регрессоров вспомогательной модели без константы. Для исходной модели с факторами полный тест Уайта добавляет линейных членов, квадратов и попарных произведений:
Так, при получаем , при уже . Число регрессоров растёт квадратично, поэтому при большом вспомогательная регрессия «съедает» много степеней свободы и требует крупной выборки.
Если квадрат какого-то фактора совпадает с самим фактором (например, дамми-переменная, где $x^2 = x$) или произведение факторов линейно зависимо с другими членами, такие столбцы выбрасывают из вспомогательной регрессии. Иначе матрица регрессоров вырождена, и оценка $R^2_{aux}$ некорректна - число степеней свободы нужно уменьшить на количество исключённых столбцов.
На практике именно из-за квадратичного роста числа членов для моделей с большим числом факторов выбирают либо упрощённый тест Уайта без кросс-произведений, либо тест Бройша-Пагана.
Связь с другими тестами
Тест Уайта родственен тесту Бройша-Пагана: оба строятся на вспомогательной регрессии квадратов остатков и используют LM-статистику. Разница - в наборе регрессоров. Бройша-Пагана берёт только линейные члены (или заданный набор переменных), поэтому он мощнее против линейной гетероскедастичности, но слеп к нелинейной. Тест Уайта добавляет квадраты и взаимодействия, что делает его более общим ценой степеней свободы.
Тест Уайта работает с любой структурой данных - и временными рядами, и пространственными выборками, поскольку проверяет дисперсию, а не временную зависимость. Это отличает его от проверки автокорреляции остатков: там анализируют связь ошибок между наблюдениями во времени. Если вам нужно проверить не дисперсию, а именно временную зависимость ошибок, используйте тест Дарбина-Уотсона на автокорреляцию остатков. Гетероскедастичность и автокорреляция - два независимых нарушения предпосылок МНК, и их проверяют разными критериями.
Что делать при обнаружении гетероскедастичности
Если тест Уайта выявил значимую гетероскедастичность, сами оценки МНК остаются несмещёнными, но их стандартные ошибки недостоверны, поэтому - и -тесты теряют силу.
Самое простое и распространённое лечение - робастные к гетероскедастичности стандартные ошибки (HC, оценка Уайта). Они корректируют стандартные ошибки и доверительные интервалы, не меняя сами коэффициенты, и не требуют знать форму зависимости дисперсии.
Если важна эффективность оценок, применяют взвешенный МНК (WLS) или обобщённый МНК (GLS): наблюдения взвешивают обратно пропорционально оценённой дисперсии , после чего ошибки становятся гомоскедастичными. Иногда помогает и преобразование зависимой переменной (например, логарифмирование), которое стабилизирует разброс. Как и с автокорреляцией, стоит сначала проверить спецификацию: гетероскедастичность нередко сигнализирует о пропущенной переменной или неверной функциональной форме, и тогда лечить надо причину, а не симптом.
Частые ошибки
- Путать гетероскедастичность со смещением оценок. МНК при гетероскедастичности остаётся несмещённым; страдают только стандартные ошибки и выводы о значимости, а не сами коэффициенты.
- Неверно считать степени свободы. - это число регрессоров вспомогательной регрессии без константы, а не число факторов исходной модели; при квадратах и кросс-произведениях оно растёт быстро.
- Применять полный тест Уайта на маленькой выборке. Большое число регрессоров вспомогательной модели резко снижает мощность; в этом случае берут вариант без кросс-произведений или тест Бройша-Пагана.
- Трактовать значимый результат как указание на конкретный фактор. Тест Уайта ненаправленный: он сигналит лишь о наличии гетероскедастичности, но не о её источнике и форме.
- Не убирать вырожденные столбцы. Если (дамми) или произведения линейно зависимы, их исключают из вспомогательной регрессии и уменьшают , иначе статистика искажается.
FAQ
Чем тест Уайта отличается от теста Бройша-Пагана? Оба строят вспомогательную регрессию квадратов остатков и используют статистику . Тест Бройша-Пагана включает только линейные члены и силён против линейной гетероскедастичности, а тест Уайта добавляет квадраты и попарные произведения факторов, поэтому он более общий, но требует больше степеней свободы.
Сколько степеней свободы у статистики теста Уайта? Столько, сколько регрессоров во вспомогательной регрессии без свободного члена. Для полного теста с факторами это : при - пять, при - девять. Вырожденные столбцы из подсчёта исключают.
Что делать, если тест показал гетероскедастичность? Проще всего пересчитать стандартные ошибки в робастном виде (HC, ошибки Уайта) - коэффициенты не изменятся, но выводы о значимости станут корректными. Для повышения эффективности применяют взвешенный или обобщённый МНК, а иногда достаточно преобразовать переменные или исправить спецификацию модели.
Коротко
Гетероскедастичность тест Уайта - это проверка постоянства дисперсии ошибок регрессии через вспомогательную регрессию квадратов остатков на факторы, их квадраты и попарные произведения. Тестовая статистика при гомоскедастичности распределена как , где - число регрессоров вспомогательной модели без константы; большое значение (или малое ) отвергает нулевую гипотезу и говорит о гетероскедастичности. Тест универсален и не требует знать форму зависимости дисперсии, но при большом числе факторов теряет мощность - тогда выбирают вариант без кросс-произведений или тест Бройша-Пагана. Обнаруженную гетероскедастичность лечат робастными стандартными ошибками Уайта (HC) либо взвешенным/обобщённым МНК.
Читайте также

Тест Дарбина-Уотсона: автокорреляция остатков
Тест Дарбина-Уотсона показывает, есть ли автокорреляция остатков регрессии. Разбираем статистику DW, границы dL и dU, проверку гипотез и как не ошибиться в выводах.

Коэффициент инфляции дисперсии VIF: как измерить мультиколлинеарность
Коэффициент инфляции дисперсии VIF: формула, расчёт через вспомогательную регрессию, связь с tolerance и R², пороговые значения 5 и 10 и способы борьбы с мультиколлинеарностью в линейной регрессии.

Бета-коэффициент акции - как рассчитать и оценить риск
Разбираем бета-коэффициент акции: что он показывает о систематическом риске, как посчитать через ковариацию и дисперсию или регрессию и как читать значения на примере.