EssayAI
Блог
Блог
Математика и алгоритмы

Гетероскедастичность тест Уайта: проверка дисперсии

29 мая 2026Время чтения: 8 минут
#тест уайта#гетероскедастичность#регрессия#остатки#эконометрика
Гетероскедастичность тест Уайта: проверка дисперсии

Гетероскедастичность тест Уайта - это универсальный способ проверить, постоянна ли дисперсия ошибок регрессионной модели. Если разброс остатков растёт или падает вместе со значениями факторов, нарушается предпосылка гомоскедастичности метода наименьших квадратов: сами оценки коэффициентов остаются несмещёнными, но их стандартные ошибки и tt-статистики становятся неверными. Тест Уайта не требует заранее знать, от чего именно зависит дисперсия, и потому считается одним из самых общих. Ниже разберём идею вспомогательной регрессии, формулу статистики nR2n R^2, распределение хи-квадрат, число степеней свободы, проверку гипотез и частые ошибки интерпретации.

Что такое гетероскедастичность

Гетероскедастичность - это непостоянство дисперсии случайной ошибки регрессии по наблюдениям. В корректной модели выполняется условие гомоскедастичности: дисперсия ошибки одинакова для всех наблюдений,

Var(εi)=σ2=const.\operatorname{Var}(\varepsilon_i) = \sigma^2 = \text{const}.

При гетероскедастичности дисперсия зависит от наблюдения, Var(εi)=σi2\operatorname{Var}(\varepsilon_i) = \sigma_i^2, и часто связана с уровнем какого-то фактора. Классический пример - расходы домохозяйств: чем выше доход, тем сильнее разброс трат, поэтому остатки «расходятся веером» с ростом дохода. Обычный МНК при этом даёт несмещённые, но неэффективные оценки, а главное - заниженные или завышенные стандартные ошибки, из-за чего выводы о значимости коэффициентов оказываются ненадёжными.

Хотите быстро проверить остатки своей модели на гетероскедастичность? Укажите параметры регрессии ниже - инструмент соберёт вспомогательную регрессию теста Уайта, посчитает статистику nR2n R^2 и подскажет, как трактовать результат.

Идея теста Уайта

Тест Уайта (White test), предложенный Холбертом Уайтом в 1980 году, проверяет, можно ли объяснить квадраты остатков основной регрессии через сами факторы, их квадраты и попарные произведения. Логика проста: если дисперсия ошибки постоянна, то квадрат остатка ei2e_i^2 (выборочный аналог σi2\sigma_i^2) не должен систематически зависеть ни от одного регрессора. Если же такая зависимость есть - дисперсия меняется, и налицо гетероскедастичность.

Главное достоинство теста - он не предполагает конкретной формы зависимости дисперсии от факторов. В отличие от теста Бройша-Пагана, который улавливает в основном линейную связь, тест Уайта за счёт квадратов и кросс-произведений ловит и нелинейную гетероскедастичность. Платой за общность становится большое число регрессоров во вспомогательной модели и, как следствие, потеря мощности на малых выборках.

Вспомогательная регрессия

Процедура теста строится в два шага. Сначала оценивают исходную модель обычным МНК и сохраняют остатки eie_i. Затем строят вспомогательную регрессию, где зависимой переменной выступает квадрат остатка, а регрессорами - все исходные факторы, их квадраты и все попарные произведения. Для модели с двумя факторами x1x_1 и x2x_2 вспомогательное уравнение выглядит так:

ei2=α0+α1x1i+α2x2i+α3x1i2+α4x2i2+α5x1ix2i+vi.e_i^2 = \alpha_0 + \alpha_1 x_{1i} + \alpha_2 x_{2i} + \alpha_3 x_{1i}^2 + \alpha_4 x_{2i}^2 + \alpha_5 x_{1i} x_{2i} + v_i.

Из этой вспомогательной регрессии нас интересует коэффициент детерминации Raux2R^2_{aux}. Чем лучше квадраты остатков объясняются факторами, тем выше Raux2R^2_{aux} и тем сильнее свидетельство против гомоскедастичности. Существует и упрощённый вариант теста - без кросс-произведений (no-cross-terms), когда оставляют только факторы и их квадраты; он экономит степени свободы, но менее чувствителен к взаимодействиям.

Статистика и распределение

Тестовая статистика равна произведению объёма выборки nn на коэффициент детерминации вспомогательной регрессии:

LM=nRaux2.LM = n \cdot R^2_{aux}.

При справедливости нулевой гипотезы о гомоскедастичности эта статистика асимптотически распределена по закону хи-квадрат:

LM=nRaux2χm2,LM = n R^2_{aux} \sim \chi^2_{m},

где mm - число регрессоров вспомогательной регрессии без учёта свободного члена. Это типичная статистика множителей Лагранжа (LM-тест): большое значение nR2n R^2 означает, что факторы хорошо объясняют квадраты остатков, то есть дисперсия непостоянна. Логика проверки гипотез по хи-квадрат здесь та же, что и в других критериях согласия и значимости.

Гипотезы и правило решения

Тест проверяет нулевую гипотезу об однородности дисперсии против общей альтернативы:

H0: Var(εi)=σ2 для всех iпротивH1: дисперсия непостоянна.H_0:\ \operatorname{Var}(\varepsilon_i) = \sigma^2\ \text{для всех } i \quad \text{против} \quad H_1:\ \text{дисперсия непостоянна}.

Решение принимают, сравнивая наблюдённую статистику с критическим значением χкр2\chi^2_{\text{кр}} для выбранного уровня значимости α\alpha и mm степеней свободы (либо по pp-значению):

  • nRaux2>χкр2n R^2_{aux} > \chi^2_{\text{кр}} (или p<αp < \alpha) - нулевая гипотеза отвергается, есть гетероскедастичность;
  • nRaux2χкр2n R^2_{aux} \le \chi^2_{\text{кр}} (или pαp \ge \alpha) - оснований отвергнуть H0H_0 нет, дисперсию считают постоянной.

Альтернатива в тесте Уайта ненаправленная: критерий говорит лишь о наличии гетероскедастичности, но не о её форме и не о том, какой именно фактор виноват. Чтобы понять структуру зависимости, придётся анализировать значимые коэффициенты вспомогательной регрессии или строить графики остатков.

Степени свободы и размер модели

Главная техническая тонкость теста - корректный подсчёт числа степеней свободы mm, равного количеству регрессоров вспомогательной модели без константы. Для исходной модели с kk факторами полный тест Уайта добавляет kk линейных членов, kk квадратов и (k2)\binom{k}{2} попарных произведений:

m=2k+k(k1)2.m = 2k + \frac{k(k-1)}{2}.

Так, при k=2k = 2 получаем m=5m = 5, при k=3k = 3 уже m=9m = 9. Число регрессоров растёт квадратично, поэтому при большом kk вспомогательная регрессия «съедает» много степеней свободы и требует крупной выборки.

Если квадрат какого-то фактора совпадает с самим фактором (например, дамми-переменная, где $x^2 = x$) или произведение факторов линейно зависимо с другими членами, такие столбцы выбрасывают из вспомогательной регрессии. Иначе матрица регрессоров вырождена, и оценка $R^2_{aux}$ некорректна - число степеней свободы нужно уменьшить на количество исключённых столбцов.

На практике именно из-за квадратичного роста числа членов для моделей с большим числом факторов выбирают либо упрощённый тест Уайта без кросс-произведений, либо тест Бройша-Пагана.

Связь с другими тестами

Тест Уайта родственен тесту Бройша-Пагана: оба строятся на вспомогательной регрессии квадратов остатков и используют LM-статистику. Разница - в наборе регрессоров. Бройша-Пагана берёт только линейные члены (или заданный набор переменных), поэтому он мощнее против линейной гетероскедастичности, но слеп к нелинейной. Тест Уайта добавляет квадраты и взаимодействия, что делает его более общим ценой степеней свободы.

Тест Уайта работает с любой структурой данных - и временными рядами, и пространственными выборками, поскольку проверяет дисперсию, а не временную зависимость. Это отличает его от проверки автокорреляции остатков: там анализируют связь ошибок между наблюдениями во времени. Если вам нужно проверить не дисперсию, а именно временную зависимость ошибок, используйте тест Дарбина-Уотсона на автокорреляцию остатков. Гетероскедастичность и автокорреляция - два независимых нарушения предпосылок МНК, и их проверяют разными критериями.

Что делать при обнаружении гетероскедастичности

Если тест Уайта выявил значимую гетероскедастичность, сами оценки МНК остаются несмещёнными, но их стандартные ошибки недостоверны, поэтому tt- и FF-тесты теряют силу.

Самое простое и распространённое лечение - робастные к гетероскедастичности стандартные ошибки (HC, оценка Уайта). Они корректируют стандартные ошибки и доверительные интервалы, не меняя сами коэффициенты, и не требуют знать форму зависимости дисперсии.

Если важна эффективность оценок, применяют взвешенный МНК (WLS) или обобщённый МНК (GLS): наблюдения взвешивают обратно пропорционально оценённой дисперсии σ^i2\hat{\sigma}_i^2, после чего ошибки становятся гомоскедастичными. Иногда помогает и преобразование зависимой переменной (например, логарифмирование), которое стабилизирует разброс. Как и с автокорреляцией, стоит сначала проверить спецификацию: гетероскедастичность нередко сигнализирует о пропущенной переменной или неверной функциональной форме, и тогда лечить надо причину, а не симптом.

Частые ошибки

  • Путать гетероскедастичность со смещением оценок. МНК при гетероскедастичности остаётся несмещённым; страдают только стандартные ошибки и выводы о значимости, а не сами коэффициенты.
  • Неверно считать степени свободы. mm - это число регрессоров вспомогательной регрессии без константы, а не число факторов исходной модели; при квадратах и кросс-произведениях оно растёт быстро.
  • Применять полный тест Уайта на маленькой выборке. Большое число регрессоров вспомогательной модели резко снижает мощность; в этом случае берут вариант без кросс-произведений или тест Бройша-Пагана.
  • Трактовать значимый результат как указание на конкретный фактор. Тест Уайта ненаправленный: он сигналит лишь о наличии гетероскедастичности, но не о её источнике и форме.
  • Не убирать вырожденные столбцы. Если x2=xx^2 = x (дамми) или произведения линейно зависимы, их исключают из вспомогательной регрессии и уменьшают mm, иначе статистика искажается.

FAQ

Чем тест Уайта отличается от теста Бройша-Пагана? Оба строят вспомогательную регрессию квадратов остатков и используют статистику nR2χ2n R^2 \sim \chi^2. Тест Бройша-Пагана включает только линейные члены и силён против линейной гетероскедастичности, а тест Уайта добавляет квадраты и попарные произведения факторов, поэтому он более общий, но требует больше степеней свободы.

Сколько степеней свободы у статистики теста Уайта? Столько, сколько регрессоров во вспомогательной регрессии без свободного члена. Для полного теста с kk факторами это m=2k+k(k1)/2m = 2k + k(k-1)/2: при k=2k=2 - пять, при k=3k=3 - девять. Вырожденные столбцы из подсчёта исключают.

Что делать, если тест показал гетероскедастичность? Проще всего пересчитать стандартные ошибки в робастном виде (HC, ошибки Уайта) - коэффициенты не изменятся, но выводы о значимости станут корректными. Для повышения эффективности применяют взвешенный или обобщённый МНК, а иногда достаточно преобразовать переменные или исправить спецификацию модели.

Коротко

Гетероскедастичность тест Уайта - это проверка постоянства дисперсии ошибок регрессии через вспомогательную регрессию квадратов остатков на факторы, их квадраты и попарные произведения. Тестовая статистика LM=nRaux2LM = n R^2_{aux} при гомоскедастичности распределена как χm2\chi^2_m, где mm - число регрессоров вспомогательной модели без константы; большое значение (или малое pp) отвергает нулевую гипотезу и говорит о гетероскедастичности. Тест универсален и не требует знать форму зависимости дисперсии, но при большом числе факторов теряет мощность - тогда выбирают вариант без кросс-произведений или тест Бройша-Пагана. Обнаруженную гетероскедастичность лечат робастными стандартными ошибками Уайта (HC) либо взвешенным/обобщённым МНК.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также