Коэффициент инфляции дисперсии VIF: мультиколлинеарность

9 мая 2026Время чтения: 7 минут

#VIF#мультиколлинеарность#регрессия #эконометрика#tolerance

Когда в линейной регрессии факторы сильно скоррелированы между собой, оценки коэффициентов становятся неустойчивыми: их стандартные ошибки раздуваются, знаки могут «прыгать», а t-статистики падают, хотя модель в целом значима. Коэффициент инфляции дисперсии VIF (variance inflation factor) - самый распространённый числовой индикатор, который показывает, во сколько раз дисперсия оценки коэффициента выросла из-за мультиколлинеарности. Разберём, как он считается, что означают его пороговые значения и что делать, когда VIF зашкаливает.

Что показывает коэффициент инфляции дисперсии

Идея VIF проста: для каждого объясняющего фактора $x_j$ мы оцениваем, насколько хорошо он сам предсказывается остальными факторами модели. Если $x_j$ почти линейно выражается через другие регрессоры, то отделить его собственный вклад в зависимую переменную трудно - отсюда и «инфляция» дисперсии оценки $\hat\beta_j$ .

Формально дисперсия оценки коэффициента МНК записывается как

$\operatorname{Var}(\hat\beta_j) = \frac{\sigma^2}{(n-1)\,s_j^2}\cdot \frac{1}{1-R_j^2},$

где $\sigma^2$ - дисперсия ошибки, $s_j^2$ - выборочная дисперсия фактора $x_j$ , а $R_j^2$ - коэффициент детерминации вспомогательной регрессии $x_j$ на все остальные факторы. Последний множитель и есть VIF:

$\mathrm{VIF}_j = \frac{1}{1-R_j^2}.$

Если $R_j^2 = 0$ (фактор ортогонален остальным), то $\mathrm{VIF}_j = 1$ - инфляции нет. Чем ближе $R_j^2$ к единице, тем сильнее VIF уходит в бесконечность.

Подведём предварительный итог в виде интерактивного помощника: ниже можно ввести данные факторов и сразу получить разбор расчёта VIF для каждого из них.

Как считать VIF через вспомогательную регрессию

Алгоритм расчёта одинаков для любого числа факторов:

Берём фактор $x_j$ и делаем его временно зависимой переменной.
Оцениваем МНК-регрессию $x_j = \alpha_0 + \alpha_1 x_1 + \dots + \alpha_{k} x_k + u$ , исключив сам $x_j$ из правой части.
Считаем коэффициент детерминации $R_j^2$ этой вспомогательной регрессии.
Подставляем в формулу $\mathrm{VIF}_j = 1/(1-R_j^2)$ .

Процедуру повторяют для всех $k$ факторов, получая вектор значений $\mathrm{VIF}_1, \dots, \mathrm{VIF}_k$ . Обратите внимание: VIF считается отдельно для каждого регрессора, поэтому один высокий VIF указывает на конкретную проблемную переменную, а не на всю модель сразу.

Важная деталь: вспомогательная регрессия включает свободный член, но не включает зависимую переменную исходной модели $y$ . Мультиколлинеарность - это свойство только матрицы факторов $X$ , и $y$ в её диагностике не участвует. Поэтому VIF можно посчитать ещё до того, как у вас появятся наблюдения отклика: он зависит лишь от того, как факторы связаны между собой. Это удобно на этапе планирования эксперимента или отбора признаков, когда нужно заранее понять, не дублируют ли предикторы друг друга.

Если факторов всего два, расчёт упрощается до одной формулы: $\mathrm{VIF}_1 = \mathrm{VIF}_2 = 1/(1-r_{12}^2)$ , где $r_{12}$ - парный коэффициент корреляции между $x_1$ и $x_2$ . Уже при $r_{12} = 0{,}9$ это даёт $\mathrm{VIF} \approx 5{,}3$ , а при $r_{12} = 0{,}95$ - около $10{,}3$ , что наглядно показывает, как быстро растёт инфляция дисперсии с усилением корреляции.

Связь VIF с tolerance и стандартной ошибкой

Величина, обратная VIF, называется допуском (tolerance):

$\mathrm{TOL}_j = \frac{1}{\mathrm{VIF}_j} = 1 - R_j^2.$

Низкий tolerance (например, ниже $0{,}1$ ) - это тот же сигнал, что и высокий VIF выше $10$ . Многие статистические пакеты выводят обе величины. Удобно помнить, что стандартная ошибка коэффициента пропорциональна $\sqrt{\mathrm{VIF}_j}$ : при $\mathrm{VIF}_j = 4$ стандартная ошибка вдвое больше, чем была бы при отсутствии мультиколлинеарности, при $\mathrm{VIF}_j = 9$ - втрое.

Пороговые значения: 5 и 10

Жёсткого универсального правила нет, но на практике сложились ориентиры:

$\mathrm{VIF} \approx 1$ - мультиколлинеарность отсутствует.
$1 < \mathrm{VIF} < 5$ - умеренная корреляция, обычно приемлемо.
$5 \le \mathrm{VIF} < 10$ - заметная мультиколлинеарность, стоит присмотреться.
$\mathrm{VIF} \ge 10$ - серьёзная проблема, оценки коэффициента ненадёжны ( $R_j^2 \ge 0{,}9$ ).

Порог $10$ распространён в эконометрике, а более строгий порог $5$ часто используют в прикладной статистике и машинном обучении. Выбор зависит от целей: если важна интерпретация коэффициентов - порог жёстче, если только прогноз - мультиколлинеарность вообще может не мешать.

Стоит помнить, что пороги - это эвристика, а не статистический критерий с уровнем значимости. Значение $\mathrm{VIF} = 8$ не «лучше» и не «хуже» по какому-то формальному тесту, чем $\mathrm{VIF} = 12$ ; оба сигнализируют, что часть информации о факторе уже содержится в остальных. Поэтому разумно смотреть на VIF в совокупности: если у одного-двух факторов значения резко выделяются на фоне остальных близких к единице, проблема локализована и решается точечно. Если же высокие VIF у большинства предикторов, речь идёт о структурной коллинеарности всего набора признаков, и помогать будут уже методы вроде главных компонент.

Сравнивайте VIF не с абстрактным порогом, а между собой: фактор с VIF в разы выше соседних - первый кандидат на удаление или объединение.

Чем VIF отличается от парных корреляций

Распространённая ошибка - судить о мультиколлинеарности только по матрице парных корреляций факторов. Парный коэффициент ловит линейную связь между двумя переменными, но не видит, когда фактор линейно выражается через комбинацию нескольких других. VIF опирается на $R_j^2$ многомерной вспомогательной регрессии и поэтому обнаруживает именно такую «скрытую» коллинеарность. Высокий VIF при низких парных корреляциях - типичный случай, который без VIF легко пропустить.

Простой пример: пусть $x_3 = x_1 + x_2 + \varepsilon$ с малым шумом. Парные корреляции $x_3$ с $x_1$ и с $x_2$ по отдельности могут оказаться умеренными (скажем, около $0{,}6$ ), и матрица корреляций не вызовет тревоги. Но вспомогательная регрессия $x_3$ на $x_1$ и $x_2$ даст $R_3^2$ близкий к единице, а значит, и огромный VIF. Именно способность учитывать совместное влияние нескольких факторов делает VIF предпочтительнее простого корреляционного анализа.

Что делать при высоком VIF

Когда диагностика подтвердила проблему, есть несколько стратегий:

Удалить или объединить факторы. Если две переменные дублируют друг друга по смыслу, оставляют одну либо строят из них индекс/среднее.
Центрирование. Для полиномиальных и interaction-членов вычитание среднего из факторов резко снижает искусственный VIF.
Регуляризация. Гребневая регрессия (ridge) намеренно вводит смещение, чтобы стабилизировать оценки при коллинеарности.
Метод главных компонент. Заменяет коррелированные факторы ортогональными компонентами.
Увеличить выборку. Иногда коллинеарность - артефакт малого объёма данных.

Важно понимать связь VIF с другими диагностиками регрессии: мультиколлинеарность нарушает условия Гаусса-Маркова не так, как, например, гетероскедастичность остатков или автокорреляция остатков, но все три проблемы влияют на надёжность стандартных ошибок и должны проверяться вместе.

Частые ошибки

Считают VIF для зависимой переменной - он определяется только для факторов.
Интерпретируют VIF константы (свободного члена): для неё показатель не информативен и обычно не выводится.
Применяют VIF к категориальным переменным с несколькими дамми-уровнями, не используя обобщённый GVIF, который корректирует на число степеней свободы.
Считают высокий VIF фатальным даже для чисто прогнозной модели, где интерпретация коэффициентов не нужна.
Удаляют фактор только из-за VIF, игнорируя его содержательную важность для модели.

FAQ

Может ли VIF быть меньше 1? Нет. Поскольку $R_j^2 \in [0,1]$ , знаменатель $1-R_j^2 \le 1$ , и $\mathrm{VIF}_j \ge 1$ всегда. Значение ровно $1$ означает полную ортогональность фактора остальным.

Чему равен VIF при идеальной мультиколлинеарности? При $R_j^2 = 1$ знаменатель обращается в ноль и VIF стремится к бесконечности. На практике это значит, что один фактор - точная линейная комбинация других, и МНК-оценки вообще не определены (матрица $X^\top X$ вырождена).

Нужно ли убирать мультиколлинеарность, если цель - только прогноз? Часто нет. Мультиколлинеарность портит интерпретацию отдельных коэффициентов и их стандартные ошибки, но прогноз $\hat y$ и общий $R^2$ модели могут оставаться корректными.

Коротко

Коэффициент инфляции дисперсии VIF измеряет, во сколько раз раздувается дисперсия оценки коэффициента из-за линейной зависимости фактора от остальных: $\mathrm{VIF}_j = 1/(1-R_j^2)$ , где $R_j^2$ берётся из вспомогательной регрессии этого фактора на все прочие. Значения около $1$ безопасны, выше $5$ настораживают, выше $10$ сигнализируют о серьёзной мультиколлинеарности. Обратная величина - tolerance, а стандартная ошибка растёт как $\sqrt{\mathrm{VIF}}$ . Лечится удалением/объединением факторов, центрированием, регуляризацией или методом главных компонент.