Отбор факторов в множественной регрессии: методы и критерии

17 июня 2026Время чтения: 7 минут

#эконометрика#множественная регрессия#отбор факторов#мультиколлинеарность#статистика

Множественная регрессия связывает результат $Y$ с несколькими объясняющими переменными. Соблазн велик: чем больше факторов, тем точнее модель. На практике лишние переменные раздувают стандартные ошибки, маскируют значимые связи и дают красивый, но бесполезный прогноз. Отбор факторов в множественной регрессии решает обратную задачу: оставить минимальный набор переменных, который объясняет $Y$ без шума и дублирования. Ниже разобраны рабочие методы, критерии и типичные ошибки, а тул под текстом соберёт постановку вашей задачи для разбора с пошаговым решением.

Зачем вообще отбирать факторы

Уравнение множественной регрессии имеет вид $Y = \beta_0 + \beta_1 X_1 + \dots + \beta_k X_k + \varepsilon$ . Каждый коэффициент $\beta_j$ показывает вклад фактора при фиксированных остальных. Если в модель включить переменную, которая на $Y$ почти не влияет, оценка её коэффициента всё равно займёт степень свободы и добавит дисперсии всем остальным оценкам.

Принцип экономности (бритва Оккама в эконометрике) требует: из двух моделей с близким качеством выбираем более простую. Лишний фактор почти всегда чуть-чуть поднимает обычный $R^2$ , потому что метод наименьших квадратов подгоняет коэффициент под случайный шум выборки. Именно поэтому обычный коэффициент детерминации нельзя использовать как критерий отбора. О связи $R^2$ с парной корреляцией подробно сказано в статье про коэффициент корреляции и детерминации.

Критерии: чем измерять качество набора

Прежде чем сравнивать наборы факторов, нужна метрика, которая штрафует за лишние переменные.

Скорректированный $R^2$ (adjusted): $\bar{R}^2 = 1 - (1 - R^2)\dfrac{n - 1}{n - k - 1}$ . В отличие от обычного $R^2$ , он может падать при добавлении бесполезного фактора, потому что знаменатель $n - k - 1$ уменьшается.
Информационные критерии AIC и BIC: $\text{AIC} = n\ln(\text{RSS}/n) + 2k$ , $\text{BIC} = n\ln(\text{RSS}/n) + k\ln n$ . Оба добавляют штраф за число параметров $k$ ; BIC штрафует сильнее на больших выборках. Меньше значение - лучше модель.
$t$ -статистика коэффициента: проверяет, отличается ли $\beta_j$ от нуля. Фактор с $p > 0{,}05$ обычно кандидат на исключение.
$F$ -критерий для частной проверки: значимо ли группа факторов улучшает модель.

На практике эти критерии часто противоречат друг другу: фактор может быть значим по $t$ -статистике, но его включение поднимает AIC, или наоборот. Это нормально. Скорректированный $R^2$ удобен для интуитивного сравнения двух близких моделей, а информационные критерии лучше работают при переборе многих наборов: они формализуют баланс между качеством подгонки (через остаточную сумму квадратов $\text{RSS}$ ) и сложностью модели (через число параметров $k$ ). Если задача прогнозная, ориентируйтесь скорее на AIC и кросс-валидацию; если объяснительная, важнее значимость и устойчивость коэффициентов.

Сравнивать модели по AIC или скорректированному R квадрат корректно только на одной и той же выборке. Если из данных выпали наблюдения с пропусками по новому фактору, число строк изменилось и метрики уже несопоставимы.

Три классических процедуры отбора

Прямой, обратный и пошаговый отбор факторов: схема того, как переменные добавляются или удаляются по шагам

Прямой отбор (forward selection). Старт с пустой модели. На каждом шаге добавляем фактор, который сильнее всего улучшает критерий (даёт минимальный AIC или максимальный прирост значимости). Останавливаемся, когда ни один из оставшихся факторов не проходит порог включения.

Обратный отбор (backward elimination). Старт с полной модели, где включены все кандидаты. На каждом шаге удаляем самый незначимый фактор (наибольший $p$ -value или наименьший вклад в критерий). Останавливаемся, когда все оставшиеся факторы значимы. Этот метод надёжнее, когда факторов не слишком много относительно числа наблюдений.

Пошаговый отбор (stepwise). Гибрид: на каждом шаге можно и добавить новый фактор, и выкинуть ранее включённый, если он перестал быть значимым после появления других. Так модель не застревает в локально удачном, но глобально лишнем наборе.

Автоматический пошаговый отбор оптимизирует подгонку под конкретную выборку и склонен к переобучению. Итоговые p-value занижены, потому что модель уже подсмотрела данные. Результат всегда нужно осмыслить содержательно, а не принимать вслепую.

Мультиколлинеарность: главная ловушка

Мультиколлинеарность: два сильно связанных фактора и индикатор риска для оценок коэффициентов

Если два фактора сильно коррелируют между собой, модель не может развести их вклады. Коэффициенты становятся неустойчивыми: при малом изменении данных они скачут и даже меняют знак. Это и есть мультиколлинеарность.

Диагностика - коэффициент вздутия дисперсии $\text{VIF}_j = \dfrac{1}{1 - R_j^2}$ , где $R_j^2$ получают, регрессируя фактор $X_j$ на все остальные. Правило большого пальца: $\text{VIF} > 5$ настораживает, $\text{VIF} > 10$ сигналит о серьёзной проблеме. Подробный разбор и расчёт - в статье про коэффициент инфляции дисперсии VIF.

Лечение: исключить один из дублирующих факторов, объединить их в индекс или взять разность вместо двух уровней. Отбор факторов и борьба с мультиколлинеарностью идут рука об руку: часто именно VIF, а не $p$ -value, диктует, какую переменную убрать. Важно помнить: мультиколлинеарность не делает оценки смещёнными, она лишь раздувает их дисперсию. Поэтому если цель модели чисто прогнозная, а не объяснительная, умеренная коллинеарность не всегда фатальна. Но как только вы интерпретируете отдельные коэффициенты, высокий VIF превращается в реальную проблему: вы просто не можете надёжно сказать, какой из связанных факторов отвечает за эффект.

Содержательный отбор против чисто статистического

Статистические критерии не знают экономического смысла. Фактор может быть незначим в выборке, но обязан остаться в модели по теории (например, контрольная переменная, без которой оценка интересующего коэффициента смещается). И наоборот: значимый по $t$ -статистике фактор стоит выкинуть, если он эндогенен или является следствием $Y$ , а не причиной.

Поэтому грамотный отбор - это диалог теории и данных:

сначала формируем список кандидатов из содержательной модели;
проверяем мультиколлинеарность и убираем явные дубли;
применяем процедуру отбора (чаще обратную или пошаговую);
оставляем теоретически обязательные контрольные переменные, даже если они на грани значимости;
проверяем остатки на автокорреляцию и гетероскедастичность, ведь нарушенные предпосылки делают $p$ -value недостоверными. Для временных рядов это особенно важно: см. разбор автокорреляции остатков и теста Дарбина Уотсона.

Как это выглядит на данных

Допустим, объясняем зарплату ( $Y$ ) через стаж, образование, возраст, регион и отрасль. Возраст и стаж сильно коррелируют (VIF высокий) - оставляем один. Обратный отбор по AIC выкидывает регион как незначимый, но мы возвращаем образование, даже если его $t$ -статистика на границе, потому что без него оценка отдачи от стажа смещается. Итоговая модель: три-четыре фактора вместо пяти, с устойчивыми коэффициентами и адекватным скорректированным $R^2$ . Это и есть результат отбора - не максимум переменных, а защищённый от шума и дублирования набор.

Частые ошибки

Сравнивать модели по обычному $R^2$ . Он почти всегда растёт при добавлении фактора, поэтому подталкивает к раздуванию модели. Берите скорректированный $R^2$ , AIC или BIC.
Доверять p-value после пошагового отбора буквально. Процедура многократно подсматривала данные, истинная значимость ниже заявленной.
Игнорировать мультиколлинеарность. Незначимый по $t$ -критерию коэффициент может быть просто следствием высокого VIF, а не отсутствия связи.
Выкидывать теоретически нужные контрольные переменные только из-за $p > 0{,}05$ - это вносит смещение пропущенной переменной.
Менять выборку между шагами. Пропуски в новом факторе сокращают число строк, и метрики становятся несопоставимыми.

FAQ

Какой метод отбора выбрать: прямой, обратный или пошаговый? Для умеренного числа факторов и достаточной выборки надёжнее обратный отбор: он стартует с полной модели и видит вклад каждого фактора в контексте остальных. Пошаговый гибче, но сильнее переобучается. Прямой удобен, когда факторов очень много относительно наблюдений.

Можно ли оставить фактор, который статистически незначим? Да, если он теоретически обязателен как контрольная переменная или его исключение смещает интересующие коэффициенты. Статистическая значимость - не единственный критерий, содержательная роль важнее.

Чем VIF лучше парной корреляции для поиска дублей? Парная корреляция ловит связь только между двумя факторами. VIF учитывает совместную линейную зависимость одного фактора от всех остальных сразу, поэтому обнаруживает скрытую мультиколлинеарность, которую попарные корреляции пропускают.

Коротко

Отбор факторов в множественной регрессии - это поиск минимального набора переменных, который объясняет $Y$ без шума и дублирования. Не ориентируйтесь на обычный $R^2$ : используйте скорректированный $R^2$ , AIC или BIC. Применяйте прямую, обратную или пошаговую процедуру, но всегда проверяйте мультиколлинеарность через VIF и сверяйтесь с теорией: незначимый, но обязательный фактор оставляют, а значимый, но эндогенный или дублирующий - убирают.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Отбор факторов в множественной регрессии: методы и критерии

Зачем вообще отбирать факторы

Критерии: чем измерять качество набора

Три классических процедуры отбора

Мультиколлинеарность: главная ловушка

Содержательный отбор против чисто статистического

Как это выглядит на данных

Частые ошибки

FAQ

Коротко

Читайте также

Коэффициент вариации: интерпретация и пороги однородности

Средний уровень моментного ряда: хронологическая средняя

Связь коэффициента корреляции и детерминации: r и R²