Двухшаговый метод наименьших квадратов (2SLS)

17 июня 2026Время чтения: 8 минут

#двухшаговый МНК#2SLS#эндогенность#инструментальные переменные#эконометрика

Двухшаговый метод наименьших квадратов (2SLS, two-stage least squares) появляется в эконометрике там, где обычный МНК даёт смещённые и несостоятельные оценки. Причина всегда одна: объясняющая переменная коррелирует со случайной ошибкой, то есть нарушено ключевое условие регрессии. Такая переменная называется эндогенной, а проблема в целом - эндогенностью. Двухшаговый МНК обходит её через инструментальные переменные: сначала очищает эндогенный регрессор от связи с ошибкой, а потом подставляет очищенную версию в исходное уравнение. Ниже разберём, когда метод нужен, как устроены оба шага, какая у него формула и где студенты чаще всего ошибаются. Если нужно прогнать свой набор данных или проверить логику конкретной задачи, соберите запрос в форме ниже.

Зачем нужен двухшаговый МНК

Обычный метод наименьших квадратов состоятелен только при выполнении условия экзогенности: $\operatorname{Cov}(x, \varepsilon) = 0$ . Если регрессор $x$ связан с ошибкой $\varepsilon$ , оценка коэффициента «приписывает» переменной $x$ часть влияния, которое на самом деле идёт через ошибку. Результат - смещение, которое не исчезает даже при бесконечно большой выборке.

Эндогенность возникает по трём типичным причинам. Первая - пропущенная переменная, которая влияет и на регрессор, и на отклик (например, способности человека влияют и на образование, и на зарплату). Вторая - одновременность: спрос и предложение определяют цену и количество одновременно, поэтому цена в уравнении спроса эндогенна. Третья - ошибки измерения в регрессоре. Во всех случаях прямой МНК врёт, и здесь подключается двухшаговый метод.

Эндогенность: регрессор коррелирует с ошибкой, поэтому обычная регрессия даёт смещение оценки

Инструментальные переменные: основа метода

Инструмент $z$ - это переменная, которая помогает «вытащить» из эндогенного регрессора только его экзогенную часть. Хороший инструмент обязан удовлетворять двум условиям.

Релевантность: инструмент коррелирует с эндогенным регрессором, $\operatorname{Cov}(z, x) \neq 0$ . Чем сильнее связь, тем надёжнее оценка.
Экзогенность (валидность): инструмент не связан с ошибкой исходного уравнения, $\operatorname{Cov}(z, \varepsilon) = 0$ , и влияет на отклик только через регрессор $x$ , а не напрямую.

Классический пример: чтобы оценить отдачу от образования на зарплату, в качестве инструмента для числа лет обучения берут расстояние до колледжа. Оно влияет на то, сколько человек проучился (релевантность), но само по себе на зарплату напрямую не действует (экзогенность). Подбор инструмента - самая сложная и спорная часть всей процедуры: его нельзя проверить полностью статистикой, экзогенность приходится обосновывать содержательно.

Первый шаг: очищаем регрессор

На первом шаге эндогенный регрессор $x$ регрессируется по всем экзогенным переменным модели и инструментам $z$ . Это вспомогательная регрессия, которую называют редуцированной формой первого шага:

$x = \pi_0 + \pi_1 z + v$

Из неё берут не коэффициенты, а прогнозные значения $\hat{x}$ . По построению $\hat{x}$ - это линейная комбинация инструментов и экзогенных переменных, то есть та часть исходного регрессора, которая объясняется чистыми, не связанными с ошибкой источниками вариации. Остаток $v$ , в котором как раз и сидит проблемная корреляция с $\varepsilon$ , отбрасывается.

Здесь важно использовать именно прогноз $\hat{x}$ , а не подставлять инструмент $z$ напрямую в исходное уравнение. Прогноз $\hat{x}$ имеет ту же размерность и экономический смысл, что и $x$ , поэтому коэффициент при нём интерпретируется как искомая отдача регрессора.

Если эндогенных регрессоров несколько, первый шаг повторяется для каждого из них: каждая эндогенная переменная отдельно регрессируется на полный набор инструментов и экзогенных переменных. В каждой такой регрессии участвуют все инструменты сразу, а не только «свой» - это обеспечивает максимальную релевантность прогнозов. Экзогенные переменные исходной модели тоже входят в первый шаг как собственные инструменты: они уже не связаны с ошибкой, и регрессировать их «сами на себя» корректно.

Второй шаг: подставляем прогноз

На втором шаге исходное уравнение оценивается обычным МНК, но вместо эндогенного $x$ подставляется его прогноз $\hat{x}$ с первого шага:

$y = \beta_0 + \beta_1 \hat{x} + \varepsilon$

Поскольку $\hat{x}$ построен только из экзогенных компонент, он уже не коррелирует с ошибкой, и оценка $\hat{\beta}_1$ становится состоятельной. Именно из-за этих двух последовательных регрессий метод и называется двухшаговым. Схема ниже показывает оба шага целиком.

Два шага 2SLS: на первом регрессор очищается через инструменты, на втором его прогноз подставляется в исходное уравнение

Формула 2SLS в матричном виде

В матричной записи всё компактно. Пусть $X$ - матрица регрессоров (включая эндогенные), $Z$ - матрица инструментов и экзогенных переменных, $y$ - вектор отклика. Оценка двухшагового МНК:

$\hat{\beta}_{2SLS} = \left(X^{\top} P_Z X\right)^{-1} X^{\top} P_Z y,$

где $P_Z = Z(Z^{\top}Z)^{-1}Z^{\top}$ - проекционная матрица на пространство инструментов. Умножение на $P_Z$ как раз и заменяет $X$ на его прогноз $\hat{X} = P_Z X$ . Отсюда видно, что 2SLS - это частный случай оценки по методу инструментальных переменных. Когда число инструментов равно числу эндогенных регрессоров (точная идентификация), формула упрощается до обычной IV-оценки.

Важно: стандартные ошибки нельзя брать из второй регрессии «как есть». Если механически прогнать два МНК руками, дисперсии будут неверными, потому что не учитывают, что $\hat{x}$ сам оценён. Поэтому 2SLS считают встроенной командой пакета (ivreg в R, ivregress 2sls в Stata), которая корректирует ковариационную матрицу.

Учебный пример: спрос и предложение

Самый наглядный случай эндогенности - рыночное равновесие. Пусть оценивается уравнение спроса $Q = \beta_0 + \beta_1 P + \varepsilon$ , где $Q$ - количество, $P$ - цена. Проблема в том, что цена и количество определяются одновременно из пересечения спроса и предложения, поэтому $P$ коррелирует с ошибкой $\varepsilon$ уравнения спроса. Прямой МНК тут даст не чистую эластичность спроса, а смесь спроса и предложения.

Чтобы разорвать одновременность, нужен инструмент, который сдвигает только предложение, не затрагивая спрос напрямую. Подходящий кандидат - издержки производства или цены на сырьё: они влияют на предложение (а значит, через равновесие - на цену), но напрямую на спрос потребителей не действуют. На первом шаге цену $P$ регрессируют на эти издержки и получают прогноз $\hat{P}$ . На втором шаге подставляют $\hat{P}$ в уравнение спроса и получают состоятельную оценку эластичности $\beta_1$ . Этот пример иллюстрирует, почему подбор инструмента - экономическое, а не чисто техническое решение.

Проверка качества инструментов

После оценки модель нужно протестировать. Три проверки делают почти всегда.

Слабые инструменты. Если инструмент слабо коррелирует с регрессором, оценка 2SLS смещается обратно к МНК и теряет точность. Ориентир - F-статистика первого шага: значение выше 10 считают приемлемым порогом.
Тест на эндогенность (Хаусмана / Ву-Хаусмана). Сравнивает оценки МНК и 2SLS. Если они близки, эндогенности нет и можно вернуться к простому МНК, который эффективнее.
Тест на сверхидентификацию (Саргана / Хансена). Применим, когда инструментов больше, чем эндогенных регрессоров, и проверяет их совместную валидность (экзогенность).

Эти тесты тесно связаны с диагностикой регрессии в целом - например, с проверкой остатков на автокорреляцию через тест Дарбина-Уотсона, без которой выводы по любой модели остаются неполными.

Частые ошибки

Считают стандартные ошибки по второй регрессии вручную. Это занижает дисперсии и завышает значимость. Нужна встроенная процедура 2SLS, которая корректирует ковариационную матрицу.
Берут слабый инструмент. При низкой F-статистике первого шага 2SLS работает хуже обычного МНК. Слабую релевантность нельзя компенсировать большой выборкой.
Путают экзогенность инструмента с релевантностью. Релевантность проверяется статистикой первого шага, экзогенность обосновывается содержательно и тестом Саргана при сверхидентификации.
Применяют 2SLS без проверки эндогенности. Если переменная экзогенна, обычный МНК состоятелен и эффективнее, а 2SLS только теряет точность. Сначала тест Хаусмана.
Подставляют во второй шаг сам инструмент $z$ , а не прогноз $\hat{x}$ . Тогда коэффициент теряет исходный экономический смысл.

FAQ

Чем 2SLS отличается от метода инструментальных переменных? Двухшаговый МНК - это вычислительная реализация метода инструментальных переменных. При точной идентификации (число инструментов равно числу эндогенных регрессоров) они дают одну и ту же оценку. При сверхидентификации (инструментов больше) 2SLS оптимально комбинирует их через проекцию, тогда как базовая IV-формула требует ровно одного инструмента на регрессор.

Сколько инструментов нужно для двухшагового МНК? Минимум столько же, сколько эндогенных регрессоров (условие порядка идентификации). Если меньше - модель не идентифицируется и оценить её нельзя. Если больше - модель сверхидентифицирована, и появляется возможность проверить валидность инструментов тестом Саргана.

Можно ли просто сделать две регрессии МНК вручную? Точечные оценки коэффициентов совпадут, но стандартные ошибки будут неверными: вторая регрессия не знает, что $\hat{x}$ сам оценён, и недооценивает неопределённость. Поэтому используют встроенную команду 2SLS, которая выдаёт корректные стандартные ошибки и тесты.

Коротко

Двухшаговый метод наименьших квадратов решает проблему эндогенности, когда регрессор коррелирует с ошибкой и обычный МНК даёт смещённые оценки. На первом шаге эндогенную переменную регрессируют по инструментам и берут прогноз $\hat{x}$ , на втором - подставляют этот прогноз в исходное уравнение и получают состоятельную оценку. Ключ к корректному результату - релевантный и экзогенный инструмент, встроенная процедура 2SLS для верных стандартных ошибок и проверки на слабые инструменты, эндогенность и сверхидентификацию.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN