EssayAI
Блог
Блог
Гуманитарные науки

Двухшаговый метод наименьших квадратов (2SLS)

17 июня 2026Время чтения: 8 минут
#двухшаговый МНК#2SLS#эндогенность#инструментальные переменные#эконометрика
Двухшаговый метод наименьших квадратов (2SLS)

Двухшаговый метод наименьших квадратов (2SLS, two-stage least squares) появляется в эконометрике там, где обычный МНК даёт смещённые и несостоятельные оценки. Причина всегда одна: объясняющая переменная коррелирует со случайной ошибкой, то есть нарушено ключевое условие регрессии. Такая переменная называется эндогенной, а проблема в целом - эндогенностью. Двухшаговый МНК обходит её через инструментальные переменные: сначала очищает эндогенный регрессор от связи с ошибкой, а потом подставляет очищенную версию в исходное уравнение. Ниже разберём, когда метод нужен, как устроены оба шага, какая у него формула и где студенты чаще всего ошибаются. Если нужно прогнать свой набор данных или проверить логику конкретной задачи, соберите запрос в форме ниже.

Зачем нужен двухшаговый МНК

Обычный метод наименьших квадратов состоятелен только при выполнении условия экзогенности: Cov(x,ε)=0\operatorname{Cov}(x, \varepsilon) = 0. Если регрессор xx связан с ошибкой ε\varepsilon, оценка коэффициента «приписывает» переменной xx часть влияния, которое на самом деле идёт через ошибку. Результат - смещение, которое не исчезает даже при бесконечно большой выборке.

Эндогенность возникает по трём типичным причинам. Первая - пропущенная переменная, которая влияет и на регрессор, и на отклик (например, способности человека влияют и на образование, и на зарплату). Вторая - одновременность: спрос и предложение определяют цену и количество одновременно, поэтому цена в уравнении спроса эндогенна. Третья - ошибки измерения в регрессоре. Во всех случаях прямой МНК врёт, и здесь подключается двухшаговый метод.

Эндогенность: регрессор коррелирует с ошибкой, поэтому обычная регрессия даёт смещение оценки
Эндогенность: регрессор коррелирует с ошибкой, поэтому обычная регрессия даёт смещение оценки

Инструментальные переменные: основа метода

Инструмент zz - это переменная, которая помогает «вытащить» из эндогенного регрессора только его экзогенную часть. Хороший инструмент обязан удовлетворять двум условиям.

  • Релевантность: инструмент коррелирует с эндогенным регрессором, Cov(z,x)0\operatorname{Cov}(z, x) \neq 0. Чем сильнее связь, тем надёжнее оценка.
  • Экзогенность (валидность): инструмент не связан с ошибкой исходного уравнения, Cov(z,ε)=0\operatorname{Cov}(z, \varepsilon) = 0, и влияет на отклик только через регрессор xx, а не напрямую.

Классический пример: чтобы оценить отдачу от образования на зарплату, в качестве инструмента для числа лет обучения берут расстояние до колледжа. Оно влияет на то, сколько человек проучился (релевантность), но само по себе на зарплату напрямую не действует (экзогенность). Подбор инструмента - самая сложная и спорная часть всей процедуры: его нельзя проверить полностью статистикой, экзогенность приходится обосновывать содержательно.

Первый шаг: очищаем регрессор

На первом шаге эндогенный регрессор xx регрессируется по всем экзогенным переменным модели и инструментам zz. Это вспомогательная регрессия, которую называют редуцированной формой первого шага:

x=π0+π1z+vx = \pi_0 + \pi_1 z + v

Из неё берут не коэффициенты, а прогнозные значения x^\hat{x}. По построению x^\hat{x} - это линейная комбинация инструментов и экзогенных переменных, то есть та часть исходного регрессора, которая объясняется чистыми, не связанными с ошибкой источниками вариации. Остаток vv, в котором как раз и сидит проблемная корреляция с ε\varepsilon, отбрасывается.

Здесь важно использовать именно прогноз x^\hat{x}, а не подставлять инструмент zz напрямую в исходное уравнение. Прогноз x^\hat{x} имеет ту же размерность и экономический смысл, что и xx, поэтому коэффициент при нём интерпретируется как искомая отдача регрессора.

Если эндогенных регрессоров несколько, первый шаг повторяется для каждого из них: каждая эндогенная переменная отдельно регрессируется на полный набор инструментов и экзогенных переменных. В каждой такой регрессии участвуют все инструменты сразу, а не только «свой» - это обеспечивает максимальную релевантность прогнозов. Экзогенные переменные исходной модели тоже входят в первый шаг как собственные инструменты: они уже не связаны с ошибкой, и регрессировать их «сами на себя» корректно.

Второй шаг: подставляем прогноз

На втором шаге исходное уравнение оценивается обычным МНК, но вместо эндогенного xx подставляется его прогноз x^\hat{x} с первого шага:

y=β0+β1x^+εy = \beta_0 + \beta_1 \hat{x} + \varepsilon

Поскольку x^\hat{x} построен только из экзогенных компонент, он уже не коррелирует с ошибкой, и оценка β^1\hat{\beta}_1 становится состоятельной. Именно из-за этих двух последовательных регрессий метод и называется двухшаговым. Схема ниже показывает оба шага целиком.

Два шага 2SLS: на первом регрессор очищается через инструменты, на втором его прогноз подставляется в исходное уравнение
Два шага 2SLS: на первом регрессор очищается через инструменты, на втором его прогноз подставляется в исходное уравнение

Формула 2SLS в матричном виде

В матричной записи всё компактно. Пусть XX - матрица регрессоров (включая эндогенные), ZZ - матрица инструментов и экзогенных переменных, yy - вектор отклика. Оценка двухшагового МНК:

β^2SLS=(XPZX)1XPZy,\hat{\beta}_{2SLS} = \left(X^{\top} P_Z X\right)^{-1} X^{\top} P_Z y,

где PZ=Z(ZZ)1ZP_Z = Z(Z^{\top}Z)^{-1}Z^{\top} - проекционная матрица на пространство инструментов. Умножение на PZP_Z как раз и заменяет XX на его прогноз X^=PZX\hat{X} = P_Z X. Отсюда видно, что 2SLS - это частный случай оценки по методу инструментальных переменных. Когда число инструментов равно числу эндогенных регрессоров (точная идентификация), формула упрощается до обычной IV-оценки.

Важно: стандартные ошибки нельзя брать из второй регрессии «как есть». Если механически прогнать два МНК руками, дисперсии будут неверными, потому что не учитывают, что x^\hat{x} сам оценён. Поэтому 2SLS считают встроенной командой пакета (ivreg в R, ivregress 2sls в Stata), которая корректирует ковариационную матрицу.

Учебный пример: спрос и предложение

Самый наглядный случай эндогенности - рыночное равновесие. Пусть оценивается уравнение спроса Q=β0+β1P+εQ = \beta_0 + \beta_1 P + \varepsilon, где QQ - количество, PP - цена. Проблема в том, что цена и количество определяются одновременно из пересечения спроса и предложения, поэтому PP коррелирует с ошибкой ε\varepsilon уравнения спроса. Прямой МНК тут даст не чистую эластичность спроса, а смесь спроса и предложения.

Чтобы разорвать одновременность, нужен инструмент, который сдвигает только предложение, не затрагивая спрос напрямую. Подходящий кандидат - издержки производства или цены на сырьё: они влияют на предложение (а значит, через равновесие - на цену), но напрямую на спрос потребителей не действуют. На первом шаге цену PP регрессируют на эти издержки и получают прогноз P^\hat{P}. На втором шаге подставляют P^\hat{P} в уравнение спроса и получают состоятельную оценку эластичности β1\beta_1. Этот пример иллюстрирует, почему подбор инструмента - экономическое, а не чисто техническое решение.

Проверка качества инструментов

После оценки модель нужно протестировать. Три проверки делают почти всегда.

  • Слабые инструменты. Если инструмент слабо коррелирует с регрессором, оценка 2SLS смещается обратно к МНК и теряет точность. Ориентир - F-статистика первого шага: значение выше 10 считают приемлемым порогом.
  • Тест на эндогенность (Хаусмана / Ву-Хаусмана). Сравнивает оценки МНК и 2SLS. Если они близки, эндогенности нет и можно вернуться к простому МНК, который эффективнее.
  • Тест на сверхидентификацию (Саргана / Хансена). Применим, когда инструментов больше, чем эндогенных регрессоров, и проверяет их совместную валидность (экзогенность).

Эти тесты тесно связаны с диагностикой регрессии в целом - например, с проверкой остатков на автокорреляцию через тест Дарбина-Уотсона, без которой выводы по любой модели остаются неполными.

Частые ошибки

  • Считают стандартные ошибки по второй регрессии вручную. Это занижает дисперсии и завышает значимость. Нужна встроенная процедура 2SLS, которая корректирует ковариационную матрицу.
  • Берут слабый инструмент. При низкой F-статистике первого шага 2SLS работает хуже обычного МНК. Слабую релевантность нельзя компенсировать большой выборкой.
  • Путают экзогенность инструмента с релевантностью. Релевантность проверяется статистикой первого шага, экзогенность обосновывается содержательно и тестом Саргана при сверхидентификации.
  • Применяют 2SLS без проверки эндогенности. Если переменная экзогенна, обычный МНК состоятелен и эффективнее, а 2SLS только теряет точность. Сначала тест Хаусмана.
  • Подставляют во второй шаг сам инструмент zz, а не прогноз x^\hat{x}. Тогда коэффициент теряет исходный экономический смысл.

FAQ

Чем 2SLS отличается от метода инструментальных переменных? Двухшаговый МНК - это вычислительная реализация метода инструментальных переменных. При точной идентификации (число инструментов равно числу эндогенных регрессоров) они дают одну и ту же оценку. При сверхидентификации (инструментов больше) 2SLS оптимально комбинирует их через проекцию, тогда как базовая IV-формула требует ровно одного инструмента на регрессор.

Сколько инструментов нужно для двухшагового МНК? Минимум столько же, сколько эндогенных регрессоров (условие порядка идентификации). Если меньше - модель не идентифицируется и оценить её нельзя. Если больше - модель сверхидентифицирована, и появляется возможность проверить валидность инструментов тестом Саргана.

Можно ли просто сделать две регрессии МНК вручную? Точечные оценки коэффициентов совпадут, но стандартные ошибки будут неверными: вторая регрессия не знает, что x^\hat{x} сам оценён, и недооценивает неопределённость. Поэтому используют встроенную команду 2SLS, которая выдаёт корректные стандартные ошибки и тесты.

Коротко

Двухшаговый метод наименьших квадратов решает проблему эндогенности, когда регрессор коррелирует с ошибкой и обычный МНК даёт смещённые оценки. На первом шаге эндогенную переменную регрессируют по инструментам и берут прогноз x^\hat{x}, на втором - подставляют этот прогноз в исходное уравнение и получают состоятельную оценку. Ключ к корректному результату - релевантный и экзогенный инструмент, встроенная процедура 2SLS для верных стандартных ошибок и проверки на слабые инструменты, эндогенность и сверхидентификацию.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также