Двухшаговый метод наименьших квадратов (2SLS)

Двухшаговый метод наименьших квадратов (2SLS, two-stage least squares) появляется в эконометрике там, где обычный МНК даёт смещённые и несостоятельные оценки. Причина всегда одна: объясняющая переменная коррелирует со случайной ошибкой, то есть нарушено ключевое условие регрессии. Такая переменная называется эндогенной, а проблема в целом - эндогенностью. Двухшаговый МНК обходит её через инструментальные переменные: сначала очищает эндогенный регрессор от связи с ошибкой, а потом подставляет очищенную версию в исходное уравнение. Ниже разберём, когда метод нужен, как устроены оба шага, какая у него формула и где студенты чаще всего ошибаются. Если нужно прогнать свой набор данных или проверить логику конкретной задачи, соберите запрос в форме ниже.
Зачем нужен двухшаговый МНК
Обычный метод наименьших квадратов состоятелен только при выполнении условия экзогенности: . Если регрессор связан с ошибкой , оценка коэффициента «приписывает» переменной часть влияния, которое на самом деле идёт через ошибку. Результат - смещение, которое не исчезает даже при бесконечно большой выборке.
Эндогенность возникает по трём типичным причинам. Первая - пропущенная переменная, которая влияет и на регрессор, и на отклик (например, способности человека влияют и на образование, и на зарплату). Вторая - одновременность: спрос и предложение определяют цену и количество одновременно, поэтому цена в уравнении спроса эндогенна. Третья - ошибки измерения в регрессоре. Во всех случаях прямой МНК врёт, и здесь подключается двухшаговый метод.

Инструментальные переменные: основа метода
Инструмент - это переменная, которая помогает «вытащить» из эндогенного регрессора только его экзогенную часть. Хороший инструмент обязан удовлетворять двум условиям.
- Релевантность: инструмент коррелирует с эндогенным регрессором, . Чем сильнее связь, тем надёжнее оценка.
- Экзогенность (валидность): инструмент не связан с ошибкой исходного уравнения, , и влияет на отклик только через регрессор , а не напрямую.
Классический пример: чтобы оценить отдачу от образования на зарплату, в качестве инструмента для числа лет обучения берут расстояние до колледжа. Оно влияет на то, сколько человек проучился (релевантность), но само по себе на зарплату напрямую не действует (экзогенность). Подбор инструмента - самая сложная и спорная часть всей процедуры: его нельзя проверить полностью статистикой, экзогенность приходится обосновывать содержательно.
Первый шаг: очищаем регрессор
На первом шаге эндогенный регрессор регрессируется по всем экзогенным переменным модели и инструментам . Это вспомогательная регрессия, которую называют редуцированной формой первого шага:
Из неё берут не коэффициенты, а прогнозные значения . По построению - это линейная комбинация инструментов и экзогенных переменных, то есть та часть исходного регрессора, которая объясняется чистыми, не связанными с ошибкой источниками вариации. Остаток , в котором как раз и сидит проблемная корреляция с , отбрасывается.
Здесь важно использовать именно прогноз , а не подставлять инструмент напрямую в исходное уравнение. Прогноз имеет ту же размерность и экономический смысл, что и , поэтому коэффициент при нём интерпретируется как искомая отдача регрессора.
Если эндогенных регрессоров несколько, первый шаг повторяется для каждого из них: каждая эндогенная переменная отдельно регрессируется на полный набор инструментов и экзогенных переменных. В каждой такой регрессии участвуют все инструменты сразу, а не только «свой» - это обеспечивает максимальную релевантность прогнозов. Экзогенные переменные исходной модели тоже входят в первый шаг как собственные инструменты: они уже не связаны с ошибкой, и регрессировать их «сами на себя» корректно.
Второй шаг: подставляем прогноз
На втором шаге исходное уравнение оценивается обычным МНК, но вместо эндогенного подставляется его прогноз с первого шага:
Поскольку построен только из экзогенных компонент, он уже не коррелирует с ошибкой, и оценка становится состоятельной. Именно из-за этих двух последовательных регрессий метод и называется двухшаговым. Схема ниже показывает оба шага целиком.

Формула 2SLS в матричном виде
В матричной записи всё компактно. Пусть - матрица регрессоров (включая эндогенные), - матрица инструментов и экзогенных переменных, - вектор отклика. Оценка двухшагового МНК:
где - проекционная матрица на пространство инструментов. Умножение на как раз и заменяет на его прогноз . Отсюда видно, что 2SLS - это частный случай оценки по методу инструментальных переменных. Когда число инструментов равно числу эндогенных регрессоров (точная идентификация), формула упрощается до обычной IV-оценки.
Важно: стандартные ошибки нельзя брать из второй регрессии «как есть». Если механически прогнать два МНК руками, дисперсии будут неверными, потому что не учитывают, что сам оценён. Поэтому 2SLS считают встроенной командой пакета (ivreg в R, ivregress 2sls в Stata), которая корректирует ковариационную матрицу.
Учебный пример: спрос и предложение
Самый наглядный случай эндогенности - рыночное равновесие. Пусть оценивается уравнение спроса , где - количество, - цена. Проблема в том, что цена и количество определяются одновременно из пересечения спроса и предложения, поэтому коррелирует с ошибкой уравнения спроса. Прямой МНК тут даст не чистую эластичность спроса, а смесь спроса и предложения.
Чтобы разорвать одновременность, нужен инструмент, который сдвигает только предложение, не затрагивая спрос напрямую. Подходящий кандидат - издержки производства или цены на сырьё: они влияют на предложение (а значит, через равновесие - на цену), но напрямую на спрос потребителей не действуют. На первом шаге цену регрессируют на эти издержки и получают прогноз . На втором шаге подставляют в уравнение спроса и получают состоятельную оценку эластичности . Этот пример иллюстрирует, почему подбор инструмента - экономическое, а не чисто техническое решение.
Проверка качества инструментов
После оценки модель нужно протестировать. Три проверки делают почти всегда.
- Слабые инструменты. Если инструмент слабо коррелирует с регрессором, оценка 2SLS смещается обратно к МНК и теряет точность. Ориентир - F-статистика первого шага: значение выше 10 считают приемлемым порогом.
- Тест на эндогенность (Хаусмана / Ву-Хаусмана). Сравнивает оценки МНК и 2SLS. Если они близки, эндогенности нет и можно вернуться к простому МНК, который эффективнее.
- Тест на сверхидентификацию (Саргана / Хансена). Применим, когда инструментов больше, чем эндогенных регрессоров, и проверяет их совместную валидность (экзогенность).
Эти тесты тесно связаны с диагностикой регрессии в целом - например, с проверкой остатков на автокорреляцию через тест Дарбина-Уотсона, без которой выводы по любой модели остаются неполными.
Частые ошибки
- Считают стандартные ошибки по второй регрессии вручную. Это занижает дисперсии и завышает значимость. Нужна встроенная процедура 2SLS, которая корректирует ковариационную матрицу.
- Берут слабый инструмент. При низкой F-статистике первого шага 2SLS работает хуже обычного МНК. Слабую релевантность нельзя компенсировать большой выборкой.
- Путают экзогенность инструмента с релевантностью. Релевантность проверяется статистикой первого шага, экзогенность обосновывается содержательно и тестом Саргана при сверхидентификации.
- Применяют 2SLS без проверки эндогенности. Если переменная экзогенна, обычный МНК состоятелен и эффективнее, а 2SLS только теряет точность. Сначала тест Хаусмана.
- Подставляют во второй шаг сам инструмент , а не прогноз . Тогда коэффициент теряет исходный экономический смысл.
FAQ
Чем 2SLS отличается от метода инструментальных переменных? Двухшаговый МНК - это вычислительная реализация метода инструментальных переменных. При точной идентификации (число инструментов равно числу эндогенных регрессоров) они дают одну и ту же оценку. При сверхидентификации (инструментов больше) 2SLS оптимально комбинирует их через проекцию, тогда как базовая IV-формула требует ровно одного инструмента на регрессор.
Сколько инструментов нужно для двухшагового МНК? Минимум столько же, сколько эндогенных регрессоров (условие порядка идентификации). Если меньше - модель не идентифицируется и оценить её нельзя. Если больше - модель сверхидентифицирована, и появляется возможность проверить валидность инструментов тестом Саргана.
Можно ли просто сделать две регрессии МНК вручную? Точечные оценки коэффициентов совпадут, но стандартные ошибки будут неверными: вторая регрессия не знает, что сам оценён, и недооценивает неопределённость. Поэтому используют встроенную команду 2SLS, которая выдаёт корректные стандартные ошибки и тесты.
Коротко
Двухшаговый метод наименьших квадратов решает проблему эндогенности, когда регрессор коррелирует с ошибкой и обычный МНК даёт смещённые оценки. На первом шаге эндогенную переменную регрессируют по инструментам и берут прогноз , на втором - подставляют этот прогноз в исходное уравнение и получают состоятельную оценку. Ключ к корректному результату - релевантный и экзогенный инструмент, встроенная процедура 2SLS для верных стандартных ошибок и проверки на слабые инструменты, эндогенность и сверхидентификацию.
Читайте также

Агрегатный индекс цен Ласпейреса: формула и расчёт
Агрегатный индекс цен Ласпейреса: формула с весами базисного периода, пошаговый расчёт на числовом примере, сравнение с Пааше и Фишером, применение в ИПЦ и дефляторе ВВП.

Агрегатный индекс цен Пааше: формула и расчёт
Агрегатный индекс цен Пааше: формула с весами отчётного периода, пошаговый расчёт на числовом примере, сравнение с Ласпейресом и Фишером, типичные ошибки.

Автокорреляция остатков: критерий Дарбина-Уотсона
Автокорреляция остатков в регрессии и критерий Дарбина-Уотсона: формула статистики d, зоны принятия решений, таблица критических значений, причины нарушения и способы устранения в МНК.