Нелинейная регрессия: линеаризация и МНК
Нелинейная регрессия встречается в эконометрике там, где связь между переменными явно не прямая: доходы растут медленнее объёма производства, затраты насыщаются по гиперболе, спрос падает по показательной кривой. Прямолинейный МНК здесь не работает напрямую, зато многие нелинейные модели можно свести к линейным заменой переменных. Именно такая замена и называется линеаризацией. Попробуйте калькулятор ниже: он строит исходную нелинейную кривую и сразу показывает её линеаризованный вид.
Что такое линеаризация и зачем она нужна
Линеаризация - это замена переменных, которая превращает нелинейное уравнение в линейное. Применив такую замену, к данным можно приложить обычный МНК, получить коэффициенты прямой в новых координатах, а потом пересчитать их обратно в параметры исходной кривой.
Главное достоинство подхода - простота: не нужны методы нелинейной оптимизации (градиентный спуск, метод Ньютона-Гаусса), достаточно стандартных формул для линейной регрессии, которые выводятся из первых принципов. Главный недостаток - перенос ошибок: после преобразования распределение остатков меняется, и МНК уже не является строго оптимальным оценщиком в смысле теоремы Гаусса-Маркова. На практике для стандартных учебных задач это допустимо, и именно линеаризация чаще всего встречается в эконометрических курсах.
Формально: если у нас есть нелинейная модель , и существует замена , такая, что уравнение принимает вид , - это и есть линеаризация. При этом и находятся как коэффициенты обычной парной регрессии, а параметры исходной модели и восстанавливаются обратным преобразованием.
Степенная модель: замена ln y и ln x
Самая распространённая нелинейная модель в эконометрике - степенная (или степенно-функциональная):
Прологарифмируем обе части:
Обозначим , , . Получаем обычную линейную модель:
По МНК находим наклон и свободный член , после чего параметр масштаба . Важно: в степенной модели показатель напрямую интерпретируется как коэффициент эластичности - насколько процентов меняется при изменении на 1 %. Если , зависимость «тупеющая» (убывающая отдача), если - «разгоняющаяся» (возрастающая отдача).
Пример: если по данным о производстве и затратах получили и , то исходная модель имеет вид . При увеличении в два раза затраты возрастают лишь в раза - эффект масштаба налицо.
Показательная модель: замена ln y
Показательная (экспоненциальная) модель:
Логарифмируем только :
Здесь , (без преобразования), . Линейная зависимость снова подчиняется МНК. Эта модель используется везде, где переменная растёт или убывает с постоянным относительным темпом: демографические данные, банковские вклады, ВВП при постоянном темпе роста, радиоактивный распад.
Коэффициент здесь интерпретируется по-другому: при это означает, что при увеличении на 1 единицу растёт примерно на 5 % (при малых величина ). При кривая убывает, при - возрастает.
Гиперболическая модель: замена 1/x
Гиперболическая модель насыщения:
Здесь достаточно ввести - и уравнение немедленно становится линейным:
Область применения - зависимости, стремящиеся к конечному пределу при росте : средние издержки на единицу продукции при большом объёме выпуска, предельная производительность труда, насыщение рынка. При больших величина , и : именно задаёт уровень насыщения. Если , кривая убывает к сверху (например, средние постоянные издержки); если - возрастает снизу.

На рисунке видно, как для каждого типа модели нелинейное облако точек после правильной замены переменных ложится вдоль прямой. Именно эту прямую оценивает МНК, а затем параметры прямой пересчитываются обратно в кривую.
Формулы МНК после линеаризации
После замены переменных вычисляем параметры линейной модели стандартными формулами. Пусть есть наблюдений :
где и - средние значения. Затем выполняется обратное преобразование к параметрам исходной модели. Для степенной и показательной , для гиперболической и берутся напрямую.
Альтернативная запись формулы наклона через дисперсию и ковариацию:
Эта форма удобна для проверки знака без полного расчёта: если в линеаризованных координатах данные явно возрастают - наклон положителен, убывают - отрицателен.
Коэффициент детерминации после линеаризации
Чтобы оценить качество подгонки, вычисляют - но уже в линеаризованных координатах:
где - значения, предсказанные линейной моделью. Значение говорит о хорошем соответствии. Важно понимать: в преобразованных координатах не совпадает с , посчитанным по исходным и , - это разные величины. Обычно сообщают именно первую, поскольку МНК оптимален именно в линейном пространстве.
Пример: при степенной модели с , и синтетическими точками с 12 % шумом в лог-лог координатах обычно составляет 0{,}97–0{,}99 - шум малый, и линеаризованная прямая хорошо описывает данные. Это можно проверить прямо в калькуляторе выше.
Какую модель выбрать
Выбор модели опирается на содержательные соображения и визуальный анализ:
- График от имеет выраженный параболический или степенной характер, и данные строго положительны - вероятно, степенная модель.
- Кривая монотонно убывает к нулю при росте , или наоборот, взрывной рост с постоянным относительным приростом - показательная модель.
- Данные убывают «по закону 1/x» и явно стремятся к горизонтальной асимптоте - гиперболическая.
Практический приём - построить точечные диаграммы в разных системах координат (лог-лог, полулог, против ) и посмотреть, в какой из них данные лежат «прямее» всего. Там же сравнивают : у какой системы он выше - та модель лучше соответствует данным. Впрочем, это лишь описательный критерий; формальная проверка требует анализа остатков.
Когда ни одна из трёх стандартных линеаризаций не даёт прямого рассеяния, прибегают к методам нелинейной регрессии (алгоритм Гаусса-Ньютона или методы нулевого порядка типа Нелдера-Мида) или выбирают другой класс функций - например, логистическую кривую для S-образной зависимости.
Числовой пример: степенная регрессия шаг за шагом
Рассмотрим набор из пяти наблюдений: , . Предположим степенную форму .
Шаг 1. Логарифмируем: , .
| 1 | 1,80 | 0,000 | 0,588 |
| 2 | 2,90 | 0,693 | 1,065 |
| 3 | 3,70 | 1,099 | 1,308 |
| 4 | 4,30 | 1,386 | 1,459 |
| 5 | 4,90 | 1,609 | 1,589 |
Шаг 2. Считаем суммы: , , , .
Шаг 3. МНК-оценки:
Шаг 4. Обратное преобразование: .
Итог: - степенная кривая с показателем меньше 1 (убывающая отдача).
Частые ошибки
- Не проверить знак исходных данных. Логарифм не определён при или - если данные включают нули или отрицательные значения, степенная и показательная линеаризации неприменимы напрямую.
- Перепутать обратное преобразование . После МНК находят ; параметр исходной модели , а не . Ошибка приводит к тому, что в ответе фигурирует коэффициент прямой, а не кривой.
- Интерпретировать в линеаризованных координатах как по исходным данным. Это разные числа; сравнивать их некорректно и нельзя делать вывод о качестве подгонки к исходным .
- Использовать линеаризацию, когда зависимость не принадлежит выбранному классу. Хорошее в лог-лог координатах не доказывает степенную природу - нужна содержательная обоснованность.
- Не обсуждать корректность линеаризации при нарушении предпосылок. Преобразование меняет структуру ошибок, и обычные формулы стандартных ошибок коэффициентов строго применимы лишь при гомоскедастичности в новых координатах.
FAQ
Чем отличается линеаризация от нелинейной регрессии методом МНК? Линеаризация - это предварительная замена переменных, после которой задача сводится к стандартному линейному МНК. Нелинейный МНК напрямую минимизирует сумму квадратов остатков в исходных координатах, обычно итеративно (алгоритм Гаусса-Ньютона, Левенберга-Марквардта). Нелинейный МНК точнее с точки зрения статистических свойств, но требует начального приближения и сложнее; линеаризация быстрее и прозрачнее, поэтому её используют в учебных задачах и как первое приближение.
Можно ли линеаризовать полиномиальную регрессию? Полином - это уже линейная модель по параметрам , просто с нелинейными предикторами . Замена переменных переводит её в стандартную множественную линейную регрессию - без логарифмов. Это случай, когда «нелинейность по аргументу» не означает «нелинейность по параметрам».
Как проверить, подходит ли выбранная нелинейная форма? Постройте график остатков линеаризованной модели против : если остатки случайны и не имеют систематического паттерна - форма выбрана верно. Если остатки образуют дугу или «S» - нужна другая функциональная форма. Дополнительно можно использовать тест Рамсея (RESET) или сравнить информационные критерии AIC/BIC для нескольких конкурирующих форм.
Коротко
Линеаризация нелинейной регрессии - замена переменных (логарифмирование, обращение), после которой нелинейная модель принимает вид прямой. МНК применяется к данным в новых координатах, а коэффициенты исходной модели восстанавливаются обратным преобразованием. Наиболее часто линеаризуют степенную ( и , коэффициент - эластичность), показательную ( при , коэффициент - темп роста) и гиперболическую ( при , параметр - асимптота) модели. Качество оценивается по в линеаризованных координатах, а выбор типа кривой - по визуальному анализу и содержательным соображениям.
Читайте также

Стандартная ошибка коэффициента регрессии: формула и расчёт
Что такое стандартная ошибка коэффициента регрессии, как вывести формулу, рассчитать вручную и интерпретировать в эконометрике. Примеры и частые ошибки.

Тест Глейзера: проверка гетероскедастичности МНК
Тест Глейзера для выявления гетероскедастичности: три формы вспомогательной регрессии, t-критерий значимости, сравнение с тестом Уайта и Бройша-Пагана, пример расчёта.

Автокорреляция остатков: критерий Дарбина-Уотсона
Автокорреляция остатков в регрессии и критерий Дарбина-Уотсона: формула статистики d, зоны принятия решений, таблица критических значений, причины нарушения и способы устранения в МНК.