Нормальные уравнения МНК: множественная регрессия пошагово

Когда модель включает два и более фактора, аналитическую прямую уже не провести «на глаз»: нужна строгая процедура. Метод наименьших квадратов (МНК) превращает задачу минимизации суммы квадратов остатков в линейную систему, которую называют нормальными уравнениями. Из этой системы сразу видно, какие суммы нужно посчитать по выборке и как связаны коэффициенты модели. Разберём вывод системы, её структуру и решение для двухфакторного случая, а затем запишем компактную матричную форму. Попрактиковаться в составлении и решении своей системы поможет инструмент ниже.
Постановка задачи: что минимизирует МНК
Линейная модель с двумя факторами имеет вид:
Остаток -го наблюдения - разность между фактом и предсказанием: . МНК требует минимизировать суммарную квадратическую ошибку:
Квадратичная форма выпукла и гладка, у неё единственный глобальный минимум. Условие минимума - обращение в нуль всех частных производных по , , .

Вывод нормальных уравнений
Берём частные производные функции по каждому коэффициенту и приравниваем к нулю.
По :
По :
По :
После раскрытия скобок и группировки по получаем систему трёх линейных уравнений - нормальную систему МНК:
Все суммы берутся по наблюдениям ( и т.д.). Это три уравнения с тремя неизвестными - классическая линейная система, решаемая любым стандартным методом.
Перед составлением нормальной системы удобно построить вспомогательную таблицу восьми сумм: n, Σx1, Σx2, Σy, Σx1², Σx2², Σx1x2, Σx1y, Σx2y. Все коэффициенты системы - это именно эти суммы. Ошибки в них - главный источник неправильного ответа.
Структура нормальной системы
Коэффициенты нормальной системы устроены симметрично. Запишем систему в матричном виде :
Матрица симметрична () и совпадает с произведением , где - дизайн-матрица с первым столбцом из единиц. Правая часть . Поэтому нормальная система - это просто .
Для модели с факторами матрица разрастается до , но симметрия и та же структура сохраняются: по диагонали стоят суммы квадратов, вне диагонали - суммы попарных произведений.
Пример расчёта с двумя факторами
Возьмём учебный набор из 6 наблюдений, где - объём рекламы (у.е.), - цена (у.е.), - продажи (шт.):
| 1 | 2 | 8 | 12 |
| 2 | 4 | 7 | 18 |
| 3 | 6 | 6 | 24 |
| 4 | 3 | 9 | 14 |
| 5 | 5 | 5 | 22 |
| 6 | 4 | 6 | 19 |
Считаем вспомогательные суммы: , , , , , , , , .
Нормальная система принимает вид:
Решив методом Гаусса или Крамера (или через матрицу), получаем приближённые значения: , , . Уравнение регрессии: . Знаки совпадают с интуицией: реклама повышает продажи, цена их снижает.

Матричная форма: связь с нормальной системой
Если обозначить дизайн-матрицу (первый столбец - единицы, далее значения факторов) и вектор откликов , то нормальная система записывается компактно:
Когда матрица невырождена (факторы линейно независимы), решение единственно:
Это та же нормальная система, записанная через обратную матрицу. Все статистические пакеты (Python, R, Excel ЛИНЕЙН) вычисляют именно это выражение, только численно устойчивее - через QR- или SVD-разложение вместо явного обращения, что важно при плохой обусловленности. Подробнее о матричной технике - в разделе множественная регрессия: расчёт коэффициентов.
Число уравнений при факторах
Общее правило: модель с объясняющими переменными даёт нормальную систему из уравнений с неизвестными (). Структура остаётся той же: в -м уравнении роль «правого множителя» играет (или единица для уравнения по ), а в левой части стоят суммы всех попарных произведений факторов.
При система сворачивается в привычные два нормальных уравнения парного МНК. При добавляется четвёртое уравнение с суммами , , , , .
Если два фактора линейно зависимы (например, один - линейная комбинация другого), матрица A вырождена и система не имеет единственного решения. Это мультиколлинеарность: нужно убрать один из факторов или применить гребневую регрессию.
Связь нормальных уравнений с остатками
Нормальные уравнения имеют удобную геометрическую интерпретацию: каждое из них выражает, что вектор остатков ортогонален соответствующему столбцу матрицы :
Первое уравнение (, столбец единиц) означает - при наличии свободного члена остатки в среднем равны нулю. Второе и третье - и - факторы некоррелированы с остатками. Эти три свойства одновременно выполняются только в МНК-решении.
Частые ошибки
- Не включают столбец единиц при матричном расчёте: тогда первое нормальное уравнение пропадает, и свободный член не определяется корректно.
- Путают правую часть системы: в -м уравнении справа стоит , а не - типичная механическая ошибка при переписывании.
- Ошибаются в знаке при вычислении сумм: если - убывающий ряд, будет меньше, чем ожидается интуитивно, и коэффициент получится не того знака.
- Не проверяют невырожденность матрицы : если определитель близок к нулю, система практически несовместна и коэффициенты будут огромными с нулевой интерпретационной ценностью.
- Решают систему «на одно уравнение»: из первого нормального уравнения выражают через и , подставляют, но забывают подставить в третье уравнение и решают только двухуравневую подсистему - пропускается одно ограничение.
FAQ
Почему система называется «нормальной»? Термин восходит к латинскому «norma» (правило, перпендикуляр): каждое уравнение системы фиксирует ортогональность (нормальность) вектора остатков к одному из векторов-факторов. Гаусс вывел систему именно в таком геометрическом контексте в начале XIX века.
Можно ли обойтись без нормальных уравнений и сразу применить матричную формулу? Да, результат тот же: матричная формула - это компактная запись решения нормальной системы. При ручном счёте для двух факторов проще выписать три уравнения и решить их методом Гаусса, чем вычислять обратную матрицу вручную.
Как изменится система, если добавить третий фактор ? Добавится четвёртое уравнение, а в каждом из трёх существующих появится слагаемое . Матрица расширяется с до . Структура та же, объём вычислений растёт в кубе от числа факторов - именно поэтому для больших переходят к матричным алгоритмам, а не решают систему «в лоб».
Коротко
Нормальные уравнения МНК для множественной регрессии с факторами - это система из линейных уравнений, полученная приравниванием нулю частных производных суммы квадратов остатков. Коэффициенты системы - суммы квадратов и попарных произведений факторов, правая часть - суммы произведений факторов на отклик. В матричной форме система записывается как , а её решение - это вектор МНК-оценок. При наличии свободного члена остатки в МНК-решении всегда суммируются в нуль, а каждый фактор ортогонален вектору остатков.
Читайте также

Множественная регрессия: расчёт коэффициентов методом МНК
Расчёт коэффициентов множественной регрессии: нормальная система уравнений, матричная формула b = (XтX)⁻¹Xтy, пример с двумя факторами, R² и интерпретация наклонов.

Частный F-критерий: значимость фактора в регрессии
Частный F-критерий проверяет значимость отдельного фактора или группы факторов в множественной регрессии. Формула, сравнение с t-критерием, пошаговый пример расчёта и типичные ошибки.

Эндогенные и экзогенные переменные: система уравнений
Эндогенные и экзогенные переменные в системе одновременных уравнений: чем они различаются, как их распределить по модели, зачем нужны лаговые и предопределённые переменные.