МНК: нормальная система уравнений и её решение
Метод наименьших квадратов (МНК) - главный инструмент подбора кривой по экспериментальным точкам. Его суть: найти параметры модели так, чтобы сумма квадратов отклонений наблюдаемых значений от модельных была минимальной. Из этого условия минимума вытекает нормальная система - набор линейных уравнений, решив которые, вы получаете оптимальные коэффициенты. Ниже - интерактивный калькулятор: задайте параметры модели и уровень шума, и он немедленно составит нормальную систему, решит её и покажет результат на графике.
Что такое нормальная система МНК
Пусть у вас есть пар измерений , и вы хотите аппроксимировать их линейной функцией . Критерий МНК требует минимизировать сумму квадратов остатков:
Необходимые условия минимума - равенство нулю частных производных по и :
Раскрывая суммы и перегруппировывая, приходим к нормальной системе МНК:
Система содержит только пять статистик набора данных: , , , , - всё, что нужно, чтобы перейти от точек к формулам.
Как решить нормальную систему
Нормальная система для линейного случая - это . Решается подстановкой или формулами Крамера.
Обозначим суммы коротко:
Тогда определитель системы:
По формулам Крамера:
Условие выполняется всегда, если точки не все одинаковы (что очевидно для реального эксперимента).

Геометрически каждое слагаемое - это площадь квадрата со стороной, равной вертикальному отклонению точки от прямой. МНК выбирает прямую, при которой суммарная «площадь» всех таких квадратов наименьша.
Числовой пример: шаг за шагом
Возьмём 5 точек: , , , , .
Шаг 1. Вычислим суммы:
| 1 | 1 | 2,1 | 1 | 2,1 |
| 2 | 2 | 3,9 | 4 | 7,8 |
| 3 | 3 | 6,2 | 9 | 18,6 |
| 4 | 4 | 8,0 | 16 | 32,0 |
| 5 | 5 | 9,8 | 25 | 49,0 |
| Сумма | 15 | 30,0 | 55 | 109,5 |
Шаг 2. Составим нормальную систему ():
Шаг 3. Найдём определитель и решим:
Итог: .
Коэффициент детерминации R^2
После нахождения коэффициентов естественно проверить, насколько хорошо прямая описывает данные. Это делает коэффициент детерминации :
где - среднее значение . Значение : означает идеальное совпадение прямой с данными, - полное отсутствие линейной зависимости.
Для нашего примера: ,
Высокое подтверждает: линейная модель описывает данные превосходно.
Откуда берётся прямая МНК: матричная интерпретация
Запишем задачу компактно. Пусть - вектор наблюдений, - вектор неизвестных коэффициентов, а матрица плана:
Тогда модель - , и критерий МНК - . Минимум достигается в точке, где ортогонален столбцам , то есть . Это и есть нормальная система в матричной форме:
Перемножьте вручную - получите в точности матрицу нормальной системы из предыдущего раздела: элемент , , и т. д. Матричная запись удобна для обобщений: достаточно изменить , чтобы перейти от линейной модели к любому другому набору базисных функций.
Нормальная система для полиномиальной модели
МНК обобщается на произвольный полином . Нормальная система тогда содержит уравнение и строится по тому же принципу - приравниваем нулю частные производные по каждому коэффициенту:
Матрица нормальной системы называется матрицей Грама (или матрицей информации). Для практических расчётов с удобнее использовать матричную форму , где - матрица плана. Именно в таком виде МНК реализован во всех пакетах численных расчётов.
Выбирайте степень полинома минимальной, при которой $R^2$ перестаёт заметно расти. Добавление лишних коэффициентов ведёт к переобучению: прямая «прижимается» к каждой точке, теряя предсказательную силу.
Практические применения МНК
МНК применяется всякий раз, когда нужно построить модель по данным с погрешностями. Несколько типичных учебных ситуаций:
- Физический эксперимент. Измерение зависимости сопротивления от температуры : это линейная модель, два параметра и находятся нормальной системой.
- Графическая поверка закона. Если линеаризованный вид закона Хука дать на вход МНК, наклон прямой сразу даст жёсткость пружины с наименьшей погрешностью.
- Демография и экономика. Линейный тренд временного ряда (выручка, население) - классическое применение нормальной системы с = номер года.
- Химия. Калибровочная кривая спектрофотометра: оптическая плотность линейно зависит от концентрации, МНК восстанавливает эту зависимость из серии стандартных образцов.
Во всех этих задачах алгоритм одинаков: составить таблицу суммарных статистик, подставить в формулы нормальной системы и найти , .
Частые ошибки
- Забывают перевести в числа при таблично заданных данных (например, года или даты). Нормальная система работает только с числами.
- Делят суммы на до подстановки. Систему нужно составлять именно из сырых сумм , и т. д., а не из средних - деление вносит ошибку в уравнения.
- Путают и при расчёте . - разброс относительно среднего , - относительно прямой. Поменять местами - получить или отрицательное.
- Ставят прочерк при . Если все одинаковы, определитель обращается в ноль и система вырождена. В таком случае надо менять набор данных, а не искать другую формулу.
- Не проверяют остатки на систематику. Высокое не означает правильность модели: если остатки образуют дугу, линейная модель неправильна, нужна парабола.
FAQ
Почему нормальная система называется «нормальной»? Название исторически связано с понятием нормали в геометрии: условие минимума суммы квадратов эквивалентно тому, что вектор остатков ортогонален (нормален) столбцам матрицы плана . Именно это ортогональное условие и записывается в виде системы .
Можно ли применять МНК, если ошибки неодинаковы? Да, это взвешенный МНК: каждое наблюдение умножается на вес . Нормальная система приобретает вид , где . При равных весах взвешенный МНК совпадает с обычным.
Что делать, если данных мало (например, ) и нужна парабола? При числе параметров модели равном числу точек система имеет единственное решение, и автоматически - прямая (или парабола) проходит через все точки. Это не МНК-оптимизация, а точная интерполяция. Смысл МНК как аппроксимации появляется только при .
Коротко
Нормальная система МНК получается из условия минимума суммы квадратов остатков: приравнивая нулю частные производные по всем коэффициентам, мы получаем линейную систему с матрицей Грама. Для линейной модели система имеет размер и решается явными формулами через пять статистик набора данных. Качество подгонки оценивается коэффициентом детерминации : чем он ближе к 1, тем лучше модель описывает разброс данных.
Читайте также

Множественная регрессия: расчёт коэффициентов методом МНК
Расчёт коэффициентов множественной регрессии: нормальная система уравнений, матричная формула b = (XтX)⁻¹Xтy, пример с двумя факторами, R² и интерпретация наклонов.

Коэффициент множественной корреляции: формула и расчёт
Коэффициент множественной корреляции: формула через парные коэффициенты и через определители матрицы, связь с R квадрат и регрессией, как считать и интерпретировать значение для двух и более факторов.

Нормальные уравнения МНК: множественная регрессия пошагово
Как вывести и решить нормальные уравнения МНК для множественной регрессии: система уравнений, матричная запись, пример расчёта с двумя факторами и проверка.