Скорректированный коэффициент детерминации: формула R²_adj

Обычный коэффициент детерминации обладает неприятным свойством: он почти никогда не падает при добавлении в регрессию нового фактора, даже совершенно бесполезного. Поэтому сравнивать по модели с разным числом переменных нельзя - выиграет та, в которую напихали больше регрессоров. Скорректированный коэффициент детерминации (adjusted R-squared, ) решает эту проблему: он штрафует модель за каждый лишний фактор и растёт только тогда, когда новый регрессор объясняет дисперсию лучше, чем «стоит» по числу степеней свободы. Ниже разберём формулу по частям, посчитаем на числах и покажем, когда значение уходит в минус. Поэкспериментировать с самой зависимостью можно прямо в калькуляторе под введением.
Формула скорректированного коэффициента детерминации
Каноническая формула связывает скорректированный коэффициент с обычным:
Здесь - число наблюдений (объём выборки), - число объясняющих переменных без учёта свободного члена, - обычный коэффициент детерминации. Иногда в литературе вместо пишут или - это одно и то же число регрессоров. Знаменатель - это число степеней свободы остатков: из выборки вычитаются оцениваемых коэффициентов и единица за константу.

Эквивалентная запись - через суммы квадратов. Если - остаточная сумма квадратов, а - общая, то:
В этой форме видно главное: и числитель, и знаменатель делятся на свои степени свободы. Обычный сравнивает сами суммы квадратов, а скорректированный - несмещённые оценки дисперсий. Именно деление на заставляет показатель «чувствовать» переусложнение.
Почему обычного R² недостаточно
Обычный коэффициент детерминации показывает долю дисперсии зависимой переменной, объяснённую моделью. Его слабость математически строгая: при добавлении любого регрессора не может вырасти (в худшем случае коэффициент при новом факторе окажется нулевым), а значит не может уменьшиться. На практике из-за случайных корреляций он почти всегда чуть подрастает.
Отсюда соблазн: добавить десяток факторов и отчитаться о «высоком качестве модели». Но такая модель переобучена - она описывает шум конкретной выборки, а не закономерность. Связь с парной корреляцией и его базовый смысл подробно разобраны в материале про коэффициент корреляции и детерминации; здесь же важно, что для сравнения моделей разной размерности нужен показатель со встроенным штрафом. Им и стал .
Как работает штраф за факторы
Разложим формулу на смысл. Множитель всегда : при он равен единице (и ), а с каждым новым фактором знаменатель уменьшается, и множитель растёт. На него умножается «недообъяснённая» доля . Итог: чем больше факторов и меньше выборка, тем сильнее раздувается и тем глубже проседает ниже .
Поэтому добавление фактора имеет двойной эффект. С одной стороны, растёт (уменьшается ). С другой - растёт штрафной множитель. Скорректированный коэффициент увеличится только если первое перевесит второе, то есть если новый фактор объясняет дисперсию ощутимо лучше случайного. Это и есть встроенный «детектор полезности» регрессора.

В калькуляторе выше это видно наглядно: при фиксированных и зелёная линия опускается с каждым шагом по , тогда как пунктир обычного остаётся плоским. А на втором графике с ростом разрыв между оценками стремится к нулю - на больших выборках штраф почти не ощущается.
Расчёт на числовом примере
Возьмём типовую задачу. Множественная регрессия с факторами построена по наблюдениям, обычный . Подставляем в формулу:
Считаем множитель: . Тогда , и . Скорректированный коэффициент получился против обычного - штраф съел около . Разрыв небольшой: выборка достаточная, факторов умеренно.
Теперь усложним: пусть тех же четыре фактора оценены лишь по наблюдениям. Множитель , тогда , и . Та же модель, тот же , но на короткой выборке скорректированное качество ниже на . Это и есть наказание за «много факторов на малой выборке».
Когда R²_adj становится отрицательным
В отличие от обычного , скорректированный коэффициент может быть отрицательным. Это происходит, когда модель объясняет дисперсию хуже, чем простое среднее с поправкой на потерянные степени свободы. Формально при
Пример: , , . Множитель , и . Отрицательное значение - сигнал, что набор регрессоров бесполезен: они отнимают степени свободы, не давая объяснительной отдачи.
Если в задаче получился отрицательный или превышающий единицу скорректированный коэффициент - это не ошибка арифметики. Отрицательный $\bar{R}^2$ означает переопределённую или бессодержательную модель. А при $n - k - 1 \le 0$ (факторов почти столько же, сколько наблюдений) знаменатель неположителен и показатель вообще не определён.
Связь с другими показателями качества
Скорректированный коэффициент - не единственный инструмент отбора. Он эквивалентен сравнению несмещённых оценок дисперсии: максимизация совпадает с минимизацией остаточной дисперсии . Поэтому для двух вложенных моделей растёт ровно тогда, когда -статистика добавленного фактора превышает единицу - это более мягкий критерий, чем стандартный -тест на значимость.
Для жёсткого отбора применяют информационные критерии - Акаике (AIC) и Шварца (BIC). Они штрафуют сложность сильнее, особенно BIC на больших выборках. Логика отбора факторов и место среди критериев подробнее раскрыты в разборе про отбор факторов в множественной регрессии. Практическое правило: хорош как быстрый ориентир, но решение о включении фактора лучше подкреплять -статистикой коэффициента и содержательным смыслом.
Частые ошибки
- Сравнение моделей разной размерности по обычному . Это бессмысленно: почти всегда выше у модели с большим числом факторов. Для сравнения - только , AIC или BIC.
- Округление промежуточного множителя. нужно держать с несколькими знаками: при малой выборке грубое округление до вместо заметно искажает ответ.
- Путаница и числа коэффициентов. В формуле - это число факторов без свободного члена. Число оцениваемых параметров равно , и именно оно вычитается из в знаменателе как .
- «Отрицательный - значит, я ошибся». Нет, это законное значение. Оно говорит, что модель не лучше константы.
- Вывод «фактор полезен», если вырос . Рост автоматичен. Полезность показывает только рост (или значимая -статистика).
FAQ
Может ли скорректированный R² быть больше обычного? Нет. Поскольку множитель , а , вычитаемое в всегда не меньше, чем в . Значит при любых . Равенство достигается только при или ровно при .
Чему равен скорректированный R² при k = 0? При отсутствии факторов (только свободный член) множитель равен , и формула даёт . Штрафовать не за что - лишних регрессоров нет.
Какое значение R²_adj считается хорошим? Универсального порога нет - он зависит от данных. В экономике временных рядов нормальны и выше, в кросс-секционных социальных данных уже неплохо. Важнее не абсолютная величина, а то, что выше, чем у конкурирующих моделей, и факторы значимы по -статистике.
Коротко
Скорректированный коэффициент детерминации считается по формуле , где - объём выборки, - число факторов без константы. В отличие от обычного , он штрафует модель за каждый регрессор и растёт только при добавлении действительно полезного фактора. Множитель тем больше, чем больше факторов и меньше выборка, поэтому на коротких выборках с многими переменными заметно ниже , а при уходит в минус. Использовать его нужно для сравнения моделей разной размерности - там обычный обманчив.
Читайте также

Частный F-критерий: значимость фактора в регрессии
Частный F-критерий проверяет значимость отдельного фактора или группы факторов в множественной регрессии. Формула, сравнение с t-критерием, пошаговый пример расчёта и типичные ошибки.

Коэффициент множественной корреляции: формула и расчёт
Коэффициент множественной корреляции: формула через парные коэффициенты и через определители матрицы, связь с R квадрат и регрессией, как считать и интерпретировать значение для двух и более факторов.

Множественная регрессия: расчёт коэффициентов методом МНК
Расчёт коэффициентов множественной регрессии: нормальная система уравнений, матричная формула b = (XтX)⁻¹Xтy, пример с двумя факторами, R² и интерпретация наклонов.