Скорректированный коэффициент детерминации: формула R²_adj

17 июня 2026Время чтения: 8 минут

#эконометрика#скорректированный R квадрат#коэффициент детерминации#множественная регрессия#качество модели

Обычный коэффициент детерминации $R^2$ обладает неприятным свойством: он почти никогда не падает при добавлении в регрессию нового фактора, даже совершенно бесполезного. Поэтому сравнивать по $R^2$ модели с разным числом переменных нельзя - выиграет та, в которую напихали больше регрессоров. Скорректированный коэффициент детерминации (adjusted R-squared, $\bar{R}^2$ ) решает эту проблему: он штрафует модель за каждый лишний фактор и растёт только тогда, когда новый регрессор объясняет дисперсию лучше, чем «стоит» по числу степеней свободы. Ниже разберём формулу по частям, посчитаем на числах и покажем, когда значение уходит в минус. Поэкспериментировать с самой зависимостью можно прямо в калькуляторе под введением.

Формула скорректированного коэффициента детерминации

Каноническая формула связывает скорректированный коэффициент с обычным:

$\bar{R}^2 = 1 - (1 - R^2)\,\frac{n - 1}{n - k - 1}$

Здесь $n$ - число наблюдений (объём выборки), $k$ - число объясняющих переменных без учёта свободного члена, $R^2$ - обычный коэффициент детерминации. Иногда в литературе вместо $k$ пишут $p$ или $m$ - это одно и то же число регрессоров. Знаменатель $n - k - 1$ - это число степеней свободы остатков: из выборки вычитаются $k$ оцениваемых коэффициентов и единица за константу.

Схема формулы скорректированного коэффициента детерминации: дробь n минус 1 делить на n минус k минус 1 как множитель-штраф, который оттягивает значение R квадрат вниз

Эквивалентная запись - через суммы квадратов. Если $RSS$ - остаточная сумма квадратов, а $TSS$ - общая, то:

$\bar{R}^2 = 1 - \frac{RSS / (n - k - 1)}{TSS / (n - 1)}$

В этой форме видно главное: и числитель, и знаменатель делятся на свои степени свободы. Обычный $R^2 = 1 - RSS/TSS$ сравнивает сами суммы квадратов, а скорректированный - несмещённые оценки дисперсий. Именно деление на $n - k - 1$ заставляет показатель «чувствовать» переусложнение.

Почему обычного R² недостаточно

Обычный коэффициент детерминации $R^2 = ESS/TSS$ показывает долю дисперсии зависимой переменной, объяснённую моделью. Его слабость математически строгая: при добавлении любого регрессора $RSS$ не может вырасти (в худшем случае коэффициент при новом факторе окажется нулевым), а значит $R^2$ не может уменьшиться. На практике из-за случайных корреляций он почти всегда чуть подрастает.

Отсюда соблазн: добавить десяток факторов и отчитаться о «высоком качестве модели». Но такая модель переобучена - она описывает шум конкретной выборки, а не закономерность. Связь $R^2$ с парной корреляцией и его базовый смысл подробно разобраны в материале про коэффициент корреляции и детерминации; здесь же важно, что для сравнения моделей разной размерности нужен показатель со встроенным штрафом. Им и стал $\bar{R}^2$ .

Как работает штраф за факторы

Разложим формулу на смысл. Множитель $\frac{n - 1}{n - k - 1}$ всегда $\ge 1$ : при $k = 0$ он равен единице (и $\bar{R}^2 = R^2$ ), а с каждым новым фактором знаменатель уменьшается, и множитель растёт. На него умножается «недообъяснённая» доля $1 - R^2$ . Итог: чем больше факторов и меньше выборка, тем сильнее $(1 - R^2)$ раздувается и тем глубже $\bar{R}^2$ проседает ниже $R^2$ .

Поэтому добавление фактора имеет двойной эффект. С одной стороны, $R^2$ растёт (уменьшается $1 - R^2$ ). С другой - растёт штрафной множитель. Скорректированный коэффициент увеличится только если первое перевесит второе, то есть если новый фактор объясняет дисперсию ощутимо лучше случайного. Это и есть встроенный «детектор полезности» регрессора.

Сравнение двух кривых качества модели по мере роста числа факторов: обычный R квадрат монотонно растёт, скорректированный сначала растёт, потом разворачивается вниз

В калькуляторе выше это видно наглядно: при фиксированных $R^2$ и $n$ зелёная линия $\bar{R}^2$ опускается с каждым шагом по $k$ , тогда как пунктир обычного $R^2$ остаётся плоским. А на втором графике с ростом $n$ разрыв между оценками стремится к нулю - на больших выборках штраф почти не ощущается.

Расчёт на числовом примере

Возьмём типовую задачу. Множественная регрессия с $k = 4$ факторами построена по $n = 30$ наблюдениям, обычный $R^2 = 0{,}85$ . Подставляем в формулу:

$\bar{R}^2 = 1 - (1 - 0{,}85)\,\frac{30 - 1}{30 - 4 - 1} = 1 - 0{,}15 \cdot \frac{29}{25}$

Считаем множитель: $29 / 25 = 1{,}16$ . Тогда $0{,}15 \cdot 1{,}16 = 0{,}174$ , и $\bar{R}^2 = 1 - 0{,}174 = 0{,}826$ . Скорректированный коэффициент получился $0{,}826$ против $0{,}85$ обычного - штраф съел около $0{,}024$ . Разрыв небольшой: выборка достаточная, факторов умеренно.

Теперь усложним: пусть тех же четыре фактора оценены лишь по $n = 12$ наблюдениям. Множитель $\frac{11}{7} \approx 1{,}571$ , тогда $0{,}15 \cdot 1{,}571 = 0{,}236$ , и $\bar{R}^2 = 0{,}764$ . Та же модель, тот же $R^2$ , но на короткой выборке скорректированное качество ниже на $0{,}086$ . Это и есть наказание за «много факторов на малой выборке».

Когда R²_adj становится отрицательным

В отличие от обычного $R^2 \in [0; 1]$ , скорректированный коэффициент может быть отрицательным. Это происходит, когда модель объясняет дисперсию хуже, чем простое среднее с поправкой на потерянные степени свободы. Формально $\bar{R}^2 < 0$ при

$R^2 < \frac{k}{n - 1}$

Пример: $R^2 = 0{,}1$ , $n = 11$ , $k = 3$ . Множитель $\frac{10}{7} \approx 1{,}429$ , и $\bar{R}^2 = 1 - 0{,}9 \cdot 1{,}429 = 1 - 1{,}286 = -0{,}286$ . Отрицательное значение - сигнал, что набор регрессоров бесполезен: они отнимают степени свободы, не давая объяснительной отдачи.

Если в задаче получился отрицательный или превышающий единицу скорректированный коэффициент - это не ошибка арифметики. Отрицательный $\bar{R}^2$ означает переопределённую или бессодержательную модель. А при $n - k - 1 \le 0$ (факторов почти столько же, сколько наблюдений) знаменатель неположителен и показатель вообще не определён.

Связь с другими показателями качества

Скорректированный коэффициент - не единственный инструмент отбора. Он эквивалентен сравнению несмещённых оценок дисперсии: максимизация $\bar{R}^2$ совпадает с минимизацией остаточной дисперсии $s^2 = RSS/(n - k - 1)$ . Поэтому для двух вложенных моделей $\bar{R}^2$ растёт ровно тогда, когда $F$ -статистика добавленного фактора превышает единицу - это более мягкий критерий, чем стандартный $F$ -тест на значимость.

Для жёсткого отбора применяют информационные критерии - Акаике (AIC) и Шварца (BIC). Они штрафуют сложность сильнее, особенно BIC на больших выборках. Логика отбора факторов и место $\bar{R}^2$ среди критериев подробнее раскрыты в разборе про отбор факторов в множественной регрессии. Практическое правило: $\bar{R}^2$ хорош как быстрый ориентир, но решение о включении фактора лучше подкреплять $t$ -статистикой коэффициента и содержательным смыслом.

Частые ошибки

Сравнение моделей разной размерности по обычному $R^2$ . Это бессмысленно: $R^2$ почти всегда выше у модели с большим числом факторов. Для сравнения - только $\bar{R}^2$ , AIC или BIC.
Округление промежуточного множителя. $\frac{n-1}{n-k-1}$ нужно держать с несколькими знаками: при малой выборке грубое округление до $1{,}2$ вместо $1{,}16$ заметно искажает ответ.
Путаница $k$ и числа коэффициентов. В формуле $k$ - это число факторов без свободного члена. Число оцениваемых параметров равно $k + 1$ , и именно оно вычитается из $n$ в знаменателе как $n - (k+1)$ .
«Отрицательный $\bar{R}^2$ - значит, я ошибся». Нет, это законное значение. Оно говорит, что модель не лучше константы.
Вывод «фактор полезен», если вырос $R^2$ . Рост $R^2$ автоматичен. Полезность показывает только рост $\bar{R}^2$ (или значимая $t$ -статистика).

FAQ

Может ли скорректированный R² быть больше обычного? Нет. Поскольку множитель $\frac{n-1}{n-k-1} \ge 1$ , а $(1 - R^2) \ge 0$ , вычитаемое в $\bar{R}^2$ всегда не меньше, чем в $R^2$ . Значит $\bar{R}^2 \le R^2$ при любых $k \ge 1$ . Равенство достигается только при $k = 0$ или ровно при $R^2 = 1$ .

Чему равен скорректированный R² при k = 0? При отсутствии факторов (только свободный член) множитель равен $\frac{n-1}{n-1} = 1$ , и формула даёт $\bar{R}^2 = R^2$ . Штрафовать не за что - лишних регрессоров нет.

Какое значение R²_adj считается хорошим? Универсального порога нет - он зависит от данных. В экономике временных рядов нормальны $0{,}9$ и выше, в кросс-секционных социальных данных $0{,}3$ уже неплохо. Важнее не абсолютная величина, а то, что $\bar{R}^2$ выше, чем у конкурирующих моделей, и факторы значимы по $t$ -статистике.

Коротко

Скорректированный коэффициент детерминации считается по формуле $\bar{R}^2 = 1 - (1 - R^2)\frac{n-1}{n-k-1}$ , где $n$ - объём выборки, $k$ - число факторов без константы. В отличие от обычного $R^2$ , он штрафует модель за каждый регрессор и растёт только при добавлении действительно полезного фактора. Множитель $\frac{n-1}{n-k-1}$ тем больше, чем больше факторов и меньше выборка, поэтому на коротких выборках с многими переменными $\bar{R}^2$ заметно ниже $R^2$ , а при $R^2 < k/(n-1)$ уходит в минус. Использовать его нужно для сравнения моделей разной размерности - там обычный $R^2$ обманчив.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Скорректированный коэффициент детерминации: формула R²_adj

Формула скорректированного коэффициента детерминации

Почему обычного R² недостаточно

Как работает штраф за факторы

Расчёт на числовом примере

Когда R²_adj становится отрицательным

Связь с другими показателями качества

Частые ошибки

FAQ

Коротко

Читайте также

Частный F-критерий: значимость фактора в регрессии

Коэффициент множественной корреляции: формула и расчёт

Множественная регрессия: расчёт коэффициентов методом МНК