EssayAI
Блог
Блог
Математика и алгоритмы

Скорректированный коэффициент детерминации: формула R²_adj

17 июня 2026Время чтения: 8 минут
#эконометрика#скорректированный R квадрат#коэффициент детерминации#множественная регрессия#качество модели
Скорректированный коэффициент детерминации: формула R²_adj

Обычный коэффициент детерминации R2R^2 обладает неприятным свойством: он почти никогда не падает при добавлении в регрессию нового фактора, даже совершенно бесполезного. Поэтому сравнивать по R2R^2 модели с разным числом переменных нельзя - выиграет та, в которую напихали больше регрессоров. Скорректированный коэффициент детерминации (adjusted R-squared, Rˉ2\bar{R}^2) решает эту проблему: он штрафует модель за каждый лишний фактор и растёт только тогда, когда новый регрессор объясняет дисперсию лучше, чем «стоит» по числу степеней свободы. Ниже разберём формулу по частям, посчитаем на числах и покажем, когда значение уходит в минус. Поэкспериментировать с самой зависимостью можно прямо в калькуляторе под введением.

Формула скорректированного коэффициента детерминации

Каноническая формула связывает скорректированный коэффициент с обычным:

Rˉ2=1(1R2)n1nk1\bar{R}^2 = 1 - (1 - R^2)\,\frac{n - 1}{n - k - 1}

Здесь nn - число наблюдений (объём выборки), kk - число объясняющих переменных без учёта свободного члена, R2R^2 - обычный коэффициент детерминации. Иногда в литературе вместо kk пишут pp или mm - это одно и то же число регрессоров. Знаменатель nk1n - k - 1 - это число степеней свободы остатков: из выборки вычитаются kk оцениваемых коэффициентов и единица за константу.

Схема формулы скорректированного коэффициента детерминации: дробь n минус 1 делить на n минус k минус 1 как множитель-штраф, который оттягивает значение R квадрат вниз
Схема формулы скорректированного коэффициента детерминации: дробь n минус 1 делить на n минус k минус 1 как множитель-штраф, который оттягивает значение R квадрат вниз

Эквивалентная запись - через суммы квадратов. Если RSSRSS - остаточная сумма квадратов, а TSSTSS - общая, то:

Rˉ2=1RSS/(nk1)TSS/(n1)\bar{R}^2 = 1 - \frac{RSS / (n - k - 1)}{TSS / (n - 1)}

В этой форме видно главное: и числитель, и знаменатель делятся на свои степени свободы. Обычный R2=1RSS/TSSR^2 = 1 - RSS/TSS сравнивает сами суммы квадратов, а скорректированный - несмещённые оценки дисперсий. Именно деление на nk1n - k - 1 заставляет показатель «чувствовать» переусложнение.

Почему обычного R² недостаточно

Обычный коэффициент детерминации R2=ESS/TSSR^2 = ESS/TSS показывает долю дисперсии зависимой переменной, объяснённую моделью. Его слабость математически строгая: при добавлении любого регрессора RSSRSS не может вырасти (в худшем случае коэффициент при новом факторе окажется нулевым), а значит R2R^2 не может уменьшиться. На практике из-за случайных корреляций он почти всегда чуть подрастает.

Отсюда соблазн: добавить десяток факторов и отчитаться о «высоком качестве модели». Но такая модель переобучена - она описывает шум конкретной выборки, а не закономерность. Связь R2R^2 с парной корреляцией и его базовый смысл подробно разобраны в материале про коэффициент корреляции и детерминации; здесь же важно, что для сравнения моделей разной размерности нужен показатель со встроенным штрафом. Им и стал Rˉ2\bar{R}^2.

Как работает штраф за факторы

Разложим формулу на смысл. Множитель n1nk1\frac{n - 1}{n - k - 1} всегда 1\ge 1: при k=0k = 0 он равен единице (и Rˉ2=R2\bar{R}^2 = R^2), а с каждым новым фактором знаменатель уменьшается, и множитель растёт. На него умножается «недообъяснённая» доля 1R21 - R^2. Итог: чем больше факторов и меньше выборка, тем сильнее (1R2)(1 - R^2) раздувается и тем глубже Rˉ2\bar{R}^2 проседает ниже R2R^2.

Поэтому добавление фактора имеет двойной эффект. С одной стороны, R2R^2 растёт (уменьшается 1R21 - R^2). С другой - растёт штрафной множитель. Скорректированный коэффициент увеличится только если первое перевесит второе, то есть если новый фактор объясняет дисперсию ощутимо лучше случайного. Это и есть встроенный «детектор полезности» регрессора.

Сравнение двух кривых качества модели по мере роста числа факторов: обычный R квадрат монотонно растёт, скорректированный сначала растёт, потом разворачивается вниз
Сравнение двух кривых качества модели по мере роста числа факторов: обычный R квадрат монотонно растёт, скорректированный сначала растёт, потом разворачивается вниз

В калькуляторе выше это видно наглядно: при фиксированных R2R^2 и nn зелёная линия Rˉ2\bar{R}^2 опускается с каждым шагом по kk, тогда как пунктир обычного R2R^2 остаётся плоским. А на втором графике с ростом nn разрыв между оценками стремится к нулю - на больших выборках штраф почти не ощущается.

Расчёт на числовом примере

Возьмём типовую задачу. Множественная регрессия с k=4k = 4 факторами построена по n=30n = 30 наблюдениям, обычный R2=0,85R^2 = 0{,}85. Подставляем в формулу:

Rˉ2=1(10,85)3013041=10,152925\bar{R}^2 = 1 - (1 - 0{,}85)\,\frac{30 - 1}{30 - 4 - 1} = 1 - 0{,}15 \cdot \frac{29}{25}

Считаем множитель: 29/25=1,1629 / 25 = 1{,}16. Тогда 0,151,16=0,1740{,}15 \cdot 1{,}16 = 0{,}174, и Rˉ2=10,174=0,826\bar{R}^2 = 1 - 0{,}174 = 0{,}826. Скорректированный коэффициент получился 0,8260{,}826 против 0,850{,}85 обычного - штраф съел около 0,0240{,}024. Разрыв небольшой: выборка достаточная, факторов умеренно.

Теперь усложним: пусть тех же четыре фактора оценены лишь по n=12n = 12 наблюдениям. Множитель 1171,571\frac{11}{7} \approx 1{,}571, тогда 0,151,571=0,2360{,}15 \cdot 1{,}571 = 0{,}236, и Rˉ2=0,764\bar{R}^2 = 0{,}764. Та же модель, тот же R2R^2, но на короткой выборке скорректированное качество ниже на 0,0860{,}086. Это и есть наказание за «много факторов на малой выборке».

Когда R²_adj становится отрицательным

В отличие от обычного R2[0;1]R^2 \in [0; 1], скорректированный коэффициент может быть отрицательным. Это происходит, когда модель объясняет дисперсию хуже, чем простое среднее с поправкой на потерянные степени свободы. Формально Rˉ2<0\bar{R}^2 < 0 при

R2<kn1R^2 < \frac{k}{n - 1}

Пример: R2=0,1R^2 = 0{,}1, n=11n = 11, k=3k = 3. Множитель 1071,429\frac{10}{7} \approx 1{,}429, и Rˉ2=10,91,429=11,286=0,286\bar{R}^2 = 1 - 0{,}9 \cdot 1{,}429 = 1 - 1{,}286 = -0{,}286. Отрицательное значение - сигнал, что набор регрессоров бесполезен: они отнимают степени свободы, не давая объяснительной отдачи.

Если в задаче получился отрицательный или превышающий единицу скорректированный коэффициент - это не ошибка арифметики. Отрицательный $\bar{R}^2$ означает переопределённую или бессодержательную модель. А при $n - k - 1 \le 0$ (факторов почти столько же, сколько наблюдений) знаменатель неположителен и показатель вообще не определён.

Связь с другими показателями качества

Скорректированный коэффициент - не единственный инструмент отбора. Он эквивалентен сравнению несмещённых оценок дисперсии: максимизация Rˉ2\bar{R}^2 совпадает с минимизацией остаточной дисперсии s2=RSS/(nk1)s^2 = RSS/(n - k - 1). Поэтому для двух вложенных моделей Rˉ2\bar{R}^2 растёт ровно тогда, когда FF-статистика добавленного фактора превышает единицу - это более мягкий критерий, чем стандартный FF-тест на значимость.

Для жёсткого отбора применяют информационные критерии - Акаике (AIC) и Шварца (BIC). Они штрафуют сложность сильнее, особенно BIC на больших выборках. Логика отбора факторов и место Rˉ2\bar{R}^2 среди критериев подробнее раскрыты в разборе про отбор факторов в множественной регрессии. Практическое правило: Rˉ2\bar{R}^2 хорош как быстрый ориентир, но решение о включении фактора лучше подкреплять tt-статистикой коэффициента и содержательным смыслом.

Частые ошибки

  • Сравнение моделей разной размерности по обычному R2R^2. Это бессмысленно: R2R^2 почти всегда выше у модели с большим числом факторов. Для сравнения - только Rˉ2\bar{R}^2, AIC или BIC.
  • Округление промежуточного множителя. n1nk1\frac{n-1}{n-k-1} нужно держать с несколькими знаками: при малой выборке грубое округление до 1,21{,}2 вместо 1,161{,}16 заметно искажает ответ.
  • Путаница kk и числа коэффициентов. В формуле kk - это число факторов без свободного члена. Число оцениваемых параметров равно k+1k + 1, и именно оно вычитается из nn в знаменателе как n(k+1)n - (k+1).
  • «Отрицательный Rˉ2\bar{R}^2 - значит, я ошибся». Нет, это законное значение. Оно говорит, что модель не лучше константы.
  • Вывод «фактор полезен», если вырос R2R^2. Рост R2R^2 автоматичен. Полезность показывает только рост Rˉ2\bar{R}^2 (или значимая tt-статистика).

FAQ

Может ли скорректированный R² быть больше обычного? Нет. Поскольку множитель n1nk11\frac{n-1}{n-k-1} \ge 1, а (1R2)0(1 - R^2) \ge 0, вычитаемое в Rˉ2\bar{R}^2 всегда не меньше, чем в R2R^2. Значит Rˉ2R2\bar{R}^2 \le R^2 при любых k1k \ge 1. Равенство достигается только при k=0k = 0 или ровно при R2=1R^2 = 1.

Чему равен скорректированный R² при k = 0? При отсутствии факторов (только свободный член) множитель равен n1n1=1\frac{n-1}{n-1} = 1, и формула даёт Rˉ2=R2\bar{R}^2 = R^2. Штрафовать не за что - лишних регрессоров нет.

Какое значение R²_adj считается хорошим? Универсального порога нет - он зависит от данных. В экономике временных рядов нормальны 0,90{,}9 и выше, в кросс-секционных социальных данных 0,30{,}3 уже неплохо. Важнее не абсолютная величина, а то, что Rˉ2\bar{R}^2 выше, чем у конкурирующих моделей, и факторы значимы по tt-статистике.

Коротко

Скорректированный коэффициент детерминации считается по формуле Rˉ2=1(1R2)n1nk1\bar{R}^2 = 1 - (1 - R^2)\frac{n-1}{n-k-1}, где nn - объём выборки, kk - число факторов без константы. В отличие от обычного R2R^2, он штрафует модель за каждый регрессор и растёт только при добавлении действительно полезного фактора. Множитель n1nk1\frac{n-1}{n-k-1} тем больше, чем больше факторов и меньше выборка, поэтому на коротких выборках с многими переменными Rˉ2\bar{R}^2 заметно ниже R2R^2, а при R2<k/(n1)R^2 < k/(n-1) уходит в минус. Использовать его нужно для сравнения моделей разной размерности - там обычный R2R^2 обманчив.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также