EssayAI
Блог
Блог
Гуманитарные науки

Связь коэффициента корреляции и детерминации: r и R²

16 июня 2026Время чтения: 7 минут
#эконометрика#корреляция#детерминация#регрессия#статистика
Связь коэффициента корреляции и детерминации: r и R²

Студенты часто путают коэффициент корреляции rr и коэффициент детерминации R2R^2 или думают, что это два независимых показателя. На самом деле в парной линейной регрессии они связаны простым и важным равенством, и понимание этой связи разом проясняет, что измеряет каждый из них. Ниже разбираем формулу связи, её смысл, типичные подвохи и границы применимости. Если нужно быстро посчитать одно через другое или объяснить результат конкретной задачи, соберите запрос в инструменте под этим абзацем.

Главная формула связи

Для парной линейной регрессии справедливо равенство

R2=r2,R^2 = r^2,

где rr - выборочный коэффициент корреляции Пирсона между xx и yy, а R2R^2 - коэффициент детерминации модели y^=a+bx\hat{y} = a + b x. То есть коэффициент детерминации равен квадрату коэффициента корреляции. Отсюда сразу следует обратное соотношение: r=±R2r = \pm\sqrt{R^2}. Знак выбирается по знаку коэффициента наклона bb (или по знаку самой корреляции): при прямой связи r>0r > 0, при обратной r<0r < 0.

Эта связь коэффициента корреляции и детерминации делает показатели взаимозаменяемыми в простой регрессии: зная любой из них, вы мгновенно получаете второй. Например, при r=0,8r = -0{,}8 получаем R2=0,64R^2 = 0{,}64; при R2=0,49R^2 = 0{,}49 корреляция равна r=±0,7r = \pm 0{,}7.

Запомните направление: возвести в квадрат корреляцию легко, но при извлечении корня из R квадрат знак теряется, и его надо восстанавливать по смыслу связи.

Что показывает каждый коэффициент

Хотя rr и R2R^2 связаны арифметически, отвечают они на разные вопросы.

Коэффициент корреляции rr измеряет тесноту и направление линейной связи и лежит в диапазоне [1;1][-1; 1]. Знак говорит о направлении (растёт ли yy вместе с xx или убывает), модуль - о силе. Значение r=0r = 0 означает отсутствие линейной связи, r=1|r| = 1 - идеальную прямую.

Коэффициент детерминации R2R^2 лежит в [0;1][0; 1] и показывает долю дисперсии зависимой переменной yy, которую объясняет регрессия. Если R2=0,64R^2 = 0{,}64, то модель объясняет 64 % разброса yy, а оставшиеся 36 % приходятся на необъяснённую (остаточную) вариацию. Именно из-за возведения в квадрат R2R^2 всегда неотрицателен и теряет информацию о направлении.

Круговая диаграмма: дисперсия зависимой переменной делится на объяснённую регрессией часть и необъяснённый остаток, формула r в квадрате равна R в квадрате
Круговая диаграмма: дисперсия зависимой переменной делится на объяснённую регрессией часть и необъяснённый остаток, формула r в квадрате равна R в квадрате

Из этого вытекает практичный вывод: R2R^2 удобнее интерпретировать содержательно («модель объясняет столько-то процентов»), а rr - нагляднее как мера направленной связи. Похожую логику долей вы встречаете и в других показателях, например в коэффициенте инфляции дисперсии, где тоже работают с разложением вариации.

Откуда берётся равенство R² = r²

Связь не случайна, она следует из разложения общей суммы квадратов. Общая вариация yy раскладывается на объяснённую и остаточную:

TSS=ESS+RSS,\text{TSS} = \text{ESS} + \text{RSS},

где TSS=(yiyˉ)2\text{TSS} = \sum (y_i - \bar{y})^2 - общая сумма квадратов, ESS=(y^iyˉ)2\text{ESS} = \sum (\hat{y}_i - \bar{y})^2 - объяснённая, RSS=(yiy^i)2\text{RSS} = \sum (y_i - \hat{y}_i)^2 - остаточная. По определению коэффициент детерминации:

R2=ESSTSS=1RSSTSS.R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}.

В парной регрессии оценка наклона по методу наименьших квадратов равна b=rsysxb = r \cdot \dfrac{s_y}{s_x}. Подставив это в выражение для ESS\text{ESS} и сократив, получаем ровно R2=r2R^2 = r^2. Ключевой момент: равенство верно только в парной (однофакторной) линейной регрессии, потому что там R2R^2 привязан к единственной корреляции xx и yy.

Сила связи и интерпретация

Чем сильнее линейная связь, тем ближе r|r| к единице и тем больше R2R^2. Сопоставление наглядно показывает, как разброс точек вокруг линии регрессии переводится в числа.

Три диаграммы рассеяния: сильная, средняя и слабая линейная связь с линией регрессии и формулой коэффициента корреляции Пирсона
Три диаграммы рассеяния: сильная, средняя и слабая линейная связь с линией регрессии и формулой коэффициента корреляции Пирсона

Полезно держать в голове, что квадрат «прижимает» слабые значения. Корреляция r=0,5r = 0{,}5 кажется заметной, но даёт R2=0,25R^2 = 0{,}25 - модель объясняет лишь четверть вариации. А r=0,3r = 0{,}3 превращается в R2=0,09R^2 = 0{,}09, то есть в 9 %. Поэтому одно и то же rr выглядит «солиднее», чем соответствующий ему R2R^2, и при отчёте важно указывать оба или хотя бы понимать, какой из них вы приводите.

Высокое R квадрат не доказывает причинность и не гарантирует адекватность модели: связь может быть нелинейной, выборка маленькой, а зависимость ложной.

Пример расчёта в обе стороны

Разберём типовую учебную задачу. Пусть по выборке из 30 фирм найдена корреляция между затратами на рекламу xx и выручкой yy, равная r=0,75r = 0{,}75. Найдём коэффициент детерминации:

R2=r2=0,752=0,5625.R^2 = r^2 = 0{,}75^2 = 0{,}5625.

Значит, регрессия объясняет около 56 % вариации выручки, остальные 44 % связаны с прочими факторами и случайностью. Содержательный вывод: связь заметная, но почти половина разброса не учтена моделью, поэтому делать на её основе точный прогноз рискованно.

Теперь обратная задача. Пусть для другой выборки известно, что R2=0,36R^2 = 0{,}36, а наклон линии регрессии отрицательный. Тогда

r=0,36=0,6.r = -\sqrt{0{,}36} = -0{,}6.

Минус берём именно из-за отрицательного наклона: с ростом xx переменная yy убывает. Если бы мы механически извлекли корень и записали r=0,6r = 0{,}6, то получили бы неверный знак и неправильное направление связи. Этот шаг с восстановлением знака и есть самое частое место ошибок в задачах на связь коэффициента корреляции и детерминации.

Множественная регрессия: где связь ломается

Как только факторов становится больше одного, простое равенство R2=r2R^2 = r^2 перестаёт работать. В множественной регрессии R2R^2 - это уже квадрат коэффициента множественной корреляции между yy и его прогнозом y^\hat{y}, а не квадрат корреляции с каким-то одним фактором. Сравнивать R2R^2 с парной корреляцией отдельного предиктора нельзя.

Более того, добавление любого нового фактора не уменьшает R2R^2, даже если фактор бесполезен. Поэтому для множественных моделей используют скорректированный Rˉ2\bar{R}^2 (adjusted R²), который штрафует за число параметров:

Rˉ2=1(1R2)n1nk1,\bar{R}^2 = 1 - (1 - R^2) \cdot \frac{n - 1}{n - k - 1},

где nn - число наблюдений, kk - число объясняющих переменных. Скорректированный показатель может даже снижаться при добавлении неинформативного фактора, что и делает его честнее при сравнении моделей разной размерности.

Частые ошибки

  • Извлекают корень из R2R^2 и забывают про знак. R2=0,81R^2 = 0{,}81 даёт r=+0,9r = +0{,}9 или r=0,9r = -0{,}9, выбор знака - по направлению связи или знаку наклона bb.
  • Применяют R2=r2R^2 = r^2 в множественной регрессии. Там это неверно: R2R^2 относится к множественной корреляции, а не к парной с одним фактором.
  • Трактуют высокий R2R^2 как доказательство причинности. Это всего лишь доля объяснённой дисперсии при выбранной модели, а не свидетельство причинно-следственной связи.
  • Сравнивают R2R^2 моделей с разным числом факторов напрямую. Нужен скорректированный Rˉ2\bar{R}^2, иначе побеждает модель с большим числом предикторов.
  • Считают, что R2R^2 ловит любую зависимость. Он измеряет только линейную часть: при сильной нелинейной связи rr и R2R^2 могут быть близки к нулю.

FAQ

Чему равен коэффициент детерминации, если корреляция равна 0,7? Возводим в квадрат: R2=0,72=0,49R^2 = 0{,}7^2 = 0{,}49. Модель объясняет 49 % дисперсии зависимой переменной, остальное приходится на остаток.

Может ли коэффициент детерминации быть отрицательным? В классической парной регрессии с константой нет, потому что R2=r20R^2 = r^2 \ge 0. Но при оценке без свободного члена или при подгонке внешней модели формула 1RSS/TSS1 - \text{RSS}/\text{TSS} может дать отрицательное значение, означающее, что прогноз хуже простого среднего.

Чем коэффициент детерминации лучше корреляции? Он напрямую переводится в проценты объяснённой вариации, что удобно для содержательной интерпретации и сравнения моделей. Корреляция же нагляднее как мера направления и тесноты. Для оценки качества по остаткам пригодятся и другие инструменты, например проверка автокорреляции остатков критерием Дарбина-Уотсона.

Коротко

В парной линейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции: R2=r2R^2 = r^2, а обратно r=±R2r = \pm\sqrt{R^2} со знаком по направлению связи. Корреляция rr из [1;1][-1; 1] измеряет силу и направление линейной связи, а детерминация R2R^2 из [0;1][0; 1] показывает долю объяснённой дисперсии. Равенство выводится из разложения сумм квадратов и работает только для одного фактора; в множественной регрессии R2R^2 относится к множественной корреляции, и честнее использовать скорректированный Rˉ2\bar{R}^2.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также