Связь коэффициента корреляции и детерминации: r и R²

16 июня 2026Время чтения: 7 минут

#эконометрика#корреляция#детерминация#регрессия#статистика

Студенты часто путают коэффициент корреляции $r$ и коэффициент детерминации $R^2$ или думают, что это два независимых показателя. На самом деле в парной линейной регрессии они связаны простым и важным равенством, и понимание этой связи разом проясняет, что измеряет каждый из них. Ниже разбираем формулу связи, её смысл, типичные подвохи и границы применимости. Если нужно быстро посчитать одно через другое или объяснить результат конкретной задачи, соберите запрос в инструменте под этим абзацем.

Главная формула связи

Для парной линейной регрессии справедливо равенство

$R^2 = r^2,$

где $r$ - выборочный коэффициент корреляции Пирсона между $x$ и $y$ , а $R^2$ - коэффициент детерминации модели $\hat{y} = a + b x$ . То есть коэффициент детерминации равен квадрату коэффициента корреляции. Отсюда сразу следует обратное соотношение: $r = \pm\sqrt{R^2}$ . Знак выбирается по знаку коэффициента наклона $b$ (или по знаку самой корреляции): при прямой связи $r > 0$ , при обратной $r < 0$ .

Эта связь коэффициента корреляции и детерминации делает показатели взаимозаменяемыми в простой регрессии: зная любой из них, вы мгновенно получаете второй. Например, при $r = -0{,}8$ получаем $R^2 = 0{,}64$ ; при $R^2 = 0{,}49$ корреляция равна $r = \pm 0{,}7$ .

Запомните направление: возвести в квадрат корреляцию легко, но при извлечении корня из R квадрат знак теряется, и его надо восстанавливать по смыслу связи.

Что показывает каждый коэффициент

Хотя $r$ и $R^2$ связаны арифметически, отвечают они на разные вопросы.

Коэффициент корреляции $r$ измеряет тесноту и направление линейной связи и лежит в диапазоне $[-1; 1]$ . Знак говорит о направлении (растёт ли $y$ вместе с $x$ или убывает), модуль - о силе. Значение $r = 0$ означает отсутствие линейной связи, $|r| = 1$ - идеальную прямую.

Коэффициент детерминации $R^2$ лежит в $[0; 1]$ и показывает долю дисперсии зависимой переменной $y$ , которую объясняет регрессия. Если $R^2 = 0{,}64$ , то модель объясняет 64 % разброса $y$ , а оставшиеся 36 % приходятся на необъяснённую (остаточную) вариацию. Именно из-за возведения в квадрат $R^2$ всегда неотрицателен и теряет информацию о направлении.

Круговая диаграмма: дисперсия зависимой переменной делится на объяснённую регрессией часть и необъяснённый остаток, формула r в квадрате равна R в квадрате

Из этого вытекает практичный вывод: $R^2$ удобнее интерпретировать содержательно («модель объясняет столько-то процентов»), а $r$ - нагляднее как мера направленной связи. Похожую логику долей вы встречаете и в других показателях, например в коэффициенте инфляции дисперсии, где тоже работают с разложением вариации.

Откуда берётся равенство R² = r²

Связь не случайна, она следует из разложения общей суммы квадратов. Общая вариация $y$ раскладывается на объяснённую и остаточную:

$\text{TSS} = \text{ESS} + \text{RSS},$

где $\text{TSS} = \sum (y_i - \bar{y})^2$ - общая сумма квадратов, $\text{ESS} = \sum (\hat{y}_i - \bar{y})^2$ - объяснённая, $\text{RSS} = \sum (y_i - \hat{y}_i)^2$ - остаточная. По определению коэффициент детерминации:

$R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}.$

В парной регрессии оценка наклона по методу наименьших квадратов равна $b = r \cdot \dfrac{s_y}{s_x}$ . Подставив это в выражение для $\text{ESS}$ и сократив, получаем ровно $R^2 = r^2$ . Ключевой момент: равенство верно только в парной (однофакторной) линейной регрессии, потому что там $R^2$ привязан к единственной корреляции $x$ и $y$ .

Сила связи и интерпретация

Чем сильнее линейная связь, тем ближе $|r|$ к единице и тем больше $R^2$ . Сопоставление наглядно показывает, как разброс точек вокруг линии регрессии переводится в числа.

Три диаграммы рассеяния: сильная, средняя и слабая линейная связь с линией регрессии и формулой коэффициента корреляции Пирсона

Полезно держать в голове, что квадрат «прижимает» слабые значения. Корреляция $r = 0{,}5$ кажется заметной, но даёт $R^2 = 0{,}25$ - модель объясняет лишь четверть вариации. А $r = 0{,}3$ превращается в $R^2 = 0{,}09$ , то есть в 9 %. Поэтому одно и то же $r$ выглядит «солиднее», чем соответствующий ему $R^2$ , и при отчёте важно указывать оба или хотя бы понимать, какой из них вы приводите.

Высокое R квадрат не доказывает причинность и не гарантирует адекватность модели: связь может быть нелинейной, выборка маленькой, а зависимость ложной.

Пример расчёта в обе стороны

Разберём типовую учебную задачу. Пусть по выборке из 30 фирм найдена корреляция между затратами на рекламу $x$ и выручкой $y$ , равная $r = 0{,}75$ . Найдём коэффициент детерминации:

$R^2 = r^2 = 0{,}75^2 = 0{,}5625.$

Значит, регрессия объясняет около 56 % вариации выручки, остальные 44 % связаны с прочими факторами и случайностью. Содержательный вывод: связь заметная, но почти половина разброса не учтена моделью, поэтому делать на её основе точный прогноз рискованно.

Теперь обратная задача. Пусть для другой выборки известно, что $R^2 = 0{,}36$ , а наклон линии регрессии отрицательный. Тогда

$r = -\sqrt{0{,}36} = -0{,}6.$

Минус берём именно из-за отрицательного наклона: с ростом $x$ переменная $y$ убывает. Если бы мы механически извлекли корень и записали $r = 0{,}6$ , то получили бы неверный знак и неправильное направление связи. Этот шаг с восстановлением знака и есть самое частое место ошибок в задачах на связь коэффициента корреляции и детерминации.

Множественная регрессия: где связь ломается

Как только факторов становится больше одного, простое равенство $R^2 = r^2$ перестаёт работать. В множественной регрессии $R^2$ - это уже квадрат коэффициента множественной корреляции между $y$ и его прогнозом $\hat{y}$ , а не квадрат корреляции с каким-то одним фактором. Сравнивать $R^2$ с парной корреляцией отдельного предиктора нельзя.

Более того, добавление любого нового фактора не уменьшает $R^2$ , даже если фактор бесполезен. Поэтому для множественных моделей используют скорректированный $\bar{R}^2$ (adjusted R²), который штрафует за число параметров:

$\bar{R}^2 = 1 - (1 - R^2) \cdot \frac{n - 1}{n - k - 1},$

где $n$ - число наблюдений, $k$ - число объясняющих переменных. Скорректированный показатель может даже снижаться при добавлении неинформативного фактора, что и делает его честнее при сравнении моделей разной размерности.

Частые ошибки

Извлекают корень из $R^2$ и забывают про знак. $R^2 = 0{,}81$ даёт $r = +0{,}9$ или $r = -0{,}9$ , выбор знака - по направлению связи или знаку наклона $b$ .
Применяют $R^2 = r^2$ в множественной регрессии. Там это неверно: $R^2$ относится к множественной корреляции, а не к парной с одним фактором.
Трактуют высокий $R^2$ как доказательство причинности. Это всего лишь доля объяснённой дисперсии при выбранной модели, а не свидетельство причинно-следственной связи.
Сравнивают $R^2$ моделей с разным числом факторов напрямую. Нужен скорректированный $\bar{R}^2$ , иначе побеждает модель с большим числом предикторов.
Считают, что $R^2$ ловит любую зависимость. Он измеряет только линейную часть: при сильной нелинейной связи $r$ и $R^2$ могут быть близки к нулю.

FAQ

Чему равен коэффициент детерминации, если корреляция равна 0,7? Возводим в квадрат: $R^2 = 0{,}7^2 = 0{,}49$ . Модель объясняет 49 % дисперсии зависимой переменной, остальное приходится на остаток.

Может ли коэффициент детерминации быть отрицательным? В классической парной регрессии с константой нет, потому что $R^2 = r^2 \ge 0$ . Но при оценке без свободного члена или при подгонке внешней модели формула $1 - \text{RSS}/\text{TSS}$ может дать отрицательное значение, означающее, что прогноз хуже простого среднего.

Чем коэффициент детерминации лучше корреляции? Он напрямую переводится в проценты объяснённой вариации, что удобно для содержательной интерпретации и сравнения моделей. Корреляция же нагляднее как мера направления и тесноты. Для оценки качества по остаткам пригодятся и другие инструменты, например проверка автокорреляции остатков критерием Дарбина-Уотсона.

Коротко

В парной линейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции: $R^2 = r^2$ , а обратно $r = \pm\sqrt{R^2}$ со знаком по направлению связи. Корреляция $r$ из $[-1; 1]$ измеряет силу и направление линейной связи, а детерминация $R^2$ из $[0; 1]$ показывает долю объяснённой дисперсии. Равенство выводится из разложения сумм квадратов и работает только для одного фактора; в множественной регрессии $R^2$ относится к множественной корреляции, и честнее использовать скорректированный $\bar{R}^2$ .

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Связь коэффициента корреляции и детерминации: r и R²

Главная формула связи

Что показывает каждый коэффициент

Откуда берётся равенство R² = r²

Сила связи и интерпретация

Пример расчёта в обе стороны

Множественная регрессия: где связь ломается

Частые ошибки

FAQ

Коротко

Читайте также

Коэффициент автокорреляции остатков: формула и интерпретация

Коэффициент вариации: интерпретация и пороги однородности

Отбор факторов в множественной регрессии: методы и критерии