Связь коэффициента корреляции и детерминации: r и R²

Студенты часто путают коэффициент корреляции и коэффициент детерминации или думают, что это два независимых показателя. На самом деле в парной линейной регрессии они связаны простым и важным равенством, и понимание этой связи разом проясняет, что измеряет каждый из них. Ниже разбираем формулу связи, её смысл, типичные подвохи и границы применимости. Если нужно быстро посчитать одно через другое или объяснить результат конкретной задачи, соберите запрос в инструменте под этим абзацем.
Главная формула связи
Для парной линейной регрессии справедливо равенство
где - выборочный коэффициент корреляции Пирсона между и , а - коэффициент детерминации модели . То есть коэффициент детерминации равен квадрату коэффициента корреляции. Отсюда сразу следует обратное соотношение: . Знак выбирается по знаку коэффициента наклона (или по знаку самой корреляции): при прямой связи , при обратной .
Эта связь коэффициента корреляции и детерминации делает показатели взаимозаменяемыми в простой регрессии: зная любой из них, вы мгновенно получаете второй. Например, при получаем ; при корреляция равна .
Запомните направление: возвести в квадрат корреляцию легко, но при извлечении корня из R квадрат знак теряется, и его надо восстанавливать по смыслу связи.
Что показывает каждый коэффициент
Хотя и связаны арифметически, отвечают они на разные вопросы.
Коэффициент корреляции измеряет тесноту и направление линейной связи и лежит в диапазоне . Знак говорит о направлении (растёт ли вместе с или убывает), модуль - о силе. Значение означает отсутствие линейной связи, - идеальную прямую.
Коэффициент детерминации лежит в и показывает долю дисперсии зависимой переменной , которую объясняет регрессия. Если , то модель объясняет 64 % разброса , а оставшиеся 36 % приходятся на необъяснённую (остаточную) вариацию. Именно из-за возведения в квадрат всегда неотрицателен и теряет информацию о направлении.

Из этого вытекает практичный вывод: удобнее интерпретировать содержательно («модель объясняет столько-то процентов»), а - нагляднее как мера направленной связи. Похожую логику долей вы встречаете и в других показателях, например в коэффициенте инфляции дисперсии, где тоже работают с разложением вариации.
Откуда берётся равенство R² = r²
Связь не случайна, она следует из разложения общей суммы квадратов. Общая вариация раскладывается на объяснённую и остаточную:
где - общая сумма квадратов, - объяснённая, - остаточная. По определению коэффициент детерминации:
В парной регрессии оценка наклона по методу наименьших квадратов равна . Подставив это в выражение для и сократив, получаем ровно . Ключевой момент: равенство верно только в парной (однофакторной) линейной регрессии, потому что там привязан к единственной корреляции и .
Сила связи и интерпретация
Чем сильнее линейная связь, тем ближе к единице и тем больше . Сопоставление наглядно показывает, как разброс точек вокруг линии регрессии переводится в числа.

Полезно держать в голове, что квадрат «прижимает» слабые значения. Корреляция кажется заметной, но даёт - модель объясняет лишь четверть вариации. А превращается в , то есть в 9 %. Поэтому одно и то же выглядит «солиднее», чем соответствующий ему , и при отчёте важно указывать оба или хотя бы понимать, какой из них вы приводите.
Высокое R квадрат не доказывает причинность и не гарантирует адекватность модели: связь может быть нелинейной, выборка маленькой, а зависимость ложной.
Пример расчёта в обе стороны
Разберём типовую учебную задачу. Пусть по выборке из 30 фирм найдена корреляция между затратами на рекламу и выручкой , равная . Найдём коэффициент детерминации:
Значит, регрессия объясняет около 56 % вариации выручки, остальные 44 % связаны с прочими факторами и случайностью. Содержательный вывод: связь заметная, но почти половина разброса не учтена моделью, поэтому делать на её основе точный прогноз рискованно.
Теперь обратная задача. Пусть для другой выборки известно, что , а наклон линии регрессии отрицательный. Тогда
Минус берём именно из-за отрицательного наклона: с ростом переменная убывает. Если бы мы механически извлекли корень и записали , то получили бы неверный знак и неправильное направление связи. Этот шаг с восстановлением знака и есть самое частое место ошибок в задачах на связь коэффициента корреляции и детерминации.
Множественная регрессия: где связь ломается
Как только факторов становится больше одного, простое равенство перестаёт работать. В множественной регрессии - это уже квадрат коэффициента множественной корреляции между и его прогнозом , а не квадрат корреляции с каким-то одним фактором. Сравнивать с парной корреляцией отдельного предиктора нельзя.
Более того, добавление любого нового фактора не уменьшает , даже если фактор бесполезен. Поэтому для множественных моделей используют скорректированный (adjusted R²), который штрафует за число параметров:
где - число наблюдений, - число объясняющих переменных. Скорректированный показатель может даже снижаться при добавлении неинформативного фактора, что и делает его честнее при сравнении моделей разной размерности.
Частые ошибки
- Извлекают корень из и забывают про знак. даёт или , выбор знака - по направлению связи или знаку наклона .
- Применяют в множественной регрессии. Там это неверно: относится к множественной корреляции, а не к парной с одним фактором.
- Трактуют высокий как доказательство причинности. Это всего лишь доля объяснённой дисперсии при выбранной модели, а не свидетельство причинно-следственной связи.
- Сравнивают моделей с разным числом факторов напрямую. Нужен скорректированный , иначе побеждает модель с большим числом предикторов.
- Считают, что ловит любую зависимость. Он измеряет только линейную часть: при сильной нелинейной связи и могут быть близки к нулю.
FAQ
Чему равен коэффициент детерминации, если корреляция равна 0,7? Возводим в квадрат: . Модель объясняет 49 % дисперсии зависимой переменной, остальное приходится на остаток.
Может ли коэффициент детерминации быть отрицательным? В классической парной регрессии с константой нет, потому что . Но при оценке без свободного члена или при подгонке внешней модели формула может дать отрицательное значение, означающее, что прогноз хуже простого среднего.
Чем коэффициент детерминации лучше корреляции? Он напрямую переводится в проценты объяснённой вариации, что удобно для содержательной интерпретации и сравнения моделей. Корреляция же нагляднее как мера направления и тесноты. Для оценки качества по остаткам пригодятся и другие инструменты, например проверка автокорреляции остатков критерием Дарбина-Уотсона.
Коротко
В парной линейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции: , а обратно со знаком по направлению связи. Корреляция из измеряет силу и направление линейной связи, а детерминация из показывает долю объяснённой дисперсии. Равенство выводится из разложения сумм квадратов и работает только для одного фактора; в множественной регрессии относится к множественной корреляции, и честнее использовать скорректированный .
Читайте также

Коэффициент автокорреляции остатков: формула и интерпретация
Коэффициент автокорреляции остатков первого порядка: формула AR(1), связь с тестом Дарбина-Уотсона, оценка по МНК и способы устранения автокорреляции в регрессии.

Коэффициент вариации: интерпретация и пороги однородности
Коэффициент вариации интерпретация на примерах: что означают значения до 33 процентов, от 33 до 50 и выше, как читать разброс, сравнивать совокупности и не ошибаться при отрицательном среднем.

Отбор факторов в множественной регрессии: методы и критерии
Как отбирать факторы в множественной регрессии: пошаговый, прямой и обратный отбор, проверка значимости, мультиколлинеарность и VIF, критерии AIC и скорректированный R квадрат.