EssayAI
Блог
Блог
Математика и алгоритмы

Коэффициент множественной корреляции: формула и расчёт

17 июня 2026Время чтения: 7 минут
#множественная корреляция#эконометрика#парные коэффициенты#коэффициент детерминации#корреляционная матрица
Коэффициент множественной корреляции: формула и расчёт

Когда результат зависит не от одного фактора, а сразу от нескольких, обычная парная корреляция уже не описывает картину целиком. Нужна мера, которая показывает тесноту связи зависимой переменной YY со всем набором факторов X1,X2,,XpX_1, X_2, \dots, X_p одновременно. Эту роль выполняет коэффициент множественной корреляции RR. Ниже разберём, по каким формулам он считается для двух и более факторов, как связан с коэффициентом детерминации и регрессией, и что означают его значения. Калькулятор под введением посчитает RR по вашим парным коэффициентам, а дальше идёт пошаговый разбор формул.

Что измеряет множественный коэффициент

Коэффициент множественной корреляции RR - это мера тесноты линейной связи между зависимой переменной YY и совокупностью объясняющих переменных X1,,XpX_1, \dots, X_p. По смыслу это обычный парный коэффициент корреляции, но между фактическими значениями YY и теми значениями Y^\hat{Y}, которые предсказывает множественная регрессия:

R=rYY^.R = r_{Y\hat{Y}}.

Отсюда сразу два важных свойства. Во-первых, RR всегда лежит в диапазоне 0R10 \le R \le 1 - в отличие от парного коэффициента, он не бывает отрицательным, потому что регрессия уже учитывает знаки связей по каждому фактору. Во-вторых, добавление нового фактора не может уменьшить RR: множественная корреляция всегда не слабее самой сильной парной связи.

Схема множественной корреляции: предикторы X1 и X2 совместно объясняют переменную Y, а доля объяснённой дисперсии равна R квадрат
Схема множественной корреляции: предикторы X1 и X2 совместно объясняют переменную Y, а доля объяснённой дисперсии равна R квадрат

Именно поэтому RR нельзя интерпретировать как «среднее из парных корреляций». Он показывает, насколько хорошо весь набор факторов вместе воспроизводит поведение результата.

Формула для двух факторов

Самый частый случай в учебных задачах - два фактора X1X_1 и X2X_2. Здесь множественный коэффициент выражается напрямую через три парных коэффициента корреляции: rYx1r_{Yx_1}, rYx2r_{Yx_2} и rx1x2r_{x_1 x_2}:

RYx1x2=rYx12+rYx222rYx1rYx2rx1x21rx1x22.R_{Y \cdot x_1 x_2} = \sqrt{\dfrac{r_{Yx_1}^2 + r_{Yx_2}^2 - 2\,r_{Yx_1}\,r_{Yx_2}\,r_{x_1 x_2}}{1 - r_{x_1 x_2}^2}}.

Числитель собирает вклад обоих факторов и корректирует его на их взаимную связь, а знаменатель 1rx1x221 - r_{x_1 x_2}^2 учитывает мультиколлинеарность - насколько сами факторы дублируют друг друга. Если факторы независимы (rx1x2=0r_{x_1 x_2} = 0), формула упрощается до R=rYx12+rYx22R = \sqrt{r_{Yx_1}^2 + r_{Yx_2}^2} - вклады просто складываются по теореме Пифагора.

Подкоренное выражение всегда неотрицательно при корректной матрице корреляций. Если у вас получился отрицательный радиканд, ищите арифметическую ошибку в парных коэффициентах или их округлении.

Эта формула - рабочая лошадка большинства задач по эконометрике. Достаточно посчитать три парные корреляции, и множественный коэффициент собирается из них без построения самой регрессии.

Связь с коэффициентом детерминации

Квадрат множественного коэффициента - это коэффициент детерминации:

R2=RYx1xp2.R^2 = R_{Y \cdot x_1 \dots x_p}^2.

R2R^2 показывает долю дисперсии зависимой переменной, объяснённую регрессией. Если R=0,9R = 0{,}9, то R2=0,81R^2 = 0{,}81 - модель объясняет 81% разброса YY, а оставшиеся 19% приходятся на неучтённые факторы и случайность. Это прямой аналог того, как коэффициент корреляции связан с детерминацией в парной регрессии, только теперь факторов несколько.

Через дисперсии R2R^2 записывается так:

R2=DфактDобщ=1DостDобщ,R^2 = \dfrac{D_{\text{факт}}}{D_{\text{общ}}} = 1 - \dfrac{D_{\text{ост}}}{D_{\text{общ}}},

где DфактD_{\text{факт}} - объяснённая (факторная) дисперсия, DостD_{\text{ост}} - остаточная, DобщD_{\text{общ}} - общая. Эта запись удобна, когда результаты регрессии уже посчитаны: достаточно взять отношение сумм квадратов.

Формула через определители матрицы

При числе факторов больше двух прямой формулы через парные коэффициенты уже нет - её заменяет запись через определитель корреляционной матрицы. Пусть Δr\Delta r - определитель полной матрицы парных корреляций (включая строку и столбец YY), а Δr11\Delta r_{11} - определитель её минора, полученного вычёркиванием строки и столбца, относящихся к YY. Тогда:

RYx1xp=1ΔrΔr11.R_{Y \cdot x_1 \dots x_p} = \sqrt{1 - \dfrac{\Delta r}{\Delta r_{11}}}.

Корреляционная матрица с единичной диагональю и парными коэффициентами сворачивается через определители в один итоговый коэффициент R
Корреляционная матрица с единичной диагональю и парными коэффициентами сворачивается через определители в один итоговый коэффициент R

Корреляционная матрица симметрична, по диагонали стоят единицы, вне диагонали - парные коэффициенты rijr_{ij}. Этот способ универсален: он работает для любого числа факторов и легко программируется. Для двух факторов он, разумеется, даёт тот же результат, что и формула из предыдущего раздела, - это удобный способ себя проверить.

Скорректированный коэффициент

У множественного R2R^2 есть неприятное свойство: он механически растёт при добавлении любого фактора, даже бесполезного. Чтобы честно сравнивать модели с разным числом факторов, используют скорректированный (нормированный) коэффициент детерминации:

Rˉ2=1(1R2)n1np1,\bar{R}^2 = 1 - (1 - R^2)\,\dfrac{n - 1}{n - p - 1},

где nn - число наблюдений, pp - число факторов. Поправка n1np1\frac{n-1}{n-p-1} штрафует за каждый лишний фактор. Если новый фактор добавляет мало информации, Rˉ2\bar{R}^2 может даже снизиться - это сигнал, что фактор стоит убрать. Поэтому при отборе факторов в множественной регрессии ориентируются именно на скорректированный коэффициент, а не на «сырой» R2R^2.

Проверка значимости

Найденный RR нужно проверить на статистическую значимость - не получился ли он большим случайно на малой выборке. Для этого служит FF-критерий Фишера:

F=R21R2np1p.F = \dfrac{R^2}{1 - R^2} \cdot \dfrac{n - p - 1}{p}.

Расчётное значение FF сравнивают с табличным FкрF_{\text{кр}} при числе степеней свободы k1=pk_1 = p и k2=np1k_2 = n - p - 1 и принятом уровне значимости (обычно α=0,05\alpha = 0{,}05). Если F>FкрF > F_{\text{кр}}, связь признаётся значимой: модель объясняет дисперсию не случайно. Это та же логика, по которой проверяется любой коэффициент корреляции, просто с поправкой на число факторов.

Интерпретация значений

Шкала тесноты связи для множественного коэффициента та же, что для парного, по шкале Чеддока:

  • R<0,3R < 0{,}3 - связь слабая, набор факторов почти не объясняет результат;
  • 0,3R<0,50{,}3 \le R < 0{,}5 - умеренная;
  • 0,5R<0,70{,}5 \le R < 0{,}7 - заметная;
  • 0,7R<0,90{,}7 \le R < 0{,}9 - высокая (тесная);
  • R0,9R \ge 0{,}9 - очень высокая.

При сравнении модели с одним и тем же YY, но разными наборами факторов корректнее ориентироваться не на сам RR, а на скорректированный Rˉ2\bar{R}^2 и значимость по Фишеру. Если же нужно строго сопоставить два коэффициента из разных выборок, применяют специальную процедуру - сравнение двух коэффициентов корреляции через преобразование Фишера.

Частые ошибки

  • Складывать парные корреляции. RR не равен сумме или среднему парных коэффициентов - нужна формула с поправкой на связь факторов между собой.
  • Игнорировать мультиколлинеарность. Если факторы сильно коррелируют (rx1x2r_{x_1 x_2} близко к единице), знаменатель 1rx1x221 - r_{x_1 x_2}^2 стремится к нулю и оценка RR становится неустойчивой.
  • Сравнивать модели по «сырому» R2R^2. Он всегда растёт с числом факторов; для сравнения берите скорректированный Rˉ2\bar{R}^2.
  • Считать высокий RR доказательством причинности. Тесная корреляция говорит о связи, но не о том, что факторы причина результата.
  • Забывать про значимость. На малой выборке даже R=0,8R = 0{,}8 может оказаться статистически незначимым по FF-критерию.

FAQ

Может ли коэффициент множественной корреляции быть отрицательным? Нет. По определению 0R10 \le R \le 1, поскольку R=rYY^R = r_{Y\hat{Y}}, а предсказанные значения регрессии устроены так, что связь с фактическими YY всегда неотрицательна. Отрицательными бывают только парные коэффициенты, входящие в формулу.

Чем множественный коэффициент отличается от частного? Множественный RR измеряет связь YY со всеми факторами сразу. Частный коэффициент корреляции измеряет связь YY с одним фактором при фиксированных (исключённых) остальных - он очищает связь от влияния прочих переменных.

Какую формулу использовать для трёх и более факторов? Прямой формулы через парные коэффициенты для трёх факторов уже нет. Используйте запись через определители корреляционной матрицы R=1Δr/Δr11R = \sqrt{1 - \Delta r / \Delta r_{11}} - она работает при любом числе факторов.

Коротко

Коэффициент множественной корреляции RR измеряет тесноту связи YY со всем набором факторов и равен корреляции между фактическими и предсказанными значениями, 0R10 \le R \le 1. Для двух факторов он считается по формуле через три парных коэффициента с поправкой на их взаимную связь; для большего числа факторов - через определители корреляционной матрицы. Квадрат R2R^2 - это коэффициент детерминации, доля объяснённой дисперсии. Для честного сравнения моделей берут скорректированный Rˉ2\bar{R}^2, а значимость проверяют по FF-критерию Фишера.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также