Коэффициент множественной корреляции: формула и расчёт

Когда результат зависит не от одного фактора, а сразу от нескольких, обычная парная корреляция уже не описывает картину целиком. Нужна мера, которая показывает тесноту связи зависимой переменной со всем набором факторов одновременно. Эту роль выполняет коэффициент множественной корреляции . Ниже разберём, по каким формулам он считается для двух и более факторов, как связан с коэффициентом детерминации и регрессией, и что означают его значения. Калькулятор под введением посчитает по вашим парным коэффициентам, а дальше идёт пошаговый разбор формул.
Что измеряет множественный коэффициент
Коэффициент множественной корреляции - это мера тесноты линейной связи между зависимой переменной и совокупностью объясняющих переменных . По смыслу это обычный парный коэффициент корреляции, но между фактическими значениями и теми значениями , которые предсказывает множественная регрессия:
Отсюда сразу два важных свойства. Во-первых, всегда лежит в диапазоне - в отличие от парного коэффициента, он не бывает отрицательным, потому что регрессия уже учитывает знаки связей по каждому фактору. Во-вторых, добавление нового фактора не может уменьшить : множественная корреляция всегда не слабее самой сильной парной связи.

Именно поэтому нельзя интерпретировать как «среднее из парных корреляций». Он показывает, насколько хорошо весь набор факторов вместе воспроизводит поведение результата.
Формула для двух факторов
Самый частый случай в учебных задачах - два фактора и . Здесь множественный коэффициент выражается напрямую через три парных коэффициента корреляции: , и :
Числитель собирает вклад обоих факторов и корректирует его на их взаимную связь, а знаменатель учитывает мультиколлинеарность - насколько сами факторы дублируют друг друга. Если факторы независимы (), формула упрощается до - вклады просто складываются по теореме Пифагора.
Подкоренное выражение всегда неотрицательно при корректной матрице корреляций. Если у вас получился отрицательный радиканд, ищите арифметическую ошибку в парных коэффициентах или их округлении.
Эта формула - рабочая лошадка большинства задач по эконометрике. Достаточно посчитать три парные корреляции, и множественный коэффициент собирается из них без построения самой регрессии.
Связь с коэффициентом детерминации
Квадрат множественного коэффициента - это коэффициент детерминации:
показывает долю дисперсии зависимой переменной, объяснённую регрессией. Если , то - модель объясняет 81% разброса , а оставшиеся 19% приходятся на неучтённые факторы и случайность. Это прямой аналог того, как коэффициент корреляции связан с детерминацией в парной регрессии, только теперь факторов несколько.
Через дисперсии записывается так:
где - объяснённая (факторная) дисперсия, - остаточная, - общая. Эта запись удобна, когда результаты регрессии уже посчитаны: достаточно взять отношение сумм квадратов.
Формула через определители матрицы
При числе факторов больше двух прямой формулы через парные коэффициенты уже нет - её заменяет запись через определитель корреляционной матрицы. Пусть - определитель полной матрицы парных корреляций (включая строку и столбец ), а - определитель её минора, полученного вычёркиванием строки и столбца, относящихся к . Тогда:

Корреляционная матрица симметрична, по диагонали стоят единицы, вне диагонали - парные коэффициенты . Этот способ универсален: он работает для любого числа факторов и легко программируется. Для двух факторов он, разумеется, даёт тот же результат, что и формула из предыдущего раздела, - это удобный способ себя проверить.
Скорректированный коэффициент
У множественного есть неприятное свойство: он механически растёт при добавлении любого фактора, даже бесполезного. Чтобы честно сравнивать модели с разным числом факторов, используют скорректированный (нормированный) коэффициент детерминации:
где - число наблюдений, - число факторов. Поправка штрафует за каждый лишний фактор. Если новый фактор добавляет мало информации, может даже снизиться - это сигнал, что фактор стоит убрать. Поэтому при отборе факторов в множественной регрессии ориентируются именно на скорректированный коэффициент, а не на «сырой» .
Проверка значимости
Найденный нужно проверить на статистическую значимость - не получился ли он большим случайно на малой выборке. Для этого служит -критерий Фишера:
Расчётное значение сравнивают с табличным при числе степеней свободы и и принятом уровне значимости (обычно ). Если , связь признаётся значимой: модель объясняет дисперсию не случайно. Это та же логика, по которой проверяется любой коэффициент корреляции, просто с поправкой на число факторов.
Интерпретация значений
Шкала тесноты связи для множественного коэффициента та же, что для парного, по шкале Чеддока:
- - связь слабая, набор факторов почти не объясняет результат;
- - умеренная;
- - заметная;
- - высокая (тесная);
- - очень высокая.
При сравнении модели с одним и тем же , но разными наборами факторов корректнее ориентироваться не на сам , а на скорректированный и значимость по Фишеру. Если же нужно строго сопоставить два коэффициента из разных выборок, применяют специальную процедуру - сравнение двух коэффициентов корреляции через преобразование Фишера.
Частые ошибки
- Складывать парные корреляции. не равен сумме или среднему парных коэффициентов - нужна формула с поправкой на связь факторов между собой.
- Игнорировать мультиколлинеарность. Если факторы сильно коррелируют ( близко к единице), знаменатель стремится к нулю и оценка становится неустойчивой.
- Сравнивать модели по «сырому» . Он всегда растёт с числом факторов; для сравнения берите скорректированный .
- Считать высокий доказательством причинности. Тесная корреляция говорит о связи, но не о том, что факторы причина результата.
- Забывать про значимость. На малой выборке даже может оказаться статистически незначимым по -критерию.
FAQ
Может ли коэффициент множественной корреляции быть отрицательным? Нет. По определению , поскольку , а предсказанные значения регрессии устроены так, что связь с фактическими всегда неотрицательна. Отрицательными бывают только парные коэффициенты, входящие в формулу.
Чем множественный коэффициент отличается от частного? Множественный измеряет связь со всеми факторами сразу. Частный коэффициент корреляции измеряет связь с одним фактором при фиксированных (исключённых) остальных - он очищает связь от влияния прочих переменных.
Какую формулу использовать для трёх и более факторов? Прямой формулы через парные коэффициенты для трёх факторов уже нет. Используйте запись через определители корреляционной матрицы - она работает при любом числе факторов.
Коротко
Коэффициент множественной корреляции измеряет тесноту связи со всем набором факторов и равен корреляции между фактическими и предсказанными значениями, . Для двух факторов он считается по формуле через три парных коэффициента с поправкой на их взаимную связь; для большего числа факторов - через определители корреляционной матрицы. Квадрат - это коэффициент детерминации, доля объяснённой дисперсии. Для честного сравнения моделей берут скорректированный , а значимость проверяют по -критерию Фишера.
Читайте также

Скорректированный коэффициент детерминации: формула R²_adj
Скорректированный коэффициент детерминации: формула R²_adj через R, число факторов k и объём выборки n, зачем нужен штраф за факторы, расчёт и когда значение становится отрицательным.

Критерий сферичности Бартлетта в факторном анализе
Критерий сферичности Бартлетта: зачем проверять корреляционную матрицу на единичность перед факторным анализом, формула хи-квадрат через определитель, число степеней свободы и связь с мерой KMO.

Тест Бройша-Годфри: проверка остатков на автокорреляцию
Тест Бройша-Годфри на автокорреляцию остатков регрессии: LM-статистика n·R², выбор числа лагов, сравнение с хи-квадрат, отличие от Дарбина-Уотсона и интерпретация p-значения.