EssayAI
Блог
Блог
Математика и алгоритмы

Сравнение двух коэффициентов корреляции: критерий Фишера

11 июня 2026Время чтения: 8 минут
#коэффициент корреляции#критерий фишера#z-преобразование#проверка гипотез#значимость различия

Допустим, в одной выборке связь между переменными оказалась сильнее, чем в другой: коэффициент корреляции r1=0,6r_1 = 0{,}6 против r2=0,3r_2 = 0{,}3. Заманчиво сразу сказать, что связь в первой группе «реально» крепче. Но выборочный коэффициент корреляции - случайная величина: при повторе эксперимента он будет колебаться, и часть разницы между r1r_1 и r2r_2 может объясняться простой выборочной изменчивостью. Сравнение двух коэффициентов корреляции - это статистическая проверка гипотезы о том, отличаются ли они достоверно или различие случайно. Ключевая идея в том, что сами rr напрямую вычитать нельзя: их распределение скошено, поэтому каждый rr сначала переводят в z-преобразование Фишера. Покрутите калькулятор ниже, чтобы увидеть, как при одних и тех же rr значимость различия меняется с объёмом выборки.

Почему нельзя просто вычесть один r из другого

Коэффициент корреляции Пирсона ограничен отрезком от 1-1 до 11, и чем ближе к границам, тем менее симметрично распределена его выборочная оценка. У rr около нуля разброс почти симметричен, а у r=0,9r = 0{,}9 оценка «упирается» в единицу и скашивается влево. Из-за этой неравномерности разность r1r2r_1 - r_2 не имеет простого, удобного для проверки распределения: одинаковая на вид разница в области слабых и сильных связей означает разную «дистанцию» в терминах значимости.

Чтобы обойти эту проблему, Рональд Фишер предложил преобразование, которое выпрямляет шкалу. После него оценка ведёт себя почти как нормальная величина с дисперсией, зависящей только от объёма выборки, и тогда разность уже можно стандартизировать и сравнивать с нормальным распределением.

Z-преобразование Фишера

Преобразование Фишера переводит коэффициент корреляции rr в величину zz по формуле:

z=12ln1+r1r=arctanhr.z = \frac{1}{2} \ln \frac{1 + r}{1 - r} = \operatorname{arctanh} r.

Главное свойство: для нормально распределённых данных оценка zz приближённо нормальна, а её дисперсия равна 1n3\dfrac{1}{n - 3} и не зависит от истинного значения корреляции. Именно это и делает zz удобной шкалой - на ней «ширина» разброса задаётся только числом наблюдений, а не самой величиной связи.

Два независимых коэффициента (r = 0,3 и r = 0,6) на шкале z-Фишера. При фиксированных корреляциях растёт объём выборки n: распределения оценок сужаются, разрыв между пиками в единицах стандартной ошибки увеличивается, и вердикт переключается с «различие не значимо» на «значимо»

На анимации видно суть критерия: положения пиков (сами z1z_1 и z2z_2) не двигаются, а вот ширина каждой «горки» - стандартная ошибка - сжимается с ростом nn. Когда выборки маленькие, распределения широкие и сильно перекрываются: такую разницу легко получить случайно. Когда nn велик, горки узкие, перекрытие исчезает, и тот же разрыв z1z2z_1 - z_2 оказывается достоверным.

Формула сравнения двух независимых коэффициентов

Если две корреляции получены на разных, не пересекающихся выборках (например, отдельно у мужчин и у женщин), коэффициенты независимы. Тогда стандартная ошибка разности z1z2z_1 - z_2 складывается из дисперсий обеих оценок:

SE=1n13+1n23,SE = \sqrt{\frac{1}{n_1 - 3} + \frac{1}{n_2 - 3}},

а тестовая статистика - это стандартизованная разность z-значений:

Z=z1z2SE.Z = \frac{z_1 - z_2}{SE}.

При справедливости нулевой гипотезы (истинные корреляции равны) величина ZZ подчиняется стандартному нормальному распределению. Поэтому различие значимо на уровне α\alpha, если Z|Z| превышает критическое значение нормального распределения: для двустороннего критерия при α=0,05\alpha = 0{,}05 это 1,961{,}96. Двусторонний уровень значимости считается как p=2(1Φ(Z))p = 2\bigl(1 - \Phi(|Z|)\bigr), где Φ\Phi - функция стандартного нормального распределения. Эта же логика проверки гипотезы о равенстве двух характеристик лежит в основе и критерия Фишера для сравнения двух дисперсий, только там вместо zz сравниваются разбросы.

Две оценки z-Фишера для r = 0,6 и r = 0,3 при n = 60 в каждой группе: скобка измеряет разность z1 - z2, равную примерно двум стандартным ошибкам, поэтому |Z| = 2,05 превышает порог 1,96
Две оценки z-Фишера для r = 0,6 и r = 0,3 при n = 60 в каждой группе: скобка измеряет разность z1 - z2, равную примерно двум стандартным ошибкам, поэтому |Z| = 2,05 превышает порог 1,96

На этой схеме разность пиков измерена в единицах стандартной ошибки: z1z20,38z_1 - z_2 \approx 0{,}38, а SE0,19SE \approx 0{,}19, поэтому отношение даёт Z2,05Z \approx 2{,}05. Оно чуть больше 1,961{,}96, и при n=60n = 60 в каждой группе различие признаётся значимым - но запас невелик, и при меньших выборках того же различия уже не хватило бы.

Разбор типовой задачи

Сравним r1=0,6r_1 = 0{,}6 (n1=60n_1 = 60) и r2=0,3r_2 = 0{,}3 (n2=60n_2 = 60) на уровне α=0,05\alpha = 0{,}05. Сначала переводим оба коэффициента в z-шкалу:

z1=arctanh0,6=0,693,z2=arctanh0,3=0,310.z_1 = \operatorname{arctanh} 0{,}6 = 0{,}693, \qquad z_2 = \operatorname{arctanh} 0{,}3 = 0{,}310.

Затем считаем стандартную ошибку разности и саму статистику:

SE=157+157=0,187,Z=0,6930,3100,187=2,05.SE = \sqrt{\frac{1}{57} + \frac{1}{57}} = 0{,}187, \qquad Z = \frac{0{,}693 - 0{,}310}{0{,}187} = 2{,}05.

Поскольку Z=2,05>1,96|Z| = 2{,}05 > 1{,}96, нулевая гипотеза о равенстве корреляций отклоняется: p0,04<0,05p \approx 0{,}04 < 0{,}05. Вывод - связь в первой группе достоверно сильнее. Калькулятор выше собирает ровно эту цепочку и заодно показывает на втором графике, как с ростом nn статистика Z|Z| поднимается над порогом.

Полезно проверить чувствительность вывода к объёму выборки: если уменьшить обе выборки до n=30n = 30, стандартная ошибка вырастет до 0,2720{,}272, и тогда Z=0,383/0,272=1,41Z = 0{,}383 / 0{,}272 = 1{,}41 уже не дотягивает до порога. Различие в коэффициентах осталось прежним, но достоверным быть перестало - это наглядно показывает, почему вывод о значимости всегда нужно делать вместе с объёмом наблюдений, а не по одной только разнице r1r2r_1 - r_2.

Сравнение зависимых корреляций и со значением

Формула выше работает для независимых выборок. Если же оба коэффициента посчитаны на одной и той же выборке (например, корреляция переменной YY с X1X_1 и её же корреляция с X2X_2), коэффициенты зависимы, и нужно учитывать ещё и корреляцию между предикторами. Для такого случая применяют формулу Стайгера или критерий Уильямса - они включают третий коэффициент r12r_{12} и дают более точную оценку.

Отдельный частый сценарий - проверить, отличается ли выборочный rr от заранее известного теоретического значения ρ0\rho_0. Тогда сравнивают одно z-значение с константой: Z=(zzρ0)n3Z = (z - z_{\rho_0}) \cdot \sqrt{n - 3}, где zρ0=arctanhρ0z_{\rho_0} = \operatorname{arctanh}\rho_0. Это уже одновыборочная задача, и вопрос «какой критерий мощнее при простой альтернативе» разбирается через лемму Неймана-Пирсона.

Частые ошибки

  • Вычитают сами коэффициенты без преобразования. Разность r1r2r_1 - r_2 нельзя напрямую делить на стандартную ошибку: распределение rr скошено. Сначала переводим оба в zz-Фишера.
  • Используют формулу для независимых выборок там, где корреляции зависимы. Если оба rr получены на одной выборке, нужна формула Стайгера или Уильямса с учётом r12r_{12}, иначе значимость завышается.
  • Берут n1n - 1 вместо n3n - 3. В дисперсии z-оценки знаменатель именно n3n - 3. Подстановка n1n - 1 занижает стандартную ошибку и завышает Z|Z|.
  • Путают односторонний и двусторонний критерий. Если гипотеза просто «корреляции различаются», критерий двусторонний и порог 1,961{,}96. Для «r1>r2r_1 > r_2» порог меняется на 1,6451{,}645.
  • Делают вывод о причинности. Значимое различие корреляций говорит о силе связи, но не о том, что в одной группе одна переменная «влияет» сильнее.

FAQ

Какой критерий используется для сравнения двух коэффициентов корреляции? Для двух независимых коэффициентов - критерий Фишера на основе z-преобразования: каждый rr переводят в z=arctanhrz = \operatorname{arctanh} r, считают Z=(z1z2)/SEZ = (z_1 - z_2)/SE и сравнивают с нормальным распределением. Для зависимых корреляций берут формулу Стайгера или Уильямса.

Что показывает z-преобразование Фишера? Оно выпрямляет шкалу коэффициента корреляции: после преобразования оценка zz почти нормальна, а её дисперсия равна 1/(n3)1/(n-3) и не зависит от величины связи. Это позволяет стандартизировать разность и проверять её значимость по нормальному распределению.

Почему различие корреляций может быть незначимым при заметной разнице r? Потому что значимость зависит не только от разности r1r2r_1 - r_2, но и от объёмов выборок. При малых nn стандартная ошибка велика, распределения оценок широки, и даже разрыв в 0,30{,}3 по корреляции легко объясняется случайностью. С ростом nn та же разница становится значимой.

Коротко

Сравнение двух коэффициентов корреляции делают не вычитанием самих rr, а через z-преобразование Фишера z=arctanhrz = \operatorname{arctanh} r, на котором оценка почти нормальна с дисперсией 1/(n3)1/(n-3). Для двух независимых выборок считают SE=1/(n13)+1/(n23)SE = \sqrt{1/(n_1-3) + 1/(n_2-3)} и статистику Z=(z1z2)/SEZ = (z_1 - z_2)/SE, а различие признают значимым, когда Z|Z| превышает порог нормального распределения (для α=0,05\alpha = 0{,}05 это 1,961{,}96). Значимость растёт с объёмом выборки, а для зависимых корреляций нужна формула Стайгера или Уильямса.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также