EssayAI
Блог
Блог
Гуманитарные науки

Значимость коэффициента корреляции: t-критерий Стьюдента

17 июня 2026Время чтения: 7 минут
#коэффициент корреляции#t-критерий Стьюдента#значимость корреляции#эконометрика#проверка гипотез
Значимость коэффициента корреляции: t-критерий Стьюдента

Обнаружить корреляцию между двумя переменными - только первый шаг. Важнее другое: убедиться, что найденная связь не случайна, а статистически значима. Именно для этого применяют t-критерий Стьюдента для коэффициента корреляции. Ниже разберём формулу, логику проверки и типичные ловушки, с которыми сталкиваются студенты при работе с малыми выборками.

Почему одного числа r недостаточно

Коэффициент корреляции Пирсона rr принимает значения от 1-1 до +1+1. Кажется, чем ближе r|r| к единице, тем надёжнее вывод. Но это ловушка: при маленькой выборке r=0,6r = 0{,}6 может оказаться случайным совпадением, а при большой - r=0,1r = 0{,}1 статистически значимо.

Логика проверки такова. Нулевая гипотеза H0H_0 утверждает, что в генеральной совокупности ρ=0\rho = 0 (линейной связи нет). Критерий Стьюдента показывает, насколько маловероятно получить именно такое rr при случайной выборке из несвязанных переменных.

Теоретически: если XX и YY совместно нормально распределены и ρ=0\rho = 0, то статистика t=rn2/1r2t = r\sqrt{n-2}/\sqrt{1-r^2} имеет точное распределение Стьюдента с n2n-2 степенями свободы. Условие нормальности или большая выборка (n>30n > 30) обеспечивают корректность теста.

Значимость не равна силе. Значимый r = 0,1 в огромной выборке говорит лишь о том, что связь ненулевая - не обязательно о том, что она практически важна.

Формула t-статистики для корреляции

Для коэффициента корреляции Пирсона rr при объёме выборки nn наблюдаемая t-статистика вычисляется по формуле:

t=rn21r2t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}}

Полученное значение сравнивают с критическим tα,n2t_{\alpha,\, n-2} из таблицы распределения Стьюдента, где α\alpha - уровень значимости (обычно 0,05 или 0,01), а степени свободы df=n2df = n - 2.

Чем больше tнабл|t_{\text{набл}}|, тем сильнее данные противоречат H0H_0. Если tнабл>tα,df|t_{\text{набл}}| > t_{\alpha,\, df}, корреляция признаётся значимой.

Формула t-критерия для проверки значимости корреляции
Формула t-критерия для проверки значимости корреляции

Степени свободы: почему n - 2

При проверке корреляции теряются две степени свободы: по одной на каждую из двух оцениваемых переменных. Если n=10n = 10, то df=8df = 8. Критическое значение t0.05,82,306t_{0.05,\, 8} \approx 2{,}306, тогда как при df=100df = 100 уже t0.05,1001,984t_{0.05,\, 100} \approx 1{,}984.

Именно поэтому при малой выборке требования к величине rr для получения значимости гораздо строже. При n=10n = 10 нужен r0,63r \geq 0{,}63; при n=50n = 50 достаточно r0,28r \geq 0{,}28.

Интуитивное объяснение: если в выборке всего две точки (n=2n = 2), через них всегда проходит прямая с r=±1r = \pm 1 - это не говорит ни о чём. Каждая дополнительная точка уменьшает «везение»; при достаточно большом nn даже слабая корреляция перестаёт укладываться в диапазон случайного разброса.

Двусторонний и односторонний критерий

По умолчанию применяют двусторонний критерий: проверяют, что ρ0\rho \neq 0, не уточняя знак. Если теория заранее предсказывает направление связи (например, рост доходов точно положительно связан с потреблением), допустим односторонний критерий - он строже требует обоснования, но имеет бо́льшую мощность при правильном знаке.

В большинстве учебных и прикладных задач по эконометрике используют двусторонний вариант. При выборе одностороннего критерия важно обосновать направление заранее - до сбора данных. Выбор более выгодного направления уже после просмотра данных искусственно занижает p-значение и делает результат недостоверным.

p-значение и его интерпретация

Программные пакеты (R, SPSS, Python) автоматически выводят p-значение - вероятность получить t|t| не меньше наблюдаемого при истинной H0H_0.

  • p<0,05p < 0{,}05 - корреляция значима на уровне 5%;
  • p<0,01p < 0{,}01 - значима на уровне 1%;
  • p0,05p \geq 0{,}05 - нет оснований отвергнуть H0H_0.

Обратите внимание: p-значение не показывает вероятность того, что H0H_0 истинна. Это распространённое заблуждение. p описывает данные при условии нулевой гипотезы, а не вероятность самой гипотезы.

Зона значимости на кривой распределения Стьюдента
Зона значимости на кривой распределения Стьюдента

Пример расчёта вручную

Пусть по 15 наблюдениям получен r=0,72r = 0{,}72. Подставим в формулу:

t=0,7215210,722=0,721310,5184=0,723,6060,48162,5960,6943,74t = \frac{0{,}72\sqrt{15-2}}{\sqrt{1-0{,}72^2}} = \frac{0{,}72 \cdot \sqrt{13}}{\sqrt{1-0{,}5184}} = \frac{0{,}72 \cdot 3{,}606}{\sqrt{0{,}4816}} \approx \frac{2{,}596}{0{,}694} \approx 3{,}74

При df=13df = 13 критическое значение t0.05,13=2,160t_{0.05,\,13} = 2{,}160. Так как 3,74>2,1603{,}74 > 2{,}160, корреляция значима на уровне 5%. Более того, t0.01,13=3,012t_{0.01,\,13} = 3{,}012 - и это пороговое значение тоже превышено, то есть корреляция значима и на уровне 1%.

Схожий подход применяется при сравнении двух коэффициентов корреляции, когда нужно выяснить, различаются ли rr в двух группах.

Таблица минимального |r| для значимости при α = 0,05

Удобный ориентир на практике:

nndfdfrminr_{\min}
530,878
1080,632
20180,444
30280,361
50480,279
100980,197

Эти пороговые значения получены непосредственно из формулы t-статистики при подстановке критического tα,dft_{\alpha,\, df}.

Таблица минимальных r по объёму выборки
Таблица минимальных r по объёму выборки

Связь с t-критерием в регрессии

В линейной парной регрессии y^=a+bx\hat{y} = a + bx коэффициент наклона bb проверяется тем же t-тестом:

tb=bsbt_b = \frac{b}{s_b}

где sbs_b - стандартная ошибка коэффициента. Оказывается, для парной регрессии это в точности эквивалентно t-критерию для rr: оба критерия проверяют одну и ту же нулевую гипотезу. Числовые значения t-статистики совпадут: неважно, вычислять ли её через rr или через b/sbb/s_b.

Это следствие того, что для двух переменных R2=r2R^2 = r^2, а F-критерий для всей регрессии и t-критерий для единственного предиктора тоже эквивалентны: F=t2F = t^2. Подробнее о расчёте ошибок коэффициентов - в материале про доверительный интервал коэффициента регрессии.

В множественной регрессии ситуация принципиально иная: t-критерий для каждого коэффициента проверяет его значимость при фиксированных остальных. Там нет простой связи с попарными коэффициентами корреляции. Предиктор может быть высоко коррелирован с yy, но в присутствии другого предиктора оказаться незначимым из-за автокорреляции остатков или мультиколлинеарности.

Частые ошибки

  • «Чем больше |r|, тем он значим». Не всегда: при n=5n = 5 даже r=0,8r = 0{,}8 может оказаться незначимым (t2,31t \approx 2{,}31, критическое при df=3df=3 равно 3,1823{,}182).
  • «Незначимая корреляция означает отсутствие связи». Нет: связь может быть нелинейной, а t-тест проверяет только линейную.
  • «p-значение - вероятность нулевой гипотезы». Нет. p - условная вероятность данных при H0H_0.
  • «Двусторонний и односторонний критерий дают одно и то же». Нет: p односторонний = p двустороннего / 2, поэтому путаница приводит к ошибочному выводу о значимости.
  • «При больших n всё значимо, значит результат ценный». Статистическая значимость при n>1000n > 1000 не означает практической значимости - r=0,05r = 0{,}05 может быть значимым, но бессодержательным.

FAQ

Как найти p-значение по t-статистике и df вручную? Использовать таблицы критических значений t-распределения или онлайн-калькуляторы. В Excel функция =T.DIST.2T(t;df) возвращает двустороннее p-значение напрямую.

Применим ли этот t-тест для ранговых коэффициентов (Спирмен, Кендалл)? Для коэффициента Спирмена применяется та же формула приближённо, и это допустимо при n10n \geq 10. Для точных результатов используют специальные таблицы критических значений для рангового коэффициента корреляции Спирмена.

Что делать, если выборка маленькая (n < 10)? При n<10n < 10 t-приближение менее надёжно. Рекомендуют либо увеличить выборку, либо использовать точные таблицы критических значений rr (таблицы Фишера-Йейтса), либо применять перестановочные тесты.

Коротко

Значимость коэффициента корреляции Пирсона проверяется t-критерием с df=n2df = n - 2: вычисляется t=rn2/1r2t = r\sqrt{n-2}/\sqrt{1-r^2}, и если t>tα,n2|t| > t_{\alpha,\, n-2}, корреляция признаётся статистически значимой. При этом значимость зависит не только от rr, но и от объёма выборки: чем меньше nn, тем выше порог для r|r|. Ошибочно отождествлять статистическую значимость с практической важностью и p-значение с вероятностью нулевой гипотезы.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также