Значимость коэффициента корреляции: t-критерий Стьюдента

17 июня 2026Время чтения: 7 минут

#коэффициент корреляции#t-критерий Стьюдента#значимость корреляции#эконометрика#проверка гипотез

Обнаружить корреляцию между двумя переменными - только первый шаг. Важнее другое: убедиться, что найденная связь не случайна, а статистически значима. Именно для этого применяют t-критерий Стьюдента для коэффициента корреляции. Ниже разберём формулу, логику проверки и типичные ловушки, с которыми сталкиваются студенты при работе с малыми выборками.

Почему одного числа r недостаточно

Коэффициент корреляции Пирсона $r$ принимает значения от $-1$ до $+1$ . Кажется, чем ближе $|r|$ к единице, тем надёжнее вывод. Но это ловушка: при маленькой выборке $r = 0{,}6$ может оказаться случайным совпадением, а при большой - $r = 0{,}1$ статистически значимо.

Логика проверки такова. Нулевая гипотеза $H_0$ утверждает, что в генеральной совокупности $\rho = 0$ (линейной связи нет). Критерий Стьюдента показывает, насколько маловероятно получить именно такое $r$ при случайной выборке из несвязанных переменных.

Теоретически: если $X$ и $Y$ совместно нормально распределены и $\rho = 0$ , то статистика $t = r\sqrt{n-2}/\sqrt{1-r^2}$ имеет точное распределение Стьюдента с $n-2$ степенями свободы. Условие нормальности или большая выборка ( $n > 30$ ) обеспечивают корректность теста.

Значимость не равна силе. Значимый r = 0,1 в огромной выборке говорит лишь о том, что связь ненулевая - не обязательно о том, что она практически важна.

Формула t-статистики для корреляции

Для коэффициента корреляции Пирсона $r$ при объёме выборки $n$ наблюдаемая t-статистика вычисляется по формуле:

$t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}}$

Полученное значение сравнивают с критическим $t_{\alpha,\, n-2}$ из таблицы распределения Стьюдента, где $\alpha$ - уровень значимости (обычно 0,05 или 0,01), а степени свободы $df = n - 2$ .

Чем больше $|t_{\text{набл}}|$ , тем сильнее данные противоречат $H_0$ . Если $|t_{\text{набл}}| > t_{\alpha,\, df}$ , корреляция признаётся значимой.

Формула t-критерия для проверки значимости корреляции

Степени свободы: почему n - 2

При проверке корреляции теряются две степени свободы: по одной на каждую из двух оцениваемых переменных. Если $n = 10$ , то $df = 8$ . Критическое значение $t_{0.05,\, 8} \approx 2{,}306$ , тогда как при $df = 100$ уже $t_{0.05,\, 100} \approx 1{,}984$ .

Именно поэтому при малой выборке требования к величине $r$ для получения значимости гораздо строже. При $n = 10$ нужен $r \geq 0{,}63$ ; при $n = 50$ достаточно $r \geq 0{,}28$ .

Интуитивное объяснение: если в выборке всего две точки ( $n = 2$ ), через них всегда проходит прямая с $r = \pm 1$ - это не говорит ни о чём. Каждая дополнительная точка уменьшает «везение»; при достаточно большом $n$ даже слабая корреляция перестаёт укладываться в диапазон случайного разброса.

Двусторонний и односторонний критерий

По умолчанию применяют двусторонний критерий: проверяют, что $\rho \neq 0$ , не уточняя знак. Если теория заранее предсказывает направление связи (например, рост доходов точно положительно связан с потреблением), допустим односторонний критерий - он строже требует обоснования, но имеет бо́льшую мощность при правильном знаке.

В большинстве учебных и прикладных задач по эконометрике используют двусторонний вариант. При выборе одностороннего критерия важно обосновать направление заранее - до сбора данных. Выбор более выгодного направления уже после просмотра данных искусственно занижает p-значение и делает результат недостоверным.

p-значение и его интерпретация

Программные пакеты (R, SPSS, Python) автоматически выводят p-значение - вероятность получить $|t|$ не меньше наблюдаемого при истинной $H_0$ .

$p < 0{,}05$ - корреляция значима на уровне 5%;
$p < 0{,}01$ - значима на уровне 1%;
$p \geq 0{,}05$ - нет оснований отвергнуть $H_0$ .

Обратите внимание: p-значение не показывает вероятность того, что $H_0$ истинна. Это распространённое заблуждение. p описывает данные при условии нулевой гипотезы, а не вероятность самой гипотезы.

Зона значимости на кривой распределения Стьюдента

Пример расчёта вручную

Пусть по 15 наблюдениям получен $r = 0{,}72$ . Подставим в формулу:

$t = \frac{0{,}72\sqrt{15-2}}{\sqrt{1-0{,}72^2}} = \frac{0{,}72 \cdot \sqrt{13}}{\sqrt{1-0{,}5184}} = \frac{0{,}72 \cdot 3{,}606}{\sqrt{0{,}4816}} \approx \frac{2{,}596}{0{,}694} \approx 3{,}74$

При $df = 13$ критическое значение $t_{0.05,\,13} = 2{,}160$ . Так как $3{,}74 > 2{,}160$ , корреляция значима на уровне 5%. Более того, $t_{0.01,\,13} = 3{,}012$ - и это пороговое значение тоже превышено, то есть корреляция значима и на уровне 1%.

Схожий подход применяется при сравнении двух коэффициентов корреляции, когда нужно выяснить, различаются ли $r$ в двух группах.

Таблица минимального |r| для значимости при α = 0,05

Удобный ориентир на практике:

$n$	$df$	$r_{\min}$
5	3	0,878
10	8	0,632
20	18	0,444
30	28	0,361
50	48	0,279
100	98	0,197

Эти пороговые значения получены непосредственно из формулы t-статистики при подстановке критического $t_{\alpha,\, df}$ .

Связь с t-критерием в регрессии

В линейной парной регрессии $\hat{y} = a + bx$ коэффициент наклона $b$ проверяется тем же t-тестом:

$t_b = \frac{b}{s_b}$

где $s_b$ - стандартная ошибка коэффициента. Оказывается, для парной регрессии это в точности эквивалентно t-критерию для $r$ : оба критерия проверяют одну и ту же нулевую гипотезу. Числовые значения t-статистики совпадут: неважно, вычислять ли её через $r$ или через $b/s_b$ .

Это следствие того, что для двух переменных $R^2 = r^2$ , а F-критерий для всей регрессии и t-критерий для единственного предиктора тоже эквивалентны: $F = t^2$ . Подробнее о расчёте ошибок коэффициентов - в материале про доверительный интервал коэффициента регрессии.

В множественной регрессии ситуация принципиально иная: t-критерий для каждого коэффициента проверяет его значимость при фиксированных остальных. Там нет простой связи с попарными коэффициентами корреляции. Предиктор может быть высоко коррелирован с $y$ , но в присутствии другого предиктора оказаться незначимым из-за автокорреляции остатков или мультиколлинеарности.

Частые ошибки

«Чем больше |r|, тем он значим». Не всегда: при $n = 5$ даже $r = 0{,}8$ может оказаться незначимым ( $t \approx 2{,}31$ , критическое при $df=3$ равно $3{,}182$ ).
«Незначимая корреляция означает отсутствие связи». Нет: связь может быть нелинейной, а t-тест проверяет только линейную.
«p-значение - вероятность нулевой гипотезы». Нет. p - условная вероятность данных при $H_0$ .
«Двусторонний и односторонний критерий дают одно и то же». Нет: p односторонний = p двустороннего / 2, поэтому путаница приводит к ошибочному выводу о значимости.
«При больших n всё значимо, значит результат ценный». Статистическая значимость при $n > 1000$ не означает практической значимости - $r = 0{,}05$ может быть значимым, но бессодержательным.

FAQ

Как найти p-значение по t-статистике и df вручную? Использовать таблицы критических значений t-распределения или онлайн-калькуляторы. В Excel функция =T.DIST.2T(t;df) возвращает двустороннее p-значение напрямую.

Применим ли этот t-тест для ранговых коэффициентов (Спирмен, Кендалл)? Для коэффициента Спирмена применяется та же формула приближённо, и это допустимо при $n \geq 10$ . Для точных результатов используют специальные таблицы критических значений для рангового коэффициента корреляции Спирмена.

Что делать, если выборка маленькая (n < 10)? При $n < 10$ t-приближение менее надёжно. Рекомендуют либо увеличить выборку, либо использовать точные таблицы критических значений $r$ (таблицы Фишера-Йейтса), либо применять перестановочные тесты.

Коротко

Значимость коэффициента корреляции Пирсона проверяется t-критерием с $df = n - 2$ : вычисляется $t = r\sqrt{n-2}/\sqrt{1-r^2}$ , и если $|t| > t_{\alpha,\, n-2}$ , корреляция признаётся статистически значимой. При этом значимость зависит не только от $r$ , но и от объёма выборки: чем меньше $n$ , тем выше порог для $|r|$ . Ошибочно отождествлять статистическую значимость с практической важностью и p-значение с вероятностью нулевой гипотезы.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN