Проверка гипотезы о равенстве двух средних: t-тест

11 июня 2026Время чтения: 7 минут

#t-тест#гипотеза о равенстве средних#критерий Стьюдента#двухвыборочный тест#статистика

Проверка гипотезы о равенстве двух средних - это одна из самых частых задач прикладной статистики: сравниваем успеваемость двух групп, эффективность двух препаратов, скорость двух алгоритмов. Нулевая гипотеза $H_0: \mu_1 = \mu_2$ говорит, что генеральные средние совпадают; нам нужно понять, достаточно ли расхождение выборочных средних $\bar{x}_1$ и $\bar{x}_2$ , чтобы отвергнуть это предположение. Инструмент - двухвыборочный t-тест Стьюдента. Ниже - калькулятор, который мгновенно покажет t-статистику, степени свободы и вывод о гипотезе при заданных параметрах выборок.

Нулевая и альтернативная гипотезы

Перед тем как брать формулу в руки, нужно чётко сформулировать гипотезы. Нулевая гипотеза утверждает отсутствие различия между генеральными средними:

H_0: \mu_1 = \mu_2 \quad \text{(то же самое: } \mu_1 - \mu_2 = 0\text{)}.

Альтернативная гипотеза бывает двусторонней или односторонней:

H_1: \mu_1 \ne \mu_2 \quad \text{(двусторонняя)}, \qquad H_1: \mu_1 > \mu_2 \quad \text{(правосторонняя)}.

Двусторонний тест применяют, когда заранее неизвестно, в какую сторону сместилось среднее; односторонний - когда содержательная задача подсказывает направление (например, «новый метод не хуже старого»). Выбор между ними влияет на критическое значение $t_{\alpha}$ и нужен до взгляда на данные.

Две выборки с разными средними и дисперсиями: как t-статистика растёт с расстоянием между средними и падает с ростом разброса

Формула t-статистики: равные и неравные дисперсии

Классический двухвыборочный t-тест Стьюдента предполагает, что дисперсии генеральных совокупностей равны ( $\sigma_1^2 = \sigma_2^2$ ). Тогда объединённая (pooled) дисперсия и t-статистика считаются так:

s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2},

t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}}},

где $n_1, n_2$ - объёмы выборок, $s_1^2, s_2^2$ - выборочные дисперсии. Степени свободы при этом $\nu = n_1 + n_2 - 2$ .

Если нет уверенности в равенстве дисперсий (а на практике её чаще нет), используют критерий Уэлча (Welch's t-test) - вариант, не требующий этого предположения:

t_W = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}}},

\nu_W = \frac{\left(\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}\right)^2}{\dfrac{(s_1^2/n_1)^2}{n_1-1} + \dfrac{(s_2^2/n_2)^2}{n_2-1}}.

Формула $\nu_W$ (Уэлча-Саттертуэйта) даёт нецелое число; его обычно округляют вниз, а число степеней свободы получается меньше, чем в классическом тесте, - критическое значение $t_{\alpha}$ строже.

Распределение t-статистики при H0: заштрихованы хвосты площадью alpha/2 - области отвержения нулевой гипотезы

Условия применимости t-теста

t-тест корректен при нескольких условиях:

Нормальность - каждая выборка берётся из нормально распределённой генеральной совокупности, либо объёмы выборок достаточно велики (примерно $n \ge 30$ ), чтобы работало ЦПТ.
Независимость - наблюдения одной выборки не зависят от другой (иначе применяется парный t-тест).
Случайность - выборки получены случайным образом из интересующих совокупностей.

Равенство дисперсий - дополнительное условие только для классического (pooled) теста; критерий Уэлча его не требует. На практике Уэлч предпочтительнее: он теряет совсем немного мощности при равных дисперсиях, но защищает от ошибок при неравных.

Проверить нормальность помогают тест Шапиро-Уилка (для малых выборок) или Q-Q график. Равенство дисперсий - тест Левена или тест Бартлетта.

Алгоритм проверки гипотезы шаг за шагом

Сформулируем последовательность действий для ручного расчёта или интерпретации программного вывода:

Сформулировать $H_0$ и $H_1$ , выбрать уровень значимости $\alpha$ (чаще всего 0,05 или 0,01).
Собрать данные: $n_1, n_2, \bar{x}_1, \bar{x}_2, s_1^2, s_2^2$ .
Выбрать тип теста: Уэлч (надёжнее) или классический (если дисперсии явно равны).
Вычислить t-статистику и степени свободы $\nu$ .
Найти критическое значение $t_{\alpha/2, \nu}$ по таблице или программно.
Вывод: если $|t| > t_{\alpha/2, \nu}$ - $H_0$ отвергается (различие значимо); иначе нет оснований отвергнуть $H_0$ .

Вместо сравнения с критическим значением можно работать с p-значением: если $p < \alpha$ - отвергаем $H_0$ . Оба подхода эквивалентны.

Пример расчёта

Рассмотрим конкретный пример. Две группы студентов сдали тест: первая ( $n_1 = 20$ ) набрала в среднем $\bar{x}_1 = 72$ балла с $s_1 = 8$ , вторая ( $n_2 = 25$ ) - $\bar{x}_2 = 68$ баллов с $s_2 = 10$ .

По формуле Уэлча:

t_W = \frac{72 - 68}{\sqrt{\dfrac{64}{20} + \dfrac{100}{25}}} = \frac{4}{\sqrt{3{,}2 + 4}} = \frac{4}{\sqrt{7{,}2}} \approx \frac{4}{2{,}683} \approx 1{,}49.

Степени свободы по Уэлчу-Саттертуэйту:

\nu_W = \frac{(3{,}2 + 4)^2}{\dfrac{3{,}2^2}{19} + \dfrac{4^2}{24}} = \frac{51{,}84}{\dfrac{10{,}24}{19} + \dfrac{16}{24}} \approx \frac{51{,}84}{0{,}539 + 0{,}667} \approx 42{,}98 \approx 42.

При $\alpha = 0{,}05$ и $\nu = 42$ критическое значение $t_{0{,}025,\,42} \approx 2{,}018$ . Так как $|t_W| = 1{,}49 < 2{,}018$ , нулевая гипотеза не отвергается: нет статистически значимых оснований считать средние баллы разными. Этот расчёт легко воспроизвести в калькуляторе выше, подставив те же числа.

Мощность теста и размер выборки

Отсутствие значимого результата не равно доказательству равенства средних - это лишь говорит, что данных недостаточно. Мощность теста $1 - \beta$ - вероятность обнаружить реальное различие, если оно есть. Она зависит от трёх вещей: уровня значимости $\alpha$ , размера эффекта $d = |\mu_1 - \mu_2| / \sigma$ и объёма выборки.

Связь между ними описывается через нецентральное t-распределение. Упрощённая формула минимального $n$ (при равных объёмах и дисперсиях):

n \ge 2 \left(\frac{(z_{\alpha/2} + z_{\beta}) \cdot \sigma}{\delta}\right)^2,

где $\delta = |\mu_1 - \mu_2|$ - минимальное практически значимое различие, $z_{\alpha/2}$ и $z_{\beta}$ - квантили стандартного нормального распределения. При $\alpha = 0{,}05$ и мощности $0{,}80$ коэффициент $(z_{0{,}025} + z_{0{,}20})^2 \approx (1{,}96 + 0{,}842)^2 \approx 7{,}85$ .

Частые ошибки

Применять одновыборочный тест вместо двухвыборочного. Если есть два независимых ряда данных - нужен двухвыборочный тест, а не проверка каждого среднего в отдельности против нуля.
Игнорировать проверку условий. t-тест на малых выборках при сильно ненормальных данных даёт неправильный уровень значимости - сначала проверьте нормальность.
Путать двусторонний и односторонний тест. Выбор направления гипотезы нужно делать до анализа данных; «подгонка» под результат ведёт к завышенному числу ложных открытий.
Интерпретировать p > 0,05 как «средние равны». Несигнификантный результат говорит только о нехватке данных, а не об отсутствии различия.
Использовать классический pooled-тест без проверки равенства дисперсий. По умолчанию лучше Уэлч - он работает корректно в обоих случаях.

FAQ

Чем отличается критерий Уэлча от классического t-теста?

Классический тест (pooled) требует, чтобы дисперсии в обеих выборках были равны, и использует объединённую оценку $s_p^2$ . Критерий Уэлча не требует равенства дисперсий: он делит стандартные ошибки каждой выборки независимо и пересчитывает степени свободы по формуле Саттертуэйта. Уэлч слегка консервативнее (критическое $t_\alpha$ чуть больше), но надёжнее в типичных ситуациях с неравными дисперсиями или объёмами.

Когда нужен парный t-тест, а не двухвыборочный?

Парный тест применяется, когда каждому наблюдению первой выборки соответствует конкретное наблюдение второй - например, один и тот же человек измеряется до и после лечения. В этом случае разности $d_i = x_{1i} - x_{2i}$ образуют одну выборку, и задача сводится к одновыборочному тесту $H_0: \mu_d = 0$ . Парный тест мощнее двухвыборочного, если между парами есть корреляция: он устраняет индивидуальные различия.

Что делать, если данные ненормальные?

При нарушении нормальности на малых выборках переходят к непараметрическим аналогам: критерию Манна-Уитни (U-тест) - для независимых выборок, критерию Уилкоксона со знаковыми рангами - для парных. На больших выборках ( $n_1, n_2 \ge 30$ ) ЦПТ «страхует» t-тест, и он работает удовлетворительно даже при умеренном отклонении от нормальности.

Коротко

Гипотезу $H_0: \mu_1 = \mu_2$ проверяют двухвыборочным t-тестом: вычисляют t-статистику как отношение разности выборочных средних к стандартной ошибке этой разности, сравнивают с критическим значением при заданном $\alpha$ и степенях свободы. При неизвестных и предположительно неравных дисперсиях используют критерий Уэлча - он надёжнее и является разумным выбором по умолчанию. Несигнификантный результат не доказывает равенство средних: при малой мощности различие может быть реальным, но незамеченным.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Проверка гипотезы о равенстве двух средних: t-тест

Нулевая и альтернативная гипотезы

Формула t-статистики: равные и неравные дисперсии

Условия применимости t-теста

Алгоритм проверки гипотезы шаг за шагом

Пример расчёта

Мощность теста и размер выборки

Частые ошибки

FAQ

Коротко

Читайте также

Доверительный интервал коэффициента регрессии: расчёт

Мощность статистического критерия: формула и расчёт

Правило сложения дисперсий: межгрупповая и внутригрупповая