EssayAI
Блог
Блог
Математика и алгоритмы

Проверка гипотезы о равенстве двух средних: t-тест

11 июня 2026Время чтения: 7 минут
#t-тест#гипотеза о равенстве средних#критерий Стьюдента#двухвыборочный тест#статистика

Проверка гипотезы о равенстве двух средних - это одна из самых частых задач прикладной статистики: сравниваем успеваемость двух групп, эффективность двух препаратов, скорость двух алгоритмов. Нулевая гипотеза H0:μ1=μ2H_0: \mu_1 = \mu_2 говорит, что генеральные средние совпадают; нам нужно понять, достаточно ли расхождение выборочных средних xˉ1\bar{x}_1 и xˉ2\bar{x}_2, чтобы отвергнуть это предположение. Инструмент - двухвыборочный t-тест Стьюдента. Ниже - калькулятор, который мгновенно покажет t-статистику, степени свободы и вывод о гипотезе при заданных параметрах выборок.

Нулевая и альтернативная гипотезы

Перед тем как брать формулу в руки, нужно чётко сформулировать гипотезы. Нулевая гипотеза утверждает отсутствие различия между генеральными средними:

H0:μ1=μ2(то же самое: μ1μ2=0).H_0: \mu_1 = \mu_2 \quad \text{(то же самое: } \mu_1 - \mu_2 = 0\text{)}.

Альтернативная гипотеза бывает двусторонней или односторонней:

H1:μ1μ2(двусторонняя),H1:μ1>μ2(правосторонняя).H_1: \mu_1 \ne \mu_2 \quad \text{(двусторонняя)}, \qquad H_1: \mu_1 > \mu_2 \quad \text{(правосторонняя)}.

Двусторонний тест применяют, когда заранее неизвестно, в какую сторону сместилось среднее; односторонний - когда содержательная задача подсказывает направление (например, «новый метод не хуже старого»). Выбор между ними влияет на критическое значение tαt_{\alpha} и нужен до взгляда на данные.

Две выборки с разными средними и дисперсиями: как t-статистика растёт с расстоянием между средними и падает с ростом разброса

Формула t-статистики: равные и неравные дисперсии

Классический двухвыборочный t-тест Стьюдента предполагает, что дисперсии генеральных совокупностей равны (σ12=σ22\sigma_1^2 = \sigma_2^2). Тогда объединённая (pooled) дисперсия и t-статистика считаются так:

sp2=(n11)s12+(n21)s22n1+n22,s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}, t=xˉ1xˉ2sp1n1+1n2,t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}}},

где n1,n2n_1, n_2 - объёмы выборок, s12,s22s_1^2, s_2^2 - выборочные дисперсии. Степени свободы при этом ν=n1+n22\nu = n_1 + n_2 - 2.

Если нет уверенности в равенстве дисперсий (а на практике её чаще нет), используют критерий Уэлча (Welch's t-test) - вариант, не требующий этого предположения:

tW=xˉ1xˉ2s12n1+s22n2,t_W = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}}}, νW=(s12n1+s22n2)2(s12/n1)2n11+(s22/n2)2n21.\nu_W = \frac{\left(\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}\right)^2}{\dfrac{(s_1^2/n_1)^2}{n_1-1} + \dfrac{(s_2^2/n_2)^2}{n_2-1}}.

Формула νW\nu_W (Уэлча-Саттертуэйта) даёт нецелое число; его обычно округляют вниз, а число степеней свободы получается меньше, чем в классическом тесте, - критическое значение tαt_{\alpha} строже.

Распределение t-статистики при H0: заштрихованы хвосты площадью alpha/2 - области отвержения нулевой гипотезы
Распределение t-статистики при H0: заштрихованы хвосты площадью alpha/2 - области отвержения нулевой гипотезы

Условия применимости t-теста

t-тест корректен при нескольких условиях:

  1. Нормальность - каждая выборка берётся из нормально распределённой генеральной совокупности, либо объёмы выборок достаточно велики (примерно n30n \ge 30), чтобы работало ЦПТ.
  2. Независимость - наблюдения одной выборки не зависят от другой (иначе применяется парный t-тест).
  3. Случайность - выборки получены случайным образом из интересующих совокупностей.

Равенство дисперсий - дополнительное условие только для классического (pooled) теста; критерий Уэлча его не требует. На практике Уэлч предпочтительнее: он теряет совсем немного мощности при равных дисперсиях, но защищает от ошибок при неравных.

Проверить нормальность помогают тест Шапиро-Уилка (для малых выборок) или Q-Q график. Равенство дисперсий - тест Левена или тест Бартлетта.

Алгоритм проверки гипотезы шаг за шагом

Сформулируем последовательность действий для ручного расчёта или интерпретации программного вывода:

  1. Сформулировать H0H_0 и H1H_1, выбрать уровень значимости α\alpha (чаще всего 0,05 или 0,01).
  2. Собрать данные: n1,n2,xˉ1,xˉ2,s12,s22n_1, n_2, \bar{x}_1, \bar{x}_2, s_1^2, s_2^2.
  3. Выбрать тип теста: Уэлч (надёжнее) или классический (если дисперсии явно равны).
  4. Вычислить t-статистику и степени свободы ν\nu.
  5. Найти критическое значение tα/2,νt_{\alpha/2, \nu} по таблице или программно.
  6. Вывод: если t>tα/2,ν|t| > t_{\alpha/2, \nu} - H0H_0 отвергается (различие значимо); иначе нет оснований отвергнуть H0H_0.

Вместо сравнения с критическим значением можно работать с p-значением: если p<αp < \alpha - отвергаем H0H_0. Оба подхода эквивалентны.

Пример расчёта

Рассмотрим конкретный пример. Две группы студентов сдали тест: первая (n1=20n_1 = 20) набрала в среднем xˉ1=72\bar{x}_1 = 72 балла с s1=8s_1 = 8, вторая (n2=25n_2 = 25) - xˉ2=68\bar{x}_2 = 68 баллов с s2=10s_2 = 10.

По формуле Уэлча:

tW=72686420+10025=43,2+4=47,242,6831,49.t_W = \frac{72 - 68}{\sqrt{\dfrac{64}{20} + \dfrac{100}{25}}} = \frac{4}{\sqrt{3{,}2 + 4}} = \frac{4}{\sqrt{7{,}2}} \approx \frac{4}{2{,}683} \approx 1{,}49.

Степени свободы по Уэлчу-Саттертуэйту:

νW=(3,2+4)23,2219+4224=51,8410,2419+162451,840,539+0,66742,9842.\nu_W = \frac{(3{,}2 + 4)^2}{\dfrac{3{,}2^2}{19} + \dfrac{4^2}{24}} = \frac{51{,}84}{\dfrac{10{,}24}{19} + \dfrac{16}{24}} \approx \frac{51{,}84}{0{,}539 + 0{,}667} \approx 42{,}98 \approx 42.

При α=0,05\alpha = 0{,}05 и ν=42\nu = 42 критическое значение t0,025,422,018t_{0{,}025,\,42} \approx 2{,}018. Так как tW=1,49<2,018|t_W| = 1{,}49 < 2{,}018, нулевая гипотеза не отвергается: нет статистически значимых оснований считать средние баллы разными. Этот расчёт легко воспроизвести в калькуляторе выше, подставив те же числа.

Мощность теста и размер выборки

Отсутствие значимого результата не равно доказательству равенства средних - это лишь говорит, что данных недостаточно. Мощность теста 1β1 - \beta - вероятность обнаружить реальное различие, если оно есть. Она зависит от трёх вещей: уровня значимости α\alpha, размера эффекта d=μ1μ2/σd = |\mu_1 - \mu_2| / \sigma и объёма выборки.

Связь между ними описывается через нецентральное t-распределение. Упрощённая формула минимального nn (при равных объёмах и дисперсиях):

n2((zα/2+zβ)σδ)2,n \ge 2 \left(\frac{(z_{\alpha/2} + z_{\beta}) \cdot \sigma}{\delta}\right)^2,

где δ=μ1μ2\delta = |\mu_1 - \mu_2| - минимальное практически значимое различие, zα/2z_{\alpha/2} и zβz_{\beta} - квантили стандартного нормального распределения. При α=0,05\alpha = 0{,}05 и мощности 0,800{,}80 коэффициент (z0,025+z0,20)2(1,96+0,842)27,85(z_{0{,}025} + z_{0{,}20})^2 \approx (1{,}96 + 0{,}842)^2 \approx 7{,}85.

Частые ошибки

  • Применять одновыборочный тест вместо двухвыборочного. Если есть два независимых ряда данных - нужен двухвыборочный тест, а не проверка каждого среднего в отдельности против нуля.
  • Игнорировать проверку условий. t-тест на малых выборках при сильно ненормальных данных даёт неправильный уровень значимости - сначала проверьте нормальность.
  • Путать двусторонний и односторонний тест. Выбор направления гипотезы нужно делать до анализа данных; «подгонка» под результат ведёт к завышенному числу ложных открытий.
  • Интерпретировать p > 0,05 как «средние равны». Несигнификантный результат говорит только о нехватке данных, а не об отсутствии различия.
  • Использовать классический pooled-тест без проверки равенства дисперсий. По умолчанию лучше Уэлч - он работает корректно в обоих случаях.

FAQ

Чем отличается критерий Уэлча от классического t-теста?

Классический тест (pooled) требует, чтобы дисперсии в обеих выборках были равны, и использует объединённую оценку sp2s_p^2. Критерий Уэлча не требует равенства дисперсий: он делит стандартные ошибки каждой выборки независимо и пересчитывает степени свободы по формуле Саттертуэйта. Уэлч слегка консервативнее (критическое tαt_\alpha чуть больше), но надёжнее в типичных ситуациях с неравными дисперсиями или объёмами.

Когда нужен парный t-тест, а не двухвыборочный?

Парный тест применяется, когда каждому наблюдению первой выборки соответствует конкретное наблюдение второй - например, один и тот же человек измеряется до и после лечения. В этом случае разности di=x1ix2id_i = x_{1i} - x_{2i} образуют одну выборку, и задача сводится к одновыборочному тесту H0:μd=0H_0: \mu_d = 0. Парный тест мощнее двухвыборочного, если между парами есть корреляция: он устраняет индивидуальные различия.

Что делать, если данные ненормальные?

При нарушении нормальности на малых выборках переходят к непараметрическим аналогам: критерию Манна-Уитни (U-тест) - для независимых выборок, критерию Уилкоксона со знаковыми рангами - для парных. На больших выборках (n1,n230n_1, n_2 \ge 30) ЦПТ «страхует» t-тест, и он работает удовлетворительно даже при умеренном отклонении от нормальности.

Коротко

Гипотезу H0:μ1=μ2H_0: \mu_1 = \mu_2 проверяют двухвыборочным t-тестом: вычисляют t-статистику как отношение разности выборочных средних к стандартной ошибке этой разности, сравнивают с критическим значением при заданном α\alpha и степенях свободы. При неизвестных и предположительно неравных дисперсиях используют критерий Уэлча - он надёжнее и является разумным выбором по умолчанию. Несигнификантный результат не доказывает равенство средних: при малой мощности различие может быть реальным, но незамеченным.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также