Проверка гипотезы о равенстве двух средних: t-тест
Проверка гипотезы о равенстве двух средних - это одна из самых частых задач прикладной статистики: сравниваем успеваемость двух групп, эффективность двух препаратов, скорость двух алгоритмов. Нулевая гипотеза говорит, что генеральные средние совпадают; нам нужно понять, достаточно ли расхождение выборочных средних и , чтобы отвергнуть это предположение. Инструмент - двухвыборочный t-тест Стьюдента. Ниже - калькулятор, который мгновенно покажет t-статистику, степени свободы и вывод о гипотезе при заданных параметрах выборок.
Нулевая и альтернативная гипотезы
Перед тем как брать формулу в руки, нужно чётко сформулировать гипотезы. Нулевая гипотеза утверждает отсутствие различия между генеральными средними:
Альтернативная гипотеза бывает двусторонней или односторонней:
Двусторонний тест применяют, когда заранее неизвестно, в какую сторону сместилось среднее; односторонний - когда содержательная задача подсказывает направление (например, «новый метод не хуже старого»). Выбор между ними влияет на критическое значение и нужен до взгляда на данные.
Формула t-статистики: равные и неравные дисперсии
Классический двухвыборочный t-тест Стьюдента предполагает, что дисперсии генеральных совокупностей равны (). Тогда объединённая (pooled) дисперсия и t-статистика считаются так:
где - объёмы выборок, - выборочные дисперсии. Степени свободы при этом .
Если нет уверенности в равенстве дисперсий (а на практике её чаще нет), используют критерий Уэлча (Welch's t-test) - вариант, не требующий этого предположения:
Формула (Уэлча-Саттертуэйта) даёт нецелое число; его обычно округляют вниз, а число степеней свободы получается меньше, чем в классическом тесте, - критическое значение строже.

Условия применимости t-теста
t-тест корректен при нескольких условиях:
- Нормальность - каждая выборка берётся из нормально распределённой генеральной совокупности, либо объёмы выборок достаточно велики (примерно ), чтобы работало ЦПТ.
- Независимость - наблюдения одной выборки не зависят от другой (иначе применяется парный t-тест).
- Случайность - выборки получены случайным образом из интересующих совокупностей.
Равенство дисперсий - дополнительное условие только для классического (pooled) теста; критерий Уэлча его не требует. На практике Уэлч предпочтительнее: он теряет совсем немного мощности при равных дисперсиях, но защищает от ошибок при неравных.
Проверить нормальность помогают тест Шапиро-Уилка (для малых выборок) или Q-Q график. Равенство дисперсий - тест Левена или тест Бартлетта.
Алгоритм проверки гипотезы шаг за шагом
Сформулируем последовательность действий для ручного расчёта или интерпретации программного вывода:
- Сформулировать и , выбрать уровень значимости (чаще всего 0,05 или 0,01).
- Собрать данные: .
- Выбрать тип теста: Уэлч (надёжнее) или классический (если дисперсии явно равны).
- Вычислить t-статистику и степени свободы .
- Найти критическое значение по таблице или программно.
- Вывод: если - отвергается (различие значимо); иначе нет оснований отвергнуть .
Вместо сравнения с критическим значением можно работать с p-значением: если - отвергаем . Оба подхода эквивалентны.
Пример расчёта
Рассмотрим конкретный пример. Две группы студентов сдали тест: первая () набрала в среднем балла с , вторая () - баллов с .
По формуле Уэлча:
Степени свободы по Уэлчу-Саттертуэйту:
При и критическое значение . Так как , нулевая гипотеза не отвергается: нет статистически значимых оснований считать средние баллы разными. Этот расчёт легко воспроизвести в калькуляторе выше, подставив те же числа.
Мощность теста и размер выборки
Отсутствие значимого результата не равно доказательству равенства средних - это лишь говорит, что данных недостаточно. Мощность теста - вероятность обнаружить реальное различие, если оно есть. Она зависит от трёх вещей: уровня значимости , размера эффекта и объёма выборки.
Связь между ними описывается через нецентральное t-распределение. Упрощённая формула минимального (при равных объёмах и дисперсиях):
где - минимальное практически значимое различие, и - квантили стандартного нормального распределения. При и мощности коэффициент .
Частые ошибки
- Применять одновыборочный тест вместо двухвыборочного. Если есть два независимых ряда данных - нужен двухвыборочный тест, а не проверка каждого среднего в отдельности против нуля.
- Игнорировать проверку условий. t-тест на малых выборках при сильно ненормальных данных даёт неправильный уровень значимости - сначала проверьте нормальность.
- Путать двусторонний и односторонний тест. Выбор направления гипотезы нужно делать до анализа данных; «подгонка» под результат ведёт к завышенному числу ложных открытий.
- Интерпретировать p > 0,05 как «средние равны». Несигнификантный результат говорит только о нехватке данных, а не об отсутствии различия.
- Использовать классический pooled-тест без проверки равенства дисперсий. По умолчанию лучше Уэлч - он работает корректно в обоих случаях.
FAQ
Чем отличается критерий Уэлча от классического t-теста?
Классический тест (pooled) требует, чтобы дисперсии в обеих выборках были равны, и использует объединённую оценку . Критерий Уэлча не требует равенства дисперсий: он делит стандартные ошибки каждой выборки независимо и пересчитывает степени свободы по формуле Саттертуэйта. Уэлч слегка консервативнее (критическое чуть больше), но надёжнее в типичных ситуациях с неравными дисперсиями или объёмами.
Когда нужен парный t-тест, а не двухвыборочный?
Парный тест применяется, когда каждому наблюдению первой выборки соответствует конкретное наблюдение второй - например, один и тот же человек измеряется до и после лечения. В этом случае разности образуют одну выборку, и задача сводится к одновыборочному тесту . Парный тест мощнее двухвыборочного, если между парами есть корреляция: он устраняет индивидуальные различия.
Что делать, если данные ненормальные?
При нарушении нормальности на малых выборках переходят к непараметрическим аналогам: критерию Манна-Уитни (U-тест) - для независимых выборок, критерию Уилкоксона со знаковыми рангами - для парных. На больших выборках () ЦПТ «страхует» t-тест, и он работает удовлетворительно даже при умеренном отклонении от нормальности.
Коротко
Гипотезу проверяют двухвыборочным t-тестом: вычисляют t-статистику как отношение разности выборочных средних к стандартной ошибке этой разности, сравнивают с критическим значением при заданном и степенях свободы. При неизвестных и предположительно неравных дисперсиях используют критерий Уэлча - он надёжнее и является разумным выбором по умолчанию. Несигнификантный результат не доказывает равенство средних: при малой мощности различие может быть реальным, но незамеченным.
Читайте также

Доверительный интервал коэффициента регрессии: расчёт
Как рассчитать доверительный интервал коэффициента регрессии: формула через стандартную ошибку и критическое значение Стьюдента, пример вычисления и проверка значимости.

Мощность статистического критерия: формула и расчёт
Мощность статистического критерия 1-beta: как рассчитать через ошибку II рода, объём выборки и эффект-сайз. Формула для z-теста, целевой порог 80 %, примеры.

Правило сложения дисперсий: межгрупповая и внутригрупповая
Правило сложения дисперсий разбивает общую изменчивость на межгрупповую и внутригрупповую части. Формулы, пример расчёта, связь с ANOVA и эконометрикой.