Нулевая и альтернативная гипотезы: как проверить

Любое статистическое исследование начинается с пары утверждений: нулевой гипотезы (то, что мы проверяем) и альтернативной гипотезы (то, что принимается, если опровергнута данными). Главный вопрос - насколько наблюдаемые данные несовместимы с ? Ответ даёт p-value: вероятность получить результат не менее «экстремальный», чем наблюдаемый, если бы была верна. Чтобы сразу увидеть, как значение z-статистики и уровень значимости определяют критическую область и вывод, попробуйте калькулятор ниже.
Что такое нулевая и альтернативная гипотезы
Нулевая гипотеза - это утверждение об отсутствии эффекта: среднее равно заданному значению, разница между группами равна нулю, коэффициент корреляции равен нулю. Это то, что мы стремимся опровергнуть. Альтернативная гипотеза описывает то, что мы ищем: среднее больше, меньше или просто не равно заявленному.
Формально для проверки среднего по нормальной генеральной совокупности с известным :
Пара / задаётся до сбора данных - это принципиально важно. Выбирать гипотезу после просмотра данных, «подгоняя» её под результат, - грубое нарушение логики вывода.
Терминология взята из британской традиции (Фишер, Пирсон, Нейман): нулевая гипотеза исторически называлась «нулевой», потому что описывала нулевой эффект - «лекарство не действует», «монета не фальшивая». Альтернативная гипотеза соответствует тому, во что исследователь хочет поверить, опираясь на прикладную теорию. Именно поэтому статистика не доказывает напрямую - она опровергает на заданном уровне риска.
Стандартизованная статистика и p-value
Если выборка объёма взята из и известна, то при статистика
имеет стандартное нормальное распределение .
Двусторонний p-value вычисляется как вероятность попасть в хвосты, более экстремальные, чем наблюдаемое :
где - функция стандартного нормального распределения. Для одностороннего правого теста ():
Именно эти формулы использует калькулятор выше: двигайте ползунок - и p-value пересчитывается мгновенно, сразу показывая, попадает ли золотая линия в красную критическую область.
p-value не говорит о вероятности того, что H0 верна. Это вероятность получить наблюдаемый или более экстремальный результат при условии, что H0 верна. Путаница этих двух утверждений - одна из самых частых ошибок в интерпретации статистических тестов.
Уровень значимости и критическое значение
Уровень значимости задаётся заранее и определяет, насколько строго мы проверяем гипотезу. Это максимально допустимая вероятность совершить ошибку I рода - отвергнуть , когда она верна. Типичные значения: (5 %) и (1 %).
Критическое значение - порог, при котором ровно доля нормального распределения находится в критической зоне. Для двустороннего теста:
При получается ; при - .
H0 отвергается, когда , что эквивалентно условию .

Ошибки I и II рода
При проверке гипотез возможны два типа ошибок:
| верна | неверна | |
|---|---|---|
| Отвергаем | Ошибка I рода () | Правильное решение (мощность ) |
| Не отвергаем | Правильное решение | Ошибка II рода () |
Ошибка I рода - ложная тревога: данные случайно попали в критическую зону, хотя верна. Её вероятность - это и есть . Уменьшение снижает число ложных тревог, но одновременно увеличивает .
Ошибка II рода - пропуск эффекта: верна, но данных не хватило, чтобы отвергнуть . Вероятность зависит от объёма выборки , размера эффекта и . Мощность критерия - : доля экспериментов, в которых мы корректно отвергаем при реально существующем эффекте.
Между и существует компромисс: при фиксированном ужесточение (скажем, с 0,05 до 0,01) автоматически увеличивает - порог становится выше, и критерий «пропускает» больше реальных эффектов. Выход один - увеличивать . Стандартный целевой уровень в прикладных науках: мощность не ниже 0,8 (80 %), то есть . Расчёт необходимого объёма выборки по заданным , и размеру эффекта даёт формула:
При , и (средний эффект по Коэну) получаем .
Пример полного решения
Условие. Производитель утверждает, что среднее время работы батарей ч. Выборка батарей показала ч при известном ч. Проверить на уровне : не занижено ли заявленное время (правосторонний тест).
Шаг 1. Формулируем гипотезы:
Шаг 2. Вычисляем статистику:
Шаг 3. Критическое значение для одностороннего теста при :
Шаг 4. Сравниваем: . p-value .
Вывод. не отвергается. При выбранном уровне значимости нет достаточных оснований считать реальное среднее выше заявленного. Обратите внимание: «не отвергается» не значит «доказана» - мы лишь констатируем, что данные не противоречат .
Двусторонний и односторонние критерии
Выбор вида альтернативы влияет на расположение критической области:
- Двусторонняя () - область отвержения с двух сторон нормали, каждый хвост занимает . Критичнее к смещениям в обоих направлениях.
- Правосторонняя () - вся критическая область в правом хвосте. Чувствительнее к эффектам в одном направлении, но полностью слепа к эффектам в противоположном.
- Левосторонняя () - зеркально правосторонней.
Вид альтернативы должен определяться содержательными соображениями, а не тем, какой тест легче отвергнуть. Переключайте «Вид альтернативы» в калькуляторе - критическая зона меняется на глазах.
Важное следствие: при одном и том же двусторонний тест с даёт - не значимо. Правосторонний тест той же задачи даёт - значимо. Именно поэтому нельзя выбирать вид теста после просмотра данных: это удваивает реальный уровень ошибки I рода.

Связь с доверительными интервалами
Проверка гипотезы и доверительный интервал - два способа описать одно и то же. Если -доверительный интервал для не включает , то двусторонний z-тест на уровне отвергнет . И наоборот: если отвергается, лежит вне соответствующего доверительного интервала. Доверительный интервал несёт больше информации: он показывает не только факт значимости, но и диапазон правдоподобных значений . Поэтому в современных публикациях рекомендуется приводить оба - и p-value, и 95 % ДИ.
Доверительный интервал для при известном строится так:
При множитель - то самое критическое значение z-теста. Если выборочное среднее удалилось от на расстояние большее, чем , это одновременно означает и значимое отвержение , и то, что выходит за границы доверительного интервала.
Частые ошибки
- Подбор гипотезы после данных. Если сформулирована уже после просмотра результатов, контроль ошибки I рода теряется - уровень становится формальностью.
- «p > 0,05» означает, что доказана. Нет: отсутствие значимости - лишь недостаток доказательств против , а не её подтверждение.
- Малая выборка даёт «незначимый» результат. При и реальном эффекте критерий может его просто не «увидеть» (низкая мощность). Нужно оценивать мощность до начала исследования.
- Подстановка в формулу z при неизвестном . Если генеральное стандартное отклонение неизвестно и оценивается по выборке, используют t-критерий Стьюдента, а не z-критерий.
- Расчёт одностороннего p по формуле двустороннего. Делить p-значение двустороннего теста пополам - допустимо только для симметричных распределений и только при правильно выбранном направлении ещё до сбора данных.
FAQ
Можно ли получить p-value точно равное нулю? Нет: в непрерывных распределениях вероятность точного значения равна нулю, а вычисленный p-value - вероятность хвоста, которая строго больше нуля. Запись «p < 0,001» означает лишь, что программа округлила число до трёх знаков.
Нулевая гипотеза всегда о равенстве нулю? Нет, нулевая гипотеза - утверждение об отсутствии определённого эффекта, конкретное значение не обязано быть нулём. - типичная нулевая гипотеза, где 300 - заявленный стандарт.
Что выбрать - z-тест или t-тест? z-тест применяется, когда известна или выборка очень большая ( и приближение нормально). В большинстве прикладных задач неизвестна и оценивается по данным - тогда используют t-критерий; при росте распределение Стьюдента стремится к нормальному, и разница исчезает.
Коротко
Нулевая гипотеза предполагает отсутствие эффекта; альтернативная - его наличие. Статистика при истинной имеет распределение . p-value - вероятность наблюдать не менее экстремальный результат при верной ; если , нулевую гипотезу отвергают. Уровень значимости контролирует ошибку I рода, а мощность - способность обнаружить реальный эффект.
Читайте также

Абстрактный класс и интерфейс: в чём отличие
Абстрактный класс и интерфейс: чем отличаются в ООП, когда наследовать поведение, а когда задавать контракт, как выбрать на примерах Java, C# и Python.

Алгоритм AdaBoost: как слабые классификаторы дают сильный
Алгоритм AdaBoost простыми словами: адаптивный бустинг, перевзвешивание объектов, формула веса классификатора, итоговый ансамбль и разбор шага на примере с формулами.

Алгоритм CatBoost: бустинг с обработкой категорий
Алгоритм CatBoost простыми словами: упорядоченный бустинг против сдвига прогноза, кодирование категориальных признаков через ordered target statistics, симметричные деревья и разбор типовых задач.