Мощность статистического критерия: формула и расчёт
При проверке статистической гипотезы исследователь рискует совершить два типа ошибок. Ошибка I рода - отклонить верную с вероятностью . Но есть и ошибка II рода: не заметить реальный эффект, принять когда она ложна. Вероятность этой ошибки обозначают , а её дополнение - это и есть мощность критерия. Чем выше мощность, тем надёжнее тест отловит эффект, если он существует. В интерактивном калькуляторе ниже можно посмотреть, как мощность зависит от параметров задачи.
Формальное определение мощности
Пусть проверяется против . Критерий принимает решение на основе статистики : отклоняем , если попало в критическую область . Тогда:
Это вероятность правильно отклонить нулевую гипотезу. Мощность зависит от конкретного значения параметра при - поэтому говорят о функции мощности : вероятность отклонения при истинном значении .
Для нормальной выборки при одностороннем тесте против статистика имеет стандартное нормальное распределение при . Мощность при истинном :
где - квантиль уровня , - функция нормального распределения.
Три фактора мощности: d, n, alpha
Из формулы видно три рычага управления мощностью.
1. Эффект-сайз - нормированное расстояние между гипотезами. Чем больше реальный эффект, тем легче его обнаружить. Для стандартизованных сравнений Коэн ввёл шкалу: (малый), (средний), (большой). При среднем эффекте () и для мощности 80 % нужно около 64 наблюдений на группу.
2. Объём выборки - главный практический рычаг. Мощность монотонно растёт с : при удвоении выборки эффект-сайз в формуле умножается на . Именно поэтому «расчёт объёма выборки» ( анализ мощности) стал стандартом в дизайне эксперимента.
3. Уровень значимости - порог ошибки I рода. Увеличение (например с 0.01 до 0.05) сдвигает критическое значение ближе к центру , расширяя критическую область и повышая мощность. Но одновременно растёт риск ложноположительного вывода. Баланс и - ключевой компромисс дизайна.

Функция мощности и ОС-кривые
Функция мощности строится для всего диапазона значений . При она равна (уровню ложного отклонения). По мере удаления от она монотонно растёт к 1. Хорошо построенный тест имеет крутой подъём - «обрыв» функции мощности вблизи .
ОС-кривые (Operating Characteristic curves) - дополнение к кривой мощности: показывают в зависимости от при фиксированном . Таблицы ОС-кривых публикуют Монтгомери и другие авторы учебников по контролю качества.
A priori и post hoc анализ
Расчёты мощности делятся на два типа.
A priori (до сбора данных) - планирование размера выборки. Заданы: желаемая мощность (обычно 0.8), , предполагаемый эффект-сайз. Нужно найти . Для z-теста:
Например, при , и : наблюдений.
Post hoc (после эксперимента) - ретроспективный расчёт достигнутой мощности при наблюдённом и фактическом . Используется для интерпретации незначимого результата: если мощность мала (), незначимость может объясняться недостаточным , а не отсутствием эффекта.
Низкая мощность делает незначимый результат неинформативным: нельзя принять H₀ только из-за p > alpha. Нужно указывать доверительный интервал и расчётную мощность.
Мощность непараметрических критериев
Критерии Вилкоксона, Манна-Уитни, знаковый - непараметрические и не требуют нормальности. Но за это платят относительной эффективностью: при нормальных данных тест Вилкоксона имеет мощность около 95.5 % от t-теста (asymptotic relative efficiency, ARE = 3/π ≈ 0.955). При тяжёлых хвостах непараметрические тесты бывают мощнее.
Для непараметрических тестов аналитических формул мощности меньше - часто используют симуляцию Монте-Карло: генерируют выборки из предполагаемого распределения с истинным эффектом и считают долю значимых результатов.
Мощность в множественных сравнениях
При одновременной проверке гипотез (например, в геномике) поправки на множественность (Бонферрони: , Холм, Беньямини-Хохберг) снижают каждый отдельный порог , что уменьшает мощность. Процедура Беньямини-Хохберга контролирует FDR (False Discovery Rate) вместо FWER и сохраняет больше мощности при большом числе гипотез.
При m = 100 тестах и поправкой Бонферрони alpha* = 0.0005 вместо 0.05. Мощность теста при среднем эффекте падает примерно с 80 % до 30 %. Для таких задач FDR-контроль существенно выигрышнее.
Частые ошибки
- Путать 1 - beta с p-значением. Мощность - это вероятность при , p-значение считается при . Малое p не означает высокой мощности и наоборот.
- Забыть задать мощность до эксперимента. Post hoc расчёт при незначимом результате - ретроспективная оправданность; он нередко занижает мощность (наблюдённый меньше истинного из-за случайности).
- Игнорировать направление альтернативы. Двусторонний тест () имеет меньшую мощность против односторонней альтернативы, чем односторонний.
- Некорректный эффект-сайз в планировании. Использовать пилотные данные для оценки опасно - пилот случайно завышает эффект. Лучше опираться на литературу или минимально значимый эффект (SESOI).
- Не учитывать поправки на множественность при планировании многофакторных исследований.
FAQ
Что значит мощность 0.80? Если истинна и вы повторите исследование 100 раз, в 80 случаях тест верно отклонит . В оставшихся 20 случаях - ошибка II рода ().
Можно ли увеличить мощность без увеличения n? Да. Повысить (например с 0.01 до 0.05), выбрать односторонний тест вместо двустороннего, уменьшить за счёт более точного измерения или блокированного дизайна, использовать ковариаты (ANCOVA).
Как мощность связана с типом критерия? Разные критерии для одной задачи имеют разную мощность. Теорема Неймана-Пирсона: для простых гипотез критерий отношения правдоподобия даёт максимально мощный тест при фиксированном - это равномерно наиболее мощный (UMP) критерий.
Коротко
Мощность статистического критерия - это вероятность обнаружить реальный эффект. Она растёт с увеличением объёма выборки , размера эффекта и уровня значимости . Стандарт в науке - при . Планирование выборки a priori с заданной мощностью - обязательный этап исследования; незначимый результат без расчёта мощности не может служить аргументом в пользу .
Читайте также

Лемма Неймана-Пирсона: наиболее мощный критерий
Лемма Неймана-Пирсона простыми словами: что утверждает, как через отношение правдоподобия построить наиболее мощный критерий, найти критическую область и мощность теста.

Как работает ANOVA однофакторный дисперсионный анализ
ANOVA однофакторный дисперсионный анализ сравнивает средние в трёх и более группах. Разбираем суммы квадратов, F-критерий и условия применимости на примере с расчётом.

Частный F-критерий: значимость фактора в регрессии
Частный F-критерий проверяет значимость отдельного фактора или группы факторов в множественной регрессии. Формула, сравнение с t-критерием, пошаговый пример расчёта и типичные ошибки.