Мощность статистического критерия: формула и расчёт

17 июня 2026Время чтения: 6 минут

#статистика#проверка гипотез#ошибка II рода#мощность критерия#объём выборки

При проверке статистической гипотезы исследователь рискует совершить два типа ошибок. Ошибка I рода - отклонить верную $H_0$ с вероятностью $\alpha$ . Но есть и ошибка II рода: не заметить реальный эффект, принять $H_0$ когда она ложна. Вероятность этой ошибки обозначают $\beta$ , а её дополнение $1 - \beta$ - это и есть мощность критерия. Чем выше мощность, тем надёжнее тест отловит эффект, если он существует. В интерактивном калькуляторе ниже можно посмотреть, как мощность зависит от параметров задачи.

Формальное определение мощности

Пусть $H_0: \theta = \theta_0$ проверяется против $H_1: \theta = \theta_1$ . Критерий принимает решение на основе статистики $T$ : отклоняем $H_0$ , если $T$ попало в критическую область $W$ . Тогда:

$\text{Мощность} = 1 - \beta = P(T \in W \mid H_1 \text{ истинна})$

Это вероятность правильно отклонить нулевую гипотезу. Мощность зависит от конкретного значения параметра при $H_1$ - поэтому говорят о функции мощности $\pi(\theta)$ : вероятность отклонения $H_0$ при истинном значении $\theta$ .

Для нормальной выборки $X_1, \ldots, X_n \sim N(\mu, \sigma^2)$ при одностороннем тесте $H_0: \mu = \mu_0$ против $H_1: \mu > \mu_0$ статистика $Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$ имеет стандартное нормальное распределение при $H_0$ . Мощность при истинном $\mu_1 > \mu_0$ :

$1 - \beta = P\left(Z > z_\alpha \mid \mu = \mu_1\right) = 1 - \Phi\!\left(z_\alpha - \frac{(\mu_1 - \mu_0)\sqrt{n}}{\sigma}\right)$

где $z_\alpha = \Phi^{-1}(1 - \alpha)$ - квантиль уровня $\alpha$ , $\Phi$ - функция нормального распределения.

Мощность критерия растёт по мере увеличения объёма выборки n; золотая точка ползёт вдоль кривой мощности, а красный пунктир отмечает целевые 80 %

Три фактора мощности: d, n, alpha

Из формулы видно три рычага управления мощностью.

1. Эффект-сайз $d = (\mu_1 - \mu_0)/\sigma$ - нормированное расстояние между гипотезами. Чем больше реальный эффект, тем легче его обнаружить. Для стандартизованных сравнений Коэн ввёл шкалу: $d = 0.2$ (малый), $0.5$ (средний), $0.8$ (большой). При среднем эффекте ( $d = 0.5$ ) и $\alpha = 0.05$ для мощности 80 % нужно около 64 наблюдений на группу.

2. Объём выборки $n$ - главный практический рычаг. Мощность монотонно растёт с $n$ : при удвоении выборки эффект-сайз в формуле умножается на $\sqrt{2}$ . Именно поэтому «расчёт объёма выборки» ( $a\ priori$ анализ мощности) стал стандартом в дизайне эксперимента.

3. Уровень значимости $\alpha$ - порог ошибки I рода. Увеличение $\alpha$ (например с 0.01 до 0.05) сдвигает критическое значение ближе к центру $H_0$ , расширяя критическую область и повышая мощность. Но одновременно растёт риск ложноположительного вывода. Баланс $\alpha$ и $\beta$ - ключевой компромисс дизайна.

Обе кривые нормального распределения и зоны ошибок: alpha (красная) и мощность (золотая) при фиксированном эффекте

Функция мощности и ОС-кривые

Функция мощности $\pi(\theta)$ строится для всего диапазона значений $\theta$ . При $H_0$ она равна $\alpha$ (уровню ложного отклонения). По мере удаления $\theta$ от $\mu_0$ она монотонно растёт к 1. Хорошо построенный тест имеет крутой подъём - «обрыв» функции мощности вблизи $\mu_0$ .

ОС-кривые (Operating Characteristic curves) - дополнение к кривой мощности: показывают $\beta = 1 - \pi(\theta)$ в зависимости от $n$ при фиксированном $\delta = |\mu_1 - \mu_0|/\sigma$ . Таблицы ОС-кривых публикуют Монтгомери и другие авторы учебников по контролю качества.

A priori и post hoc анализ

Расчёты мощности делятся на два типа.

A priori (до сбора данных) - планирование размера выборки. Заданы: желаемая мощность (обычно 0.8), $\alpha$ , предполагаемый эффект-сайз. Нужно найти $n$ . Для z-теста:

$n = \left(\frac{z_\alpha + z_\beta}{\delta}\right)^2, \quad \delta = \frac{\mu_1 - \mu_0}{\sigma}$

Например, при $\alpha = 0.05$ , $1 - \beta = 0.80$ и $\delta = 0.5$ : $n = ((1.645 + 0.842)/0.5)^2 \approx 25$ наблюдений.

Post hoc (после эксперимента) - ретроспективный расчёт достигнутой мощности при наблюдённом $\delta$ и фактическом $n$ . Используется для интерпретации незначимого результата: если мощность мала ( $< 0.5$ ), незначимость может объясняться недостаточным $n$ , а не отсутствием эффекта.

Низкая мощность делает незначимый результат неинформативным: нельзя принять H₀ только из-за p > alpha. Нужно указывать доверительный интервал и расчётную мощность.

Мощность непараметрических критериев

Критерии Вилкоксона, Манна-Уитни, знаковый - непараметрические и не требуют нормальности. Но за это платят относительной эффективностью: при нормальных данных тест Вилкоксона имеет мощность около 95.5 % от t-теста (asymptotic relative efficiency, ARE = 3/π ≈ 0.955). При тяжёлых хвостах непараметрические тесты бывают мощнее.

Для непараметрических тестов аналитических формул мощности меньше - часто используют симуляцию Монте-Карло: генерируют выборки из предполагаемого распределения с истинным эффектом и считают долю значимых результатов.

Мощность в множественных сравнениях

При одновременной проверке $m$ гипотез (например, в геномике) поправки на множественность (Бонферрони: $\alpha^* = \alpha/m$ , Холм, Беньямини-Хохберг) снижают каждый отдельный порог $\alpha^*$ , что уменьшает мощность. Процедура Беньямини-Хохберга контролирует FDR (False Discovery Rate) вместо FWER и сохраняет больше мощности при большом числе гипотез.

При m = 100 тестах и поправкой Бонферрони alpha* = 0.0005 вместо 0.05. Мощность теста при среднем эффекте падает примерно с 80 % до 30 %. Для таких задач FDR-контроль существенно выигрышнее.

Частые ошибки

Путать 1 - beta с p-значением. Мощность - это вероятность при $H_1$ , p-значение считается при $H_0$ . Малое p не означает высокой мощности и наоборот.
Забыть задать мощность до эксперимента. Post hoc расчёт при незначимом результате - ретроспективная оправданность; он нередко занижает мощность (наблюдённый $\delta$ меньше истинного из-за случайности).
Игнорировать направление альтернативы. Двусторонний тест ( $H_1: \mu \ne \mu_0$ ) имеет меньшую мощность против односторонней альтернативы, чем односторонний.
Некорректный эффект-сайз в планировании. Использовать пилотные данные для оценки $\delta$ опасно - пилот случайно завышает эффект. Лучше опираться на литературу или минимально значимый эффект (SESOI).
Не учитывать поправки на множественность при планировании многофакторных исследований.

FAQ

Что значит мощность 0.80? Если $H_1$ истинна и вы повторите исследование 100 раз, в 80 случаях тест верно отклонит $H_0$ . В оставшихся 20 случаях - ошибка II рода ( $\beta = 0.20$ ).

Можно ли увеличить мощность без увеличения n? Да. Повысить $\alpha$ (например с 0.01 до 0.05), выбрать односторонний тест вместо двустороннего, уменьшить $\sigma$ за счёт более точного измерения или блокированного дизайна, использовать ковариаты (ANCOVA).

Как мощность связана с типом критерия? Разные критерии для одной задачи имеют разную мощность. Теорема Неймана-Пирсона: для простых гипотез критерий отношения правдоподобия даёт максимально мощный тест при фиксированном $\alpha$ - это равномерно наиболее мощный (UMP) критерий.

Коротко

Мощность статистического критерия $1 - \beta$ - это вероятность обнаружить реальный эффект. Она растёт с увеличением объёма выборки $n$ , размера эффекта $d$ и уровня значимости $\alpha$ . Стандарт в науке - $1 - \beta \ge 0.80$ при $\alpha = 0.05$ . Планирование выборки a priori с заданной мощностью - обязательный этап исследования; незначимый результат без расчёта мощности не может служить аргументом в пользу $H_0$ .

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Мощность статистического критерия: формула и расчёт

Формальное определение мощности

Три фактора мощности: d, n, alpha

Функция мощности и ОС-кривые

A priori и post hoc анализ

Мощность непараметрических критериев

Мощность в множественных сравнениях

Частые ошибки

FAQ

Коротко

Читайте также

Лемма Неймана-Пирсона: наиболее мощный критерий

Как работает ANOVA однофакторный дисперсионный анализ

Частный F-критерий: значимость фактора в регрессии