EssayAI
Блог
Блог
Математика и алгоритмы

Мощность статистического критерия: формула и расчёт

17 июня 2026Время чтения: 6 минут
#статистика#проверка гипотез#ошибка II рода#мощность критерия#объём выборки

При проверке статистической гипотезы исследователь рискует совершить два типа ошибок. Ошибка I рода - отклонить верную H0H_0 с вероятностью α\alpha. Но есть и ошибка II рода: не заметить реальный эффект, принять H0H_0 когда она ложна. Вероятность этой ошибки обозначают β\beta, а её дополнение 1β1 - \beta - это и есть мощность критерия. Чем выше мощность, тем надёжнее тест отловит эффект, если он существует. В интерактивном калькуляторе ниже можно посмотреть, как мощность зависит от параметров задачи.

Формальное определение мощности

Пусть H0:θ=θ0H_0: \theta = \theta_0 проверяется против H1:θ=θ1H_1: \theta = \theta_1. Критерий принимает решение на основе статистики TT: отклоняем H0H_0, если TT попало в критическую область WW. Тогда:

Мощность=1β=P(TWH1 истинна)\text{Мощность} = 1 - \beta = P(T \in W \mid H_1 \text{ истинна})

Это вероятность правильно отклонить нулевую гипотезу. Мощность зависит от конкретного значения параметра при H1H_1 - поэтому говорят о функции мощности π(θ)\pi(\theta): вероятность отклонения H0H_0 при истинном значении θ\theta.

Для нормальной выборки X1,,XnN(μ,σ2)X_1, \ldots, X_n \sim N(\mu, \sigma^2) при одностороннем тесте H0:μ=μ0H_0: \mu = \mu_0 против H1:μ>μ0H_1: \mu > \mu_0 статистика Z=Xˉμ0σ/nZ = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}} имеет стандартное нормальное распределение при H0H_0. Мощность при истинном μ1>μ0\mu_1 > \mu_0:

1β=P(Z>zαμ=μ1)=1Φ ⁣(zα(μ1μ0)nσ)1 - \beta = P\left(Z > z_\alpha \mid \mu = \mu_1\right) = 1 - \Phi\!\left(z_\alpha - \frac{(\mu_1 - \mu_0)\sqrt{n}}{\sigma}\right)

где zα=Φ1(1α)z_\alpha = \Phi^{-1}(1 - \alpha) - квантиль уровня α\alpha, Φ\Phi - функция нормального распределения.

Мощность критерия растёт по мере увеличения объёма выборки n; золотая точка ползёт вдоль кривой мощности, а красный пунктир отмечает целевые 80 %

Три фактора мощности: d, n, alpha

Из формулы видно три рычага управления мощностью.

1. Эффект-сайз d=(μ1μ0)/σd = (\mu_1 - \mu_0)/\sigma - нормированное расстояние между гипотезами. Чем больше реальный эффект, тем легче его обнаружить. Для стандартизованных сравнений Коэн ввёл шкалу: d=0.2d = 0.2 (малый), 0.50.5 (средний), 0.80.8 (большой). При среднем эффекте (d=0.5d = 0.5) и α=0.05\alpha = 0.05 для мощности 80 % нужно около 64 наблюдений на группу.

2. Объём выборки nn - главный практический рычаг. Мощность монотонно растёт с nn: при удвоении выборки эффект-сайз в формуле умножается на 2\sqrt{2}. Именно поэтому «расчёт объёма выборки» (a prioria\ priori анализ мощности) стал стандартом в дизайне эксперимента.

3. Уровень значимости α\alpha - порог ошибки I рода. Увеличение α\alpha (например с 0.01 до 0.05) сдвигает критическое значение ближе к центру H0H_0, расширяя критическую область и повышая мощность. Но одновременно растёт риск ложноположительного вывода. Баланс α\alpha и β\beta - ключевой компромисс дизайна.

Обе кривые нормального распределения и зоны ошибок: alpha (красная) и мощность (золотая) при фиксированном эффекте
Обе кривые нормального распределения и зоны ошибок: alpha (красная) и мощность (золотая) при фиксированном эффекте

Функция мощности и ОС-кривые

Функция мощности π(θ)\pi(\theta) строится для всего диапазона значений θ\theta. При H0H_0 она равна α\alpha (уровню ложного отклонения). По мере удаления θ\theta от μ0\mu_0 она монотонно растёт к 1. Хорошо построенный тест имеет крутой подъём - «обрыв» функции мощности вблизи μ0\mu_0.

ОС-кривые (Operating Characteristic curves) - дополнение к кривой мощности: показывают β=1π(θ)\beta = 1 - \pi(\theta) в зависимости от nn при фиксированном δ=μ1μ0/σ\delta = |\mu_1 - \mu_0|/\sigma. Таблицы ОС-кривых публикуют Монтгомери и другие авторы учебников по контролю качества.

A priori и post hoc анализ

Расчёты мощности делятся на два типа.

A priori (до сбора данных) - планирование размера выборки. Заданы: желаемая мощность (обычно 0.8), α\alpha, предполагаемый эффект-сайз. Нужно найти nn. Для z-теста:

n=(zα+zβδ)2,δ=μ1μ0σn = \left(\frac{z_\alpha + z_\beta}{\delta}\right)^2, \quad \delta = \frac{\mu_1 - \mu_0}{\sigma}

Например, при α=0.05\alpha = 0.05, 1β=0.801 - \beta = 0.80 и δ=0.5\delta = 0.5: n=((1.645+0.842)/0.5)225n = ((1.645 + 0.842)/0.5)^2 \approx 25 наблюдений.

Post hoc (после эксперимента) - ретроспективный расчёт достигнутой мощности при наблюдённом δ\delta и фактическом nn. Используется для интерпретации незначимого результата: если мощность мала (<0.5< 0.5), незначимость может объясняться недостаточным nn, а не отсутствием эффекта.

Низкая мощность делает незначимый результат неинформативным: нельзя принять H₀ только из-за p > alpha. Нужно указывать доверительный интервал и расчётную мощность.

Мощность непараметрических критериев

Критерии Вилкоксона, Манна-Уитни, знаковый - непараметрические и не требуют нормальности. Но за это платят относительной эффективностью: при нормальных данных тест Вилкоксона имеет мощность около 95.5 % от t-теста (asymptotic relative efficiency, ARE = 3/π ≈ 0.955). При тяжёлых хвостах непараметрические тесты бывают мощнее.

Для непараметрических тестов аналитических формул мощности меньше - часто используют симуляцию Монте-Карло: генерируют выборки из предполагаемого распределения с истинным эффектом и считают долю значимых результатов.

Мощность в множественных сравнениях

При одновременной проверке mm гипотез (например, в геномике) поправки на множественность (Бонферрони: α=α/m\alpha^* = \alpha/m, Холм, Беньямини-Хохберг) снижают каждый отдельный порог α\alpha^*, что уменьшает мощность. Процедура Беньямини-Хохберга контролирует FDR (False Discovery Rate) вместо FWER и сохраняет больше мощности при большом числе гипотез.

При m = 100 тестах и поправкой Бонферрони alpha* = 0.0005 вместо 0.05. Мощность теста при среднем эффекте падает примерно с 80 % до 30 %. Для таких задач FDR-контроль существенно выигрышнее.

Частые ошибки

  • Путать 1 - beta с p-значением. Мощность - это вероятность при H1H_1, p-значение считается при H0H_0. Малое p не означает высокой мощности и наоборот.
  • Забыть задать мощность до эксперимента. Post hoc расчёт при незначимом результате - ретроспективная оправданность; он нередко занижает мощность (наблюдённый δ\delta меньше истинного из-за случайности).
  • Игнорировать направление альтернативы. Двусторонний тест (H1:μμ0H_1: \mu \ne \mu_0) имеет меньшую мощность против односторонней альтернативы, чем односторонний.
  • Некорректный эффект-сайз в планировании. Использовать пилотные данные для оценки δ\delta опасно - пилот случайно завышает эффект. Лучше опираться на литературу или минимально значимый эффект (SESOI).
  • Не учитывать поправки на множественность при планировании многофакторных исследований.

FAQ

Что значит мощность 0.80? Если H1H_1 истинна и вы повторите исследование 100 раз, в 80 случаях тест верно отклонит H0H_0. В оставшихся 20 случаях - ошибка II рода (β=0.20\beta = 0.20).

Можно ли увеличить мощность без увеличения n? Да. Повысить α\alpha (например с 0.01 до 0.05), выбрать односторонний тест вместо двустороннего, уменьшить σ\sigma за счёт более точного измерения или блокированного дизайна, использовать ковариаты (ANCOVA).

Как мощность связана с типом критерия? Разные критерии для одной задачи имеют разную мощность. Теорема Неймана-Пирсона: для простых гипотез критерий отношения правдоподобия даёт максимально мощный тест при фиксированном α\alpha - это равномерно наиболее мощный (UMP) критерий.

Коротко

Мощность статистического критерия 1β1 - \beta - это вероятность обнаружить реальный эффект. Она растёт с увеличением объёма выборки nn, размера эффекта dd и уровня значимости α\alpha. Стандарт в науке - 1β0.801 - \beta \ge 0.80 при α=0.05\alpha = 0.05. Планирование выборки a priori с заданной мощностью - обязательный этап исследования; незначимый результат без расчёта мощности не может служить аргументом в пользу H0H_0.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также