Лемма Неймана-Пирсона: наиболее мощный критерий
Лемма Неймана-Пирсона отвечает на главный вопрос проверки статистических гипотез: если уровень значимости задан, какой критерий обнаруживает альтернативу с наибольшей вероятностью? Оказывается, для простой гипотезы против простой альтернативы ответ единственный и удивительно простой: нужно сравнивать отношение правдоподобия двух гипотез с подходящим порогом. Любой другой критерий того же уровня будет не мощнее. Ниже разберём, что именно утверждает лемма, как из неё получается критическая область, почему критерий сводится к одному порогу на выборочной статистике и как считать мощность. Чтобы сразу почувствовать связь уровня значимости, размера эффекта и мощности, покрутите калькулятор ниже: он ставит порог наиболее мощного критерия и показывает обе плотности с областью отвержения.
Что утверждает лемма Неймана-Пирсона
Пусть наблюдается выборка , а проверяются две простые гипотезы: , при которой параметр равен , и альтернатива , при которой он равен . Простая гипотеза полностью задаёт распределение, поэтому у каждой из них есть функция правдоподобия: и . Лемма Неймана-Пирсона говорит, что среди всех критериев с заданной вероятностью ошибки первого рода наибольшую мощность имеет критерий, который отвергает при
где порог подбирается так, чтобы выполнялось условие на уровень значимости . Величину называют отношением правдоподобия. Смысл прост: чем больше , тем сильнее данные «голосуют» за альтернативу. Критерий отвергает нулевую гипотезу там, где данные правдоподобнее при , чем при , ровно настолько, насколько позволяет бюджет ошибок .
Ключевое слово здесь - «наиболее мощный». Мощность критерия - это вероятность правильно отвергнуть , когда верна . Лемма утверждает, что критерий отношения правдоподобия даёт максимально возможную мощность при фиксированном . Это сильное и точное оптимальное свойство, а не приближённое правило.
Отношение правдоподобия и один порог
На первый взгляд сравнивать с порогом неудобно: это функция всей выборки. Но для многих распределений отношение правдоподобия монотонно зависит от одной достаточной статистики, и тогда условие превращается в простое неравенство на эту статистику.
Покажем это на каноническом примере. Пусть - выборка из нормального распределения с известной дисперсией , против , причём . Логарифм отношения правдоподобия равен
Поскольку , эта величина строго возрастает по сумме , а значит и по выборочному среднему . Поэтому условие эквивалентно условию для некоторого порога . Видео выше показывает именно этот разрез: один порог делит ось выборочного среднего на область принятия и область отвержения.

Удобнее перейти к стандартизованной статистике . При верной она имеет стандартное нормальное распределение, и порог определяется критическим значением
где - функция распределения стандартной нормали. Например, для одностороннего критерия уровня получаем . Критерий отвергает , если наблюдённое значение превышает .
Критическая область и ошибки двух родов
Критическая область - это множество значений статистики, при которых отвергается. Для нашего примера это полупрямая , или, в исходных единицах, . С двумя гипотезами всегда связаны две ошибки: ошибка первого рода (отвергнуть верную ) с вероятностью и ошибка второго рода (не отвергнуть , когда верна ) с вероятностью . Лемма Неймана-Пирсона фиксирует и минимизирует , то есть максимизирует мощность.

На рисунке видно геометрию решения. Синяя кривая - распределение статистики при , розовая - при . Золотой пунктир - порог . Площадь синего хвоста правее порога равна : это вероятность ложно отвергнуть нулевую гипотезу. Площадь розовой области правее того же порога равна мощности : это вероятность правильно поймать альтернативу. Когда гипотезы стоят дальше друг от друга, розовая область растёт, и мощность увеличивается, а уровень остаётся прежним.
Как считать мощность критерия
Мощность зависит от того, насколько далеко альтернатива отстоит от нуля в единицах разброса статистики. Введём размер эффекта на одно наблюдение . Тогда при верной статистика имеет среднее и единичную дисперсию, поэтому мощность равна
Эта формула показывает три рычага влияния на мощность. Во-первых, чем больше эффект , тем правее уезжает розовая плотность и тем больше её масса попадает в критическую область. Во-вторых, чем больше объём выборки , тем сильнее раздвигаются распределения по стандартизованной оси (множитель ). В-третьих, чем выше допустимый уровень , тем меньше и тем легче попасть в область отвержения, но тогда растёт риск ошибки первого рода. Калькулятор в начале статьи строит правый график мощности как функцию : видно, что при фиксированных и кривая мощности монотонно растёт и постепенно выходит на уровень, близкий к единице.
Когда гипотезы сложные
Лемма Неймана-Пирсона в чистом виде сформулирована для двух простых гипотез. На практике альтернатива часто сложная, например - целое семейство значений. Здесь спасает то, что для распределений с монотонным отношением правдоподобия (нормальное, показательное, пуассоновское и другие из экспоненциального семейства) граница критической области не зависит от конкретного значения внутри альтернативы. Поэтому один и тот же критерий оказывается равномерно наиболее мощным сразу для всех альтернатив . Этот результат - прямое следствие леммы и теоремы Карлина-Рубина, и именно он оправдывает повсеместное использование односторонних - и -критериев.
Если же монотонности нет или альтернатива двусторонняя, равномерно наиболее мощного критерия может не существовать, и тогда используют обобщённое отношение правдоподобия и другие принципы. Но логическим фундаментом всей теории остаётся именно лемма Неймана-Пирсона.
Частые ошибки
- Применение леммы к сложным гипотезам напрямую. Лемма в исходной форме работает только для двух простых гипотез. Для сложной альтернативы сначала нужно убедиться в монотонности отношения правдоподобия, иначе вывод о наиболее мощном критерии неверен.
- Путаница порога и критического значения . Порог стоит на отношении правдоподобия, а - на стандартизованной статистике. Это разные числа, связанные монотонным преобразованием.
- Забыть про направление неравенства. Если , отношение правдоподобия убывает по , и критическая область становится левым хвостом , а не правым.
- Считать мощность без учёта . Мощность зависит от , а не от одного . При малом объёме выборки даже большой эффект может давать низкую мощность.
- Смешивать уровень значимости и мощность. Уровень относится к ситуации, когда верна , а мощность - к ситуации, когда верна . Это две разные вероятности на двух разных распределениях.
FAQ
Почему критерий отношения правдоподобия самый мощный? Потому что он включает в критическую область именно те исходы, где данные относительно правдоподобнее при . При фиксированном бюджете ошибки первого рода такой выбор отдаёт критической области максимально возможную массу альтернативного распределения, а значит и максимальную мощность. Строгое доказательство сравнивает критерий Неймана-Пирсона с любым другим критерием того же уровня и показывает, что мощность последнего не больше.
Чем отличается уровень значимости от мощности критерия? Уровень значимости - это вероятность ошибки первого рода, то есть отвергнуть , когда она верна. Мощность - это вероятность правильно отвергнуть , когда верна альтернатива . Лемма фиксирует и делает мощность наибольшей из возможных.
Как лемма Неймана-Пирсона связана с - и -критериями? Для нормальной выборки наиболее мощный критерий из леммы сводится к порогу на выборочном среднем, а это и есть односторонний -критерий (при известной дисперсии) или -критерий (при оценённой). Поэтому привычные критерии не выбраны произвольно: они оптимальны в смысле леммы.
Коротко
Лемма Неймана-Пирсона утверждает, что для простой гипотезы против простой альтернативы наиболее мощный критерий уровня отвергает при , где порог выбран из условия на . Для распределений с монотонным отношением правдоподобия это сводится к одному порогу на достаточной статистике, например к условию для нормальной выборки. Мощность критерия равна и растёт с размером эффекта и объёмом выборки. Эта лемма - фундамент теории проверки гипотез и причина, по которой односторонние - и -критерии считаются оптимальными.
Читайте также

Мощность статистического критерия: формула и расчёт
Мощность статистического критерия 1-beta: как рассчитать через ошибку II рода, объём выборки и эффект-сайз. Формула для z-теста, целевой порог 80 %, примеры.

Частный F-критерий: значимость фактора в регрессии
Частный F-критерий проверяет значимость отдельного фактора или группы факторов в множественной регрессии. Формула, сравнение с t-критерием, пошаговый пример расчёта и типичные ошибки.

Критерий Фишера: сравнение двух дисперсий
Критерий Фишера для сравнения двух дисперсий: как составить F-статистику, найти степени свободы и критическое значение, проверить гипотезу о равенстве разбросов и не ошибиться с числителем.