Критерий Манна-Уитни: когда применять и как читать вывод

Критерий Манна-Уитни (он же U-критерий, тест Вилкоксона-Манна-Уитни) - это непараметрическая альтернатива t-критерию Стьюдента для двух независимых выборок. Его берут, когда данные не подчиняются нормальному распределению, выборки малы или измерены в порядковой шкале, и нужно проверить, отличаются ли две группы по уровню признака. Ниже разберём, когда критерий применять, какие условия он требует, как считается статистика и почему вывод формулируется не про средние, а про сдвиг распределений. Калькулятор ниже сразу пересчитывает , и p-значение по вашим выборкам.
Что проверяет критерий Манна-Уитни
Критерий сравнивает две независимые выборки и проверяет нулевую гипотезу о том, что они извлечены из одного и того же распределения. Формально:
то есть случайно взятое наблюдение из первой группы с равной вероятностью больше или меньше наблюдения из второй. Альтернатива - одно распределение сдвинуто относительно другого.
Важно: критерий работает не со средними и не с дисперсиями напрямую, а с рангами. Все наблюдения обеих выборок объединяются, упорядочиваются и получают ранги от 1 до . Дальше считается, насколько ранги одной группы систематически выше рангов другой. Поэтому критерий устойчив к выбросам и не требует нормальности - он смотрит на порядок, а не на абсолютные значения.
Когда применять: условия и показания
Критерий Манна-Уитни уместен, когда выполняется хотя бы одно из условий:
- Распределение не нормальное. t-критерий Стьюдента опирается на нормальность (особенно при малых ); если данные скошены, имеют тяжёлые хвосты или выбросы - берут Манна-Уитни. Это основной случай, родственный другим непараметрическим критериям.
- Порядковая (ранговая) шкала. Оценки экспертов, баллы по шкале «плохо-средне-хорошо», места в рейтинге - здесь среднее арифметическое лишено смысла, а ранги работают честно.
- Малые выборки. При проверить нормальность статистически невозможно, и непараметрический тест безопаснее.
- Две независимые группы. Наблюдения в группах не связаны попарно (иначе нужен критерий Вилкоксона для связанных выборок, а не Манна-Уитни).
Если же выборки большие, распределения близки к нормальным и измерены в интервальной шкале - мощнее окажется t-критерий. Манна-Уитни выбирают именно тогда, когда предпосылки t-критерия нарушены.

Как считается статистика U
Алгоритм расчёта простой и наглядный:
- Объединить обе выборки и присвоить всем наблюдениям общие ранги (наименьшему - ранг 1).
- Найти сумму рангов первой группы .
- Вычислить статистику для первой группы:
- Аналогично . В классическом тесте берут меньшее из двух: .
Смысл - это число пар «наблюдение из группы 1, наблюдение из группы 2», в которых первое больше второго. Если группы неразличимы, близко к ; чем сильнее одна группа доминирует, тем дальше от середины.
Критическое значение и нормальное приближение
Для малых выборок сравнивают с табличным критическим значением . Тонкость, на которой часто ошибаются: в критерии Манна-Уитни отклоняют, когда наблюдённое меньше или равно критическому - направление обратное привычному t-критерию.
При распределение хорошо приближается нормальным, и переходят к z-статистике:
Дальше всё как в z-тесте: сравнивают с критическим значением стандартного нормального распределения ( для двустороннего ) и по нему же находят p-значение. Калькулятор выше показывает оба пути - и , и приближённое с p-значением, чтобы видеть, попадает ли результат в зону отклонения.

Как читать вывод
Результат критерия формулируется аккуратно. Если отклонена, корректный вывод - «распределения групп различаются» или «вероятность, что наблюдение одной группы превышает наблюдение другой, отлична от 1/2». Распространённая неточность - писать «средние различаются»: критерий не про средние.
Только при дополнительном допущении, что распределения групп отличаются лишь сдвигом (одинаковая форма), вывод можно усилить до различия медиан. Без этого допущения значимый результат говорит лишь о стохастическом доминировании одной группы над другой.
Если нужно сравнить именно медианы и форма распределений заведомо одинакова, критерий Манна-Уитни эквивалентен сравнению медиан. Если же группы различаются и формой, и разбросом, значимый U говорит о различии распределений в целом, а не конкретно медиан.
Поправка на связи (одинаковые значения)
Когда в данных есть совпадающие значения (связи, ties), им присваивают средний ранг. При большом числе связей дисперсия занижается, и в неё вводят поправку:
где , а - размеры групп связанных значений. Без поправки тест становится слишком консервативным. Большинство статистических пакетов вводят её автоматически; при ручном счёте про неё легко забыть.
Отличие от t-критерия и критерия Вилкоксона
Три родственных метода легко спутать:
- t-критерий Стьюдента - параметрический, сравнивает средние двух независимых выборок, требует нормальности. Манна-Уитни - его непараметрический аналог.
- Критерий Вилкоксона для связанных выборок (знаково-ранговый) - для парных, зависимых наблюдений (до/после на одних и тех же объектах). Манна-Уитни - для независимых групп.
- Критерий Краскела-Уоллиса - обобщение Манна-Уитни на три и более групп.
Историческая путаница в названиях: Уилкоксон (1945) предложил тест для равных выборок, Манн и Уитни (1947) обобщили на разные объёмы и ввели статистику , поэтому метод и называют тестом Вилкоксона-Манна-Уитни.
Частые ошибки
- «Манна-Уитни сравнивает средние». Нет, он сравнивает распределения через ранги. Вывод про средние некорректен; про медианы - только при равенстве форм распределений.
- Применять к связанным выборкам. Для парных «до/после» нужен критерий Вилкоксона, а не Манна-Уитни. Независимость групп - обязательное условие.
- Путать направление сравнения с U. Для малых выборок отклоняют при , а не . Это противоположно логике t-критерия.
- Игнорировать поправку на связи. При множестве одинаковых значений без поправки тест занижает значимость и теряет мощность.
- Брать критерий при больших нормальных выборках. Тогда t-критерий мощнее: Манна-Уитни оправдан именно при нарушении нормальности.
FAQ
Когда выбрать Манна-Уитни, а когда t-критерий? Если данные нормальны, интервальны и выборки достаточно велики - t-критерий мощнее. Если есть выбросы, скошенность, порядковая шкала или малые выборки - берут Манна-Уитни. На практике для небольших несимметричных данных непараметрический критерий безопаснее.
Что делать при значимом результате? Сформулировать вывод как различие распределений (стохастическое доминирование одной группы). Усиливать до различия медиан можно только при допущении одинаковой формы распределений; иначе сообщают именно про сдвиг распределений в целом.
Подходит ли критерий для трёх и более групп? Нет. Для нескольких независимых групп применяют критерий Краскела-Уоллиса - прямое обобщение Манна-Уитни. Попарные сравнения нескольких групп критерием U без поправки на множественность завышают вероятность ложного результата.
Коротко
Критерий Манна-Уитни применяют, когда нужно сравнить две независимые выборки, а предпосылки t-критерия Стьюдента нарушены: распределение не нормальное, шкала порядковая, есть выбросы или выборки малы. Он работает с рангами, проверяя о равенстве распределений, и устойчив к выбросам. Статистика для малых выборок сравнивается с табличным (отклоняем при ), для больших - переходят к z-приближению с и . Значимый результат означает различие распределений; вывод про медианы корректен лишь при равенстве их форм. Для парных данных берут критерий Вилкоксона, для трёх и более групп - Краскела-Уоллиса.
Читайте также

Абстрактный класс и интерфейс: в чём отличие
Абстрактный класс и интерфейс: чем отличаются в ООП, когда наследовать поведение, а когда задавать контракт, как выбрать на примерах Java, C# и Python.

Алгоритм AdaBoost: как слабые классификаторы дают сильный
Алгоритм AdaBoost простыми словами: адаптивный бустинг, перевзвешивание объектов, формула веса классификатора, итоговый ансамбль и разбор шага на примере с формулами.

Алгоритм CatBoost: бустинг с обработкой категорий
Алгоритм CatBoost простыми словами: упорядоченный бустинг против сдвига прогноза, кодирование категориальных признаков через ordered target statistics, симметричные деревья и разбор типовых задач.