Критерий согласия Колмогорова-Смирнова: проверка распределения

Когда нужно понять, подчиняются ли данные определённому теоретическому закону - нормальному, показательному, равномерному - на сцену выходит критерий согласия Колмогорова-Смирнова. Он измеряет, насколько сильно эмпирическая функция распределения выборки отклоняется от предполагаемой теоретической, и по этому максимальному расхождению решает, можно ли считать совпадение случайным. Ниже разберём, как устроена статистика , как считать эмпирическую функцию распределения, как читать критические значения, чем одновыборочный вариант отличается от двухвыборочного и где этот критерий ошибаются применять.
Что проверяет критерий согласия Колмогорова-Смирнова
Критерий согласия Колмогорова-Смирнова - это непараметрический тест для проверки гипотезы о том, что выборка извлечена из генеральной совокупности с заданной непрерывной функцией распределения. Нулевая гипотеза формулируется так:
где - истинная функция распределения данных, а - теоретическая, согласие с которой мы проверяем. Альтернатива утверждает, что хотя бы в одной точке . В отличие от критерия хи-квадрат, здесь не нужно разбивать данные на интервалы - тест работает напрямую с упорядоченными наблюдениями, поэтому не теряет информацию при группировке и особенно хорош на небольших выборках непрерывных величин.
Если нужно прогнать критерий по своим данным - посчитать статистику , сравнить её с критическим значением и получить вывод по гипотезе, - соберите запрос в калькуляторе ниже: он подставит ваши числа и распишет решение по шагам.
Эмпирическая функция распределения
В основе критерия лежит эмпирическая функция распределения (ЭФР) выборки . Это ступенчатая функция, которая в каждой точке показывает долю наблюдений, не превышающих :
где - индикатор. ЭФР начинается с нуля, делает скачок высотой в каждой наблюдённой точке и доходит до единицы. По теореме Гливенко - Кантелли при росте эмпирическая функция распределения равномерно сходится к истинной - именно это свойство и оправдывает идею критерия: если верна, расхождение между и должно быть малым.
Статистика D: максимальное расхождение
Статистика критерия - это максимальное по модулю отклонение эмпирической функции распределения от теоретической:
Поскольку - ступенчатая, супремум достигается в точках скачков, и на практике считают как максимум из двух наборов:
где - упорядоченная (вариационный ряд) выборка, а . Алгоритм прост: отсортировать данные, в каждой точке посчитать теоретическое значение и сравнить его со «ступенькой» слева и справа. Чем больше , тем сильнее данные не согласуются с предполагаемым законом.
Перед расчётом обязательно упорядочьте выборку по возрастанию: формулы для $D^{+}$ и $D^{-}$ опираются на ранг $i$ каждого наблюдения, и без сортировки результат будет бессмысленным.
Критические значения и распределение Колмогорова
При верной величина при сходится к распределению Колмогорова с функцией распределения
Отсюда получают критические значения: для уровня значимости ищут такое , что . Для не слишком малых удобно асимптотическое приближение , где, например, и . Правило решения: если наблюдённая статистика превышает критическое значение, , нулевую гипотезу о согласии отвергают - данные значимо отклоняются от теоретического закона. Эквивалентно сравнивают p-уровень с : чем меньше , тем сильнее основания отвергнуть . Логика порога здесь та же, что и в распределении Фишера и его критических значениях.
Одновыборочный и двухвыборочный варианты
Различают две постановки критерия Колмогорова-Смирнова. Одновыборочный (тест Колмогорова) сравнивает ЭФР одной выборки с известной полностью заданной теоретической функцией - параметры закона должны быть указаны заранее, а не оценены по тем же данным.
Двухвыборочный (тест Смирнова) проверяет, извлечены ли две выборки из одного и того же распределения, и сравнивает между собой две эмпирические функции:
где и - ЭФР выборок объёмов и . Критическое значение здесь масштабируется множителем : гипотеза об одинаковом распределении отвергается, если . Двухвыборочный вариант не требует знать вид распределения вообще - это его большое преимущество перед параметрическими тестами.
Поправка Лиллиефорса: когда параметры оценены
Самая распространённая ошибка - взять данные, оценить по ним среднее и дисперсию, а затем проверять нормальность тем же одновыборочным критерием со стандартными критическими значениями. Так делать нельзя: подгонка параметров «притягивает» к данным, статистика занижается, и тест становится слишком консервативным (реже отвергает , чем должен). Для проверки нормальности с оценёнными параметрами применяют поправку Лиллиефорса - модифицированные критические значения, полученные методом Монте-Карло именно для этой ситуации. Аналогичные поправки существуют и для показательного закона. Поэтому при выборе теоретического распределения важно различать: параметры заданы извне или оценены по выборке.
Сравнение с другими критериями согласия
Критерий Колмогорова-Смирнова - не единственный тест согласия. Полезно понимать его место среди соседей:
- Хи-квадрат Пирсона работает с группированными данными и годится как для дискретных, так и для непрерывных величин, но чувствителен к выбору границ интервалов и требует достаточного числа наблюдений в каждой ячейке.
- Андерсона - Дарлинга - модификация, придающая больший вес хвостам распределения, поэтому он мощнее КС для обнаружения отклонений именно на краях.
- Крамера - Мизеса усредняет квадрат расхождения по всей области, а не берёт максимум, и потому реагирует на накопленное по всему диапазону рассогласование.
КС хорош своей наглядностью (максимальный разрыв между кривыми) и отсутствием группировки, но он наиболее чувствителен к расхождениям в центре распределения и слабее замечает различия в хвостах.
Частые ошибки
- Оценивают параметры по выборке и берут обычные критические значения. Для проверки нормальности с оценёнными средним и дисперсией нужна поправка Лиллиефорса, иначе тест слишком консервативен.
- Применяют к дискретным данным. Классический критерий выведен для непрерывных распределений; при наличии совпадающих значений (ties) распределение статистики меняется, и стандартные критические значения становятся неточными.
- Забывают упорядочить выборку. Формулы для и требуют вариационного ряда; без сортировки ранг не имеет смысла.
- Путают с p-уровнем. - это величина максимального расхождения, а - вероятность получить такое расхождение при верной ; сравнивать с нужно именно (или с ).
- Делают вывод «распределение нормальное». Непротиворечие () не доказывает согласие - оно лишь означает, что данных не хватает, чтобы отвергнуть гипотезу.
FAQ
Чем критерий Колмогорова-Смирнова лучше хи-квадрат? Он не требует группировки данных в интервалы, поэтому не теряет информацию и точнее работает на малых выборках непрерывных величин. Зато хи-квадрат применим и к дискретным распределениям, а КС в чистом виде - только к непрерывным.
Можно ли проверить нормальность критерием Колмогорова-Смирнова? Да, но только если среднее и дисперсия заданы заранее. Если вы оцениваете их по той же выборке, используйте вариант с поправкой Лиллиефорса - иначе стандартные критические значения дадут заниженную частоту отклонений.
Что означает большое значение статистики ? Большое - это сильное максимальное расхождение между эмпирической и теоретической функциями распределения. Если оно превышает критическое значение (или p-уровень меньше ), нулевую гипотезу о согласии отвергают.
Коротко
Критерий согласия Колмогорова-Смирнова проверяет гипотезу о том, что выборка подчиняется заданному непрерывному распределению, через статистику - максимальное расхождение эмпирической и теоретической функций распределения. Если превышает критическое значение (или p-уровень меньше ), согласие отвергают. Одновыборочный вариант сравнивает данные с известным законом, двухвыборочный - две выборки между собой. При оценке параметров по данным нужна поправка Лиллиефорса, а для дискретных величин и хвостовых отклонений уместнее хи-квадрат или критерий Андерсона - Дарлинга.
Читайте также

Как работает ANOVA однофакторный дисперсионный анализ
ANOVA однофакторный дисперсионный анализ сравнивает средние в трёх и более группах. Разбираем суммы квадратов, F-критерий и условия применимости на примере с расчётом.

Алгоритм Рабина-Карпа: поиск подстроки за O(n+m)
Разбираем алгоритм Рабина-Карпа: как полиномиальный хеш и скользящее окно ускоряют поиск подстроки до O(n+m) в среднем, почему бывают ложные совпадения и при чём тут плагиат.

Распределение Фишера критические значения: как искать F-квантили
Распределение Фишера и его критические значения: что такое F-распределение, как читать таблицу критических значений по двум степеням свободы, как применять F-квантили в F-тесте на равенство дисперсий и в дисперсионном анализе.