EssayAI
Блог
Блог
Математика и алгоритмы

Критерий согласия Колмогорова-Смирнова: проверка распределения

29 апреля 2026Время чтения: 7 минут
#критерий колмогорова-смирнова#критерий согласия#эмпирическая функция распределения#проверка гипотез#статистика d
Критерий согласия Колмогорова-Смирнова: проверка распределения

Когда нужно понять, подчиняются ли данные определённому теоретическому закону - нормальному, показательному, равномерному - на сцену выходит критерий согласия Колмогорова-Смирнова. Он измеряет, насколько сильно эмпирическая функция распределения выборки отклоняется от предполагаемой теоретической, и по этому максимальному расхождению решает, можно ли считать совпадение случайным. Ниже разберём, как устроена статистика DD, как считать эмпирическую функцию распределения, как читать критические значения, чем одновыборочный вариант отличается от двухвыборочного и где этот критерий ошибаются применять.

Что проверяет критерий согласия Колмогорова-Смирнова

Критерий согласия Колмогорова-Смирнова - это непараметрический тест для проверки гипотезы о том, что выборка извлечена из генеральной совокупности с заданной непрерывной функцией распределения. Нулевая гипотеза формулируется так:

H0:F(x)=F0(x)для всех x,H_0: F(x) = F_0(x) \quad \text{для всех } x,

где F(x)F(x) - истинная функция распределения данных, а F0(x)F_0(x) - теоретическая, согласие с которой мы проверяем. Альтернатива H1H_1 утверждает, что хотя бы в одной точке F(x)F0(x)F(x) \neq F_0(x). В отличие от критерия хи-квадрат, здесь не нужно разбивать данные на интервалы - тест работает напрямую с упорядоченными наблюдениями, поэтому не теряет информацию при группировке и особенно хорош на небольших выборках непрерывных величин.

Если нужно прогнать критерий по своим данным - посчитать статистику DD, сравнить её с критическим значением и получить вывод по гипотезе, - соберите запрос в калькуляторе ниже: он подставит ваши числа и распишет решение по шагам.

Эмпирическая функция распределения

В основе критерия лежит эмпирическая функция распределения (ЭФР) выборки x1,,xnx_1, \dots, x_n. Это ступенчатая функция, которая в каждой точке xx показывает долю наблюдений, не превышающих xx:

Fn(x)=1ni=1n1{xix},F_n(x) = \frac{1}{n} \sum_{i=1}^{n} \mathbf{1}\{x_i \le x\},

где 1{}\mathbf{1}\{\cdot\} - индикатор. ЭФР начинается с нуля, делает скачок высотой 1/n1/n в каждой наблюдённой точке и доходит до единицы. По теореме Гливенко - Кантелли при росте nn эмпирическая функция распределения равномерно сходится к истинной F(x)F(x) - именно это свойство и оправдывает идею критерия: если H0H_0 верна, расхождение между Fn(x)F_n(x) и F0(x)F_0(x) должно быть малым.

Статистика D: максимальное расхождение

Статистика критерия DD - это максимальное по модулю отклонение эмпирической функции распределения от теоретической:

D=supxFn(x)F0(x).D = \sup_{x} \left| F_n(x) - F_0(x) \right|.

Поскольку FnF_n - ступенчатая, супремум достигается в точках скачков, и на практике DD считают как максимум из двух наборов:

D+=max1in(inF0(x(i))),D=max1in(F0(x(i))i1n),D^{+} = \max_{1 \le i \le n} \left( \frac{i}{n} - F_0(x_{(i)}) \right), \qquad D^{-} = \max_{1 \le i \le n} \left( F_0(x_{(i)}) - \frac{i-1}{n} \right),

где x(1)x(2)x(n)x_{(1)} \le x_{(2)} \le \dots \le x_{(n)} - упорядоченная (вариационный ряд) выборка, а D=max(D+,D)D = \max(D^{+}, D^{-}). Алгоритм прост: отсортировать данные, в каждой точке посчитать теоретическое значение F0(x(i))F_0(x_{(i)}) и сравнить его со «ступенькой» слева и справа. Чем больше DD, тем сильнее данные не согласуются с предполагаемым законом.

Перед расчётом обязательно упорядочьте выборку по возрастанию: формулы для $D^{+}$ и $D^{-}$ опираются на ранг $i$ каждого наблюдения, и без сортировки результат будет бессмысленным.

Критические значения и распределение Колмогорова

При верной H0H_0 величина nD\sqrt{n}\,D при nn \to \infty сходится к распределению Колмогорова с функцией распределения

K(t)=12k=1(1)k1e2k2t2.K(t) = 1 - 2 \sum_{k=1}^{\infty} (-1)^{k-1} e^{-2 k^2 t^2}.

Отсюда получают критические значения: для уровня значимости α\alpha ищут такое DαD_{\alpha}, что P(D>Dα)=αP(D > D_{\alpha}) = \alpha. Для не слишком малых nn удобно асимптотическое приближение DαcαnD_{\alpha} \approx \dfrac{c_{\alpha}}{\sqrt{n}}, где, например, c0,051,358c_{0{,}05} \approx 1{,}358 и c0,011,628c_{0{,}01} \approx 1{,}628. Правило решения: если наблюдённая статистика превышает критическое значение, D>DαD > D_{\alpha}, нулевую гипотезу о согласии отвергают - данные значимо отклоняются от теоретического закона. Эквивалентно сравнивают p-уровень p=P(D>Dнабл)p = P(D > D_{\text{набл}}) с α\alpha: чем меньше pp, тем сильнее основания отвергнуть H0H_0. Логика порога здесь та же, что и в распределении Фишера и его критических значениях.

Одновыборочный и двухвыборочный варианты

Различают две постановки критерия Колмогорова-Смирнова. Одновыборочный (тест Колмогорова) сравнивает ЭФР одной выборки с известной полностью заданной теоретической функцией F0F_0 - параметры закона должны быть указаны заранее, а не оценены по тем же данным.

Двухвыборочный (тест Смирнова) проверяет, извлечены ли две выборки из одного и того же распределения, и сравнивает между собой две эмпирические функции:

Dn,m=supxFn(x)Gm(x),D_{n,m} = \sup_{x} \left| F_n(x) - G_m(x) \right|,

где FnF_n и GmG_m - ЭФР выборок объёмов nn и mm. Критическое значение здесь масштабируется множителем nmn+m\sqrt{\dfrac{nm}{n+m}}: гипотеза об одинаковом распределении отвергается, если nmn+mDn,m>cα\sqrt{\dfrac{nm}{n+m}}\, D_{n,m} > c_{\alpha}. Двухвыборочный вариант не требует знать вид распределения вообще - это его большое преимущество перед параметрическими тестами.

Поправка Лиллиефорса: когда параметры оценены

Самая распространённая ошибка - взять данные, оценить по ним среднее и дисперсию, а затем проверять нормальность тем же одновыборочным критерием со стандартными критическими значениями. Так делать нельзя: подгонка параметров «притягивает» F0F_0 к данным, статистика DD занижается, и тест становится слишком консервативным (реже отвергает H0H_0, чем должен). Для проверки нормальности с оценёнными параметрами применяют поправку Лиллиефорса - модифицированные критические значения, полученные методом Монте-Карло именно для этой ситуации. Аналогичные поправки существуют и для показательного закона. Поэтому при выборе теоретического распределения важно различать: параметры заданы извне или оценены по выборке.

Сравнение с другими критериями согласия

Критерий Колмогорова-Смирнова - не единственный тест согласия. Полезно понимать его место среди соседей:

  • Хи-квадрат Пирсона работает с группированными данными и годится как для дискретных, так и для непрерывных величин, но чувствителен к выбору границ интервалов и требует достаточного числа наблюдений в каждой ячейке.
  • Андерсона - Дарлинга - модификация, придающая больший вес хвостам распределения, поэтому он мощнее КС для обнаружения отклонений именно на краях.
  • Крамера - Мизеса усредняет квадрат расхождения по всей области, а не берёт максимум, и потому реагирует на накопленное по всему диапазону рассогласование.

КС хорош своей наглядностью (максимальный разрыв между кривыми) и отсутствием группировки, но он наиболее чувствителен к расхождениям в центре распределения и слабее замечает различия в хвостах.

Частые ошибки

  • Оценивают параметры по выборке и берут обычные критические значения. Для проверки нормальности с оценёнными средним и дисперсией нужна поправка Лиллиефорса, иначе тест слишком консервативен.
  • Применяют к дискретным данным. Классический критерий выведен для непрерывных распределений; при наличии совпадающих значений (ties) распределение статистики DD меняется, и стандартные критические значения становятся неточными.
  • Забывают упорядочить выборку. Формулы для D+D^{+} и DD^{-} требуют вариационного ряда; без сортировки ранг ii не имеет смысла.
  • Путают DD с p-уровнем. DD - это величина максимального расхождения, а pp - вероятность получить такое расхождение при верной H0H_0; сравнивать с α\alpha нужно именно pp (или DD с DαD_{\alpha}).
  • Делают вывод «распределение нормальное». Непротиворечие H0H_0 (D<DαD < D_{\alpha}) не доказывает согласие - оно лишь означает, что данных не хватает, чтобы отвергнуть гипотезу.

FAQ

Чем критерий Колмогорова-Смирнова лучше хи-квадрат? Он не требует группировки данных в интервалы, поэтому не теряет информацию и точнее работает на малых выборках непрерывных величин. Зато хи-квадрат применим и к дискретным распределениям, а КС в чистом виде - только к непрерывным.

Можно ли проверить нормальность критерием Колмогорова-Смирнова? Да, но только если среднее и дисперсия заданы заранее. Если вы оцениваете их по той же выборке, используйте вариант с поправкой Лиллиефорса - иначе стандартные критические значения дадут заниженную частоту отклонений.

Что означает большое значение статистики DD? Большое DD - это сильное максимальное расхождение между эмпирической и теоретической функциями распределения. Если оно превышает критическое значение DαD_{\alpha} (или p-уровень меньше α\alpha), нулевую гипотезу о согласии отвергают.

Коротко

Критерий согласия Колмогорова-Смирнова проверяет гипотезу о том, что выборка подчиняется заданному непрерывному распределению, через статистику D=supxFn(x)F0(x)D = \sup_x |F_n(x) - F_0(x)| - максимальное расхождение эмпирической и теоретической функций распределения. Если DD превышает критическое значение Dαcα/nD_{\alpha} \approx c_{\alpha}/\sqrt{n} (или p-уровень меньше α\alpha), согласие отвергают. Одновыборочный вариант сравнивает данные с известным законом, двухвыборочный - две выборки между собой. При оценке параметров по данным нужна поправка Лиллиефорса, а для дискретных величин и хвостовых отклонений уместнее хи-квадрат или критерий Андерсона - Дарлинга.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также