EssayAI
Блог
Блог
Математика и алгоритмы

Ранговая корреляция Спирмена: формула и расчёт

11 июня 2026Время чтения: 8 минут
#ранговая корреляция#коэффициент Спирмена#непараметрическая статистика#ранжирование#проверка значимости

Ранговая корреляция Спирмена измеряет монотонную связь между двумя переменными, не требуя нормального распределения и работая даже с порядковыми шкалами. Это делает её незаменимым инструментом в задачах, где данные нельзя считать выборкой из генеральной совокупности с нормальным законом: анкетные оценки, рейтинги, результаты ранжирования экспертами. Метод предложил Чарльз Спирмен в 1904 году как ранговый аналог корреляции Пирсона, и с тех пор остаётся стандартом непараметрического анализа в психологии, педагогике и медицинских исследованиях. Чтобы сразу увидеть, как разности рангов связаны с итоговым коэффициентом, воспользуйтесь калькулятором ниже - он пересчитывает rs в реальном времени при изменении числа пар и степени монотонной связи.

Формула коэффициента Спирмена

Коэффициент ранговой корреляции Спирмена вычисляется по формуле:

rs=16i=1ndi2n(n21),r_s = 1 - \frac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 - 1)},

где di=rank(xi)rank(yi)d_i = \text{rank}(x_i) - \text{rank}(y_i) - разность рангов ii-го объекта по двум переменным, nn - число пар наблюдений. Множитель 6 в числителе и выражение n(n21)n(n^2-1) в знаменателе получаются из более общей формулы Пирсона, применённой к рангам 1, 2, ..., n.

Область значений: 1rs1-1 \le r_s \le 1.

  • rs=1r_s = 1: полная прямая монотонная связь (порядок рангов X и Y совпадает).
  • rs=1r_s = -1: полная обратная монотонная связь (ранги Y идут в обратном порядке относительно X).
  • rs=0r_s = 0: монотонная связь отсутствует.

Важно: rsr_s измеряет именно монотонность - насколько с ростом X тенденциозно растёт или убывает Y, - а не линейность. Поэтому на данных с нелинейной, но монотонной зависимостью Спирмен даст высокое значение, тогда как Пирсон - заниженное.

Как меняется точечный график рангов X vs Y при переходе от полной прямой связи (все точки на диагонали, rs = 1) к обратной (точки на антидиагонали, rs = -1) - ранги Y последовательно инвертируются, столбцы d^2 нарастают

Пошаговый расчёт: пример

Рассмотрим данные о баллах восьми студентов по математике и физике.

Шаг 1. Расставить ранги. Каждому значению присваивается ранг от 1 (наименьшее) до nn (наибольшее) внутри своей переменной. При совпадении значений (связанные ранги) всем им присваивается средний ранг.

СтудентМатематикаРанг XФизикаРанг Ydid_idi2d_i^2
172470311
2856887-11
360265200
490782611
555150100
678580500
795891800
8673724-11

Шаг 2. Вычислить сумму di2\sum d_i^2. В примере: 1+1+0+1+0+0+0+1=41+1+0+1+0+0+0+1 = 4.

Шаг 3. Подставить в формулу:

rs=1648(641)=12450410,048=0,952.r_s = 1 - \frac{6 \cdot 4}{8 \cdot (64 - 1)} = 1 - \frac{24}{504} \approx 1 - 0{,}048 = 0{,}952.
Пример таблицы рангов: разности d_i показаны столбцами, зелёные выше нуля, красные ниже - чем ниже столбцы, тем сильнее монотонная связь
Пример таблицы рангов: разности d_i показаны столбцами, зелёные выше нуля, красные ниже - чем ниже столбцы, тем сильнее монотонная связь

Результат rs0,95r_s \approx 0{,}95 говорит об очень сильной положительной монотонной связи: студенты, получающие высокие баллы по математике, в подавляющем большинстве имеют высокие баллы и по физике.

Связанные ранги: поправка к формуле

Если среди значений одной переменной есть повторяющиеся, их ранг заменяют средним из тех рангов, которые они бы получили по очереди. Например, три значения на местах 3, 4, 5 получают ранг (3+4+5)/3=4(3+4+5)/3 = 4.

При большом числе связанных рангов стандартная формула даёт смещённую оценку. В этом случае применяется поправка Деулефё через дисперсии рангов:

rs=n3n6di2TxTy2(n3n6Tx)(n3n6Ty),r_s = \frac{\frac{n^3 - n}{6} - \sum d_i^2 - T_x - T_y}{2\sqrt{\left(\frac{n^3 - n}{6} - T_x\right)\left(\frac{n^3 - n}{6} - T_y\right)}},

где Tx=tk(tk21)12T_x = \sum \frac{t_k(t_k^2 - 1)}{12} суммируется по всем группам связанных рангов kk с объёмом tkt_k. На практике, если связанных рангов меньше 20 % от nn, поправкой пренебрегают.

Проверка значимости коэффициента

Вычисленный rsr_s - выборочная оценка; вопрос, отличается ли она от нуля значимо, решается через tt-критерий Стьюдента:

t=rsn21rs2,df=n2.t = \frac{r_s \sqrt{n - 2}}{\sqrt{1 - r_s^2}}, \quad df = n - 2.

Если t>tкр(df,α)|t| > t_{\text{кр}}(df, \alpha) по таблице Стьюдента для заданного уровня значимости α\alpha, корреляция значима. Для примера выше: t=0,9526/10,9067,6t = 0{,}952 \cdot \sqrt{6} / \sqrt{1 - 0{,}906} \approx 7{,}6 при df=6df = 6. Критическое значение t0,05(6)=2,447t_{0{,}05}(6) = 2{,}447, поэтому корреляция значима.

При n<20n < 20 пользуются таблицей критических значений rsr_s, специально рассчитанных для малых выборок (таблица Зар или таблица Спирмена). Для n=8n = 8 и α=0,05\alpha = 0{,}05: rsкр0,738r_s^{\text{кр}} \approx 0{,}738; наш 0,952>0,7380{,}952 > 0{,}738 - значит, связь значима.

Интерпретация по шкале Чеддока

Абсолютное значение rs|r_s| интерпретируется по шкале силы связи:

| rs|r_s| | Характер связи | |---------|----------------| | 0,10 - 0,29 | слабая | | 0,30 - 0,49 | умеренная | | 0,50 - 0,69 | заметная | | 0,70 - 0,89 | сильная | | 0,90 - 1,00 | очень сильная |

Знак при rsr_s указывает направление: «+» - прямая зависимость (высокие X сочетаются с высокими Y), «-» - обратная.

Сравнение с корреляцией Пирсона

Корреляция Пирсона rxyr_{xy} измеряет линейную зависимость и требует нормальности распределения, непрерывности шкалы и отсутствия выбросов. Спирмен rsr_s свободен от этих ограничений, поскольку работает с рангами - устойчивой к выбросам монотонной трансформацией.

Когда данные удовлетворяют требованиям Пирсона, rxyr_{xy} точнее (rsr_s теряет часть информации при переходе к рангам). На ненормальных данных, порядковых шкалах или при наличии выбросов Спирмен предпочтительнее. Частный случай: если связь нелинейна, но монотонна, rsr_s даёт более высокое значение, чем rxyr_{xy}.

Сравнение: слева данные с нелинейной монотонной зависимостью, справа линейные. Корреляция Спирмена высока в обоих случаях, Пирсон - только в правом. Красная кривая наглядно показывает расхождение

Частые ошибки

  • Ранжируют неверно при связанных рангах. Присваивают порядковые номера вместо средних рангов - это ломает симметрию формулы и даёт неверный rsr_s. Всегда проверяйте: сумма всех рангов должна равняться n(n+1)/2n(n+1)/2.
  • Путают nn - число пар с числом переменных. В формуле nn - это именно количество объектов (строк в таблице), а не 2 переменные.
  • Применяют формулу без поправки при многих совпадениях. Если связанных рангов много, rsr_s без поправки Деулефё будет завышен.
  • Интерпретируют как линейную связь. rs=0,9r_s = 0{,}9 не означает «y приблизительно равно x», а только что монотонная связь очень сильная.
  • Забывают проверить значимость. При n=5n = 5 даже rs=0,85r_s = 0{,}85 может оказаться статистически незначимым - критическое значение велико для малых выборок.

FAQ

Можно ли применять Спирмена к данным на интервальной шкале?

Да. Если данные на интервальной или отношений шкале, но нарушается нормальность (выбросы, скошенное распределение), Спирмен является предпочтительной заменой Пирсону. Единственное условие - монотонная зависимость и порядковая интерпретируемость переменных.

Что делать, если rsr_s значим, но мал по абсолюту?

Статистическая значимость и практическая значимость - разные вещи. При большом nn даже rs=0,15r_s = 0{,}15 может оказаться значимым, но практически это слабая связь. Оценивайте и pp-значение, и величину эффекта по шкале Чеддока.

Как вычислить Спирмена в Excel?

Excel не имеет встроенной функции, но расчёт легко автоматизировать: столбцы РАНГ.СР() для X и Y, затем разности, их квадраты, СУММ() и формула. Либо использовать функцию КОРРЕЛ() после ранжирования - она даст тот же результат, что формула Спирмена (без поправки на связанные ранги).

Коротко

Коэффициент ранговой корреляции Спирмена rsr_s вычисляется по формуле 16di2/(n(n21))1 - 6\sum d_i^2 / (n(n^2-1)), где did_i - разности рангов каждой пары. Он измеряет монотонную, а не обязательно линейную связь, устойчив к выбросам и не требует нормальности. Расчёт сводится к четырём шагам: присвоить ранги (с учётом связанных), найти разности, возвести в квадрат, подставить в формулу. Значимость проверяется через tt-критерий Стьюдента при df=n2df = n-2. Результат интерпретируется по шкале Чеддока: rs0,7|r_s| \ge 0{,}7 - сильная связь, rs0,9|r_s| \ge 0{,}9 - очень сильная.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также