EssayAI
Блог
Блог
Гуманитарные науки

Ранговый коэффициент корреляции Спирмена: расчёт по шагам

17 июня 2026Время чтения: 7 минут
#корреляция Спирмена#ранговая корреляция#эконометрика#непараметрическая статистика#расчёт корреляции
Ранговый коэффициент корреляции Спирмена: расчёт по шагам

Ранговый коэффициент корреляции Спирмена показывает, насколько согласованно меняются два признака, если заменить их значения порядковыми номерами (рангами). Это непараметрический аналог корреляции Пирсона: он не требует нормального распределения, устойчив к выбросам и улавливает любую монотонную связь, а не только линейную. Именно поэтому в эконометрике и экономике труда его берут для порядковых шкал (баллы экспертов, места в рейтингах, уровни удовлетворённости). Ниже разберём расчёт по шагам, формулу с разностями рангов, поправку на совпадения и проверку значимости. Калькулятор-помощник ниже соберёт условие вашей задачи и передаст его в чат с разбором.

Что измеряет коэффициент Спирмена

Коэффициент Спирмена ρ\rho (часто пишут rsr_s) меняется от 1-1 до +1+1. Значение +1+1 означает строго согласованное ранжирование: объект, занявший первое место по одному признаку, занимает первое и по второму. Значение 1-1 - полностью противоположный порядок. Ноль говорит об отсутствии монотонной связи.

Ключевое отличие от Пирсона в том, что Спирмен работает не с самими значениями, а с их рангами. Поэтому он отвечает на вопрос не «растёт ли yy пропорционально xx», а «растёт ли yy при росте xx в принципе, пусть и нелинейно». Если связь между признаками монотонная, но изогнутая (например, логарифмическая или степенная), Спирмен покажет близкое к единице значение там, где Пирсон занизит оценку из-за нелинейности.

С практической точки зрения это означает, что Спирмен отвечает на более скромный, но часто более честный вопрос. Он не предполагает, что прирост дохода на один пункт всегда даёт одинаковый прирост другого показателя. Ему достаточно, чтобы порядок объектов сохранялся. В экономике, где шкалы редко бывают строго интервальными, а данные часто содержат выбросы и неравномерные интервалы между значениями, такая постановка вопроса нередко уместнее линейной.

Схема перехода от исходных значений двух признаков к их рангам и подсчёта разностей рангов для коэффициента Спирмена
Схема перехода от исходных значений двух признаков к их рангам и подсчёта разностей рангов для коэффициента Спирмена

Формула расчёта

Основная (упрощённая) формула применяется, когда среди значений нет повторов:

ρ=16i=1ndi2n(n21)\rho = 1 - \frac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 - 1)}

Здесь nn - число пар наблюдений, а did_i - разность рангов одного и того же объекта по двум признакам: di=Rx(i)Ry(i)d_i = R_x^{(i)} - R_y^{(i)}. Число 6 в числителе - это не подгонка, а константа, которая выводится из требования, чтобы при идеальном совпадении рангов получалась ровно единица.

Если повторяющихся значений нет, эта формула математически эквивалентна обычному коэффициенту Пирсона, посчитанному по рангам. Когда же повторы (связанные ранги) есть, упрощённая формула даёт смещённую оценку, и нужно либо вводить поправку, либо считать Пирсона напрямую по рангам.

Расчёт по шагам

Покажем алгоритм на компактном примере. Пусть восемь регионов оценены по двум показателям, и нам нужно понять, согласованы ли рейтинги.

  1. Ранжируем первый признак. Присваиваем значениям ранги от 1 до nn. Договоритесь о направлении (по возрастанию или убыванию) и держите его одинаковым для обоих признаков.
  2. Ранжируем второй признак по тому же правилу.
  3. Считаем разности рангов di=Rx(i)Ry(i)d_i = R_x^{(i)} - R_y^{(i)} для каждого объекта.
  4. Возводим разности в квадрат и суммируем: di2\sum d_i^2.
  5. Подставляем в формулу и получаем ρ\rho.

Допустим, после ранжирования получилось di2=14\sum d_i^2 = 14 при n=8n = 8. Тогда:

ρ=16148(641)=184504=10,167=0,833\rho = 1 - \frac{6 \cdot 14}{8(64 - 1)} = 1 - \frac{84}{504} = 1 - 0{,}167 = 0{,}833

Значение 0,8330{,}833 говорит о сильной прямой связи рейтингов: регионы, занимающие верх в одном рейтинге, в основном держатся в верхней части и во втором. Контроль: сумма разностей рангов di\sum d_i всегда должна равняться нулю, а сумма самих рангов каждого признака равна n(n+1)2\frac{n(n+1)}{2}. Эти два равенства - быстрая проверка, что ранги расставлены без арифметической ошибки, прежде чем подставлять данные в формулу. Если di\sum d_i отличается от нуля, искать ошибку нужно именно в ранжировании, а не в самой формуле.

Поправка на связанные ранги

Связанные ранги появляются, когда несколько объектов имеют одинаковое значение признака. В этом случае им присваивают средний ранг: например, если два объекта делят 3-е и 4-е места, оба получают ранг 3,53{,}5. Это типичная ситуация для балльных и порядковых шкал в экономике.

При наличии связей упрощённая формула занижает ρ\rho по модулю. Корректнее всего просто посчитать коэффициент Пирсона по столбцам рангов - он автоматически учитывает повторы. Если же требуется именно формула с поправкой, в знаменатель добавляют корректирующие слагаемые TxT_x и TyT_y, где каждое связанное скопление из tt одинаковых значений вносит t3t12\frac{t^3 - t}{12}. Чем больше повторов, тем заметнее расхождение между упрощённым и точным результатом, поэтому при многих совпадениях упрощённую формулу лучше не использовать.

Если в данных мало уникальных значений (например, шкала от 1 до 5), связей будет очень много. Тогда упрощённая формула с числом 6 непригодна, считайте Пирсона по рангам.

Проверка значимости

Полученное значение ρ\rho нужно проверить на статистическую значимость: не объясняется ли связь случайностью малой выборки. При малом nn (до 9 пар) сравнивают ρ\rho с критическим значением по специальной таблице Спирмена для выбранного уровня α\alpha. Если выборочный ρ\rho по модулю превышает табличное значение, нулевую гипотезу об отсутствии связи отвергают.

При большем числе наблюдений (n10n \geq 10) применяют tt-статистику:

t=ρn21ρ2t = \rho \sqrt{\frac{n - 2}{1 - \rho^2}}

Она сравнивается с критическим значением распределения Стьюдента при n2n - 2 степенях свободы. Логика та же, что и при проверке корреляции Пирсона и связи с детерминацией: значимость зависит и от силы связи, и от объёма выборки. Маленький по модулю ρ\rho на большой выборке может оказаться значимым, а крупный на выборке из пяти объектов - нет.

Шкала интерпретации коэффициента Спирмена от минус единицы до плюс единицы с подписями силы и направления связи
Шкала интерпретации коэффициента Спирмена от минус единицы до плюс единицы с подписями силы и направления связи

Когда выбирать Спирмена, а не Пирсона

Спирмена предпочитают в нескольких ситуациях. Во-первых, когда данные изначально порядковые: места в рейтинге, экспертные баллы, разряды. Пирсон для таких шкал некорректен, потому что предполагает интервальность. Во-вторых, когда есть выбросы: ранжирование «сглаживает» экстремальные значения, и единичный аномальный регион не перекосит оценку. В-третьих, когда связь монотонная, но явно нелинейная.

Если же признаки измерены в количественной шкале, распределены близко к нормальному и связь линейна, точнее работает Пирсон. Сравнивать выводы двух методов полезно: большое расхождение между Спирменом и Пирсоном - сигнал о нелинейности или влиянии выбросов. Когда нужно сопоставить силу связи в двух разных подвыборках, пригодится отдельная процедура сравнения двух коэффициентов корреляции.

Частые ошибки

  • Разное направление ранжирования у двух признаков. Если один столбец ранжирован по возрастанию, а другой по убыванию, знак ρ\rho перевернётся, и сильная прямая связь покажется обратной.
  • Игнорирование связанных рангов. При повторах нельзя присваивать ранги произвольно, нужен средний ранг, иначе di0\sum d_i \neq 0 и результат смещён.
  • Применение упрощённой формулы при множестве совпадений. Число 6 в формуле верно только без связей. При балльных шкалах считайте Пирсона по рангам.
  • Вывод о значимости без проверки. Само по себе ρ=0,7\rho = 0{,}7 ничего не доказывает, пока не сравнили его с критическим значением или tt-статистикой при вашем nn.
  • Трактовка корреляции как причинности. Согласованность рангов не означает, что один признак вызывает другой.

FAQ

Чем коэффициент Спирмена отличается от Пирсона простыми словами? Пирсон измеряет линейную связь по самим значениям, Спирмен - монотонную связь по их рангам. Спирмен устойчивее к выбросам и подходит для порядковых данных, но игнорирует точную форму зависимости.

Что делать, если значения повторяются? Присвоить повторам средний ранг. При небольшом числе повторов можно использовать упрощённую формулу, но точнее посчитать Пирсона по столбцам рангов, который учитывает связи автоматически.

Какое значение ρ\rho считать сильной связью? Грубый ориентир: до 0,30{,}3 слабая, 0,30{,}30,70{,}7 умеренная, выше 0,70{,}7 сильная. Но интерпретация зависит от области: в социально-экономических данных и 0,50{,}5 часто считается заметной связью. Главное, чтобы значение прошло проверку на значимость.

Коротко

Коэффициент Спирмена - это корреляция, посчитанная по рангам, а не по исходным значениям. Алгоритм расчёта: проранжировать оба признака в одном направлении, найти разности рангов, возвести их в квадрат, просуммировать и подставить в формулу ρ=16di2n(n21)\rho = 1 - \frac{6 \sum d_i^2}{n(n^2-1)}. При связанных рангах упрощённую формулу заменяют на Пирсона по рангам или вводят поправку. Результат обязательно проверяют на значимость по таблице (малые выборки) или tt-статистике (от десяти пар).

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также