Ранговый коэффициент корреляции Спирмена: расчёт по шагам

Ранговый коэффициент корреляции Спирмена показывает, насколько согласованно меняются два признака, если заменить их значения порядковыми номерами (рангами). Это непараметрический аналог корреляции Пирсона: он не требует нормального распределения, устойчив к выбросам и улавливает любую монотонную связь, а не только линейную. Именно поэтому в эконометрике и экономике труда его берут для порядковых шкал (баллы экспертов, места в рейтингах, уровни удовлетворённости). Ниже разберём расчёт по шагам, формулу с разностями рангов, поправку на совпадения и проверку значимости. Калькулятор-помощник ниже соберёт условие вашей задачи и передаст его в чат с разбором.
Что измеряет коэффициент Спирмена
Коэффициент Спирмена (часто пишут ) меняется от до . Значение означает строго согласованное ранжирование: объект, занявший первое место по одному признаку, занимает первое и по второму. Значение - полностью противоположный порядок. Ноль говорит об отсутствии монотонной связи.
Ключевое отличие от Пирсона в том, что Спирмен работает не с самими значениями, а с их рангами. Поэтому он отвечает на вопрос не «растёт ли пропорционально », а «растёт ли при росте в принципе, пусть и нелинейно». Если связь между признаками монотонная, но изогнутая (например, логарифмическая или степенная), Спирмен покажет близкое к единице значение там, где Пирсон занизит оценку из-за нелинейности.
С практической точки зрения это означает, что Спирмен отвечает на более скромный, но часто более честный вопрос. Он не предполагает, что прирост дохода на один пункт всегда даёт одинаковый прирост другого показателя. Ему достаточно, чтобы порядок объектов сохранялся. В экономике, где шкалы редко бывают строго интервальными, а данные часто содержат выбросы и неравномерные интервалы между значениями, такая постановка вопроса нередко уместнее линейной.

Формула расчёта
Основная (упрощённая) формула применяется, когда среди значений нет повторов:
Здесь - число пар наблюдений, а - разность рангов одного и того же объекта по двум признакам: . Число 6 в числителе - это не подгонка, а константа, которая выводится из требования, чтобы при идеальном совпадении рангов получалась ровно единица.
Если повторяющихся значений нет, эта формула математически эквивалентна обычному коэффициенту Пирсона, посчитанному по рангам. Когда же повторы (связанные ранги) есть, упрощённая формула даёт смещённую оценку, и нужно либо вводить поправку, либо считать Пирсона напрямую по рангам.
Расчёт по шагам
Покажем алгоритм на компактном примере. Пусть восемь регионов оценены по двум показателям, и нам нужно понять, согласованы ли рейтинги.
- Ранжируем первый признак. Присваиваем значениям ранги от 1 до . Договоритесь о направлении (по возрастанию или убыванию) и держите его одинаковым для обоих признаков.
- Ранжируем второй признак по тому же правилу.
- Считаем разности рангов для каждого объекта.
- Возводим разности в квадрат и суммируем: .
- Подставляем в формулу и получаем .
Допустим, после ранжирования получилось при . Тогда:
Значение говорит о сильной прямой связи рейтингов: регионы, занимающие верх в одном рейтинге, в основном держатся в верхней части и во втором. Контроль: сумма разностей рангов всегда должна равняться нулю, а сумма самих рангов каждого признака равна . Эти два равенства - быстрая проверка, что ранги расставлены без арифметической ошибки, прежде чем подставлять данные в формулу. Если отличается от нуля, искать ошибку нужно именно в ранжировании, а не в самой формуле.
Поправка на связанные ранги
Связанные ранги появляются, когда несколько объектов имеют одинаковое значение признака. В этом случае им присваивают средний ранг: например, если два объекта делят 3-е и 4-е места, оба получают ранг . Это типичная ситуация для балльных и порядковых шкал в экономике.
При наличии связей упрощённая формула занижает по модулю. Корректнее всего просто посчитать коэффициент Пирсона по столбцам рангов - он автоматически учитывает повторы. Если же требуется именно формула с поправкой, в знаменатель добавляют корректирующие слагаемые и , где каждое связанное скопление из одинаковых значений вносит . Чем больше повторов, тем заметнее расхождение между упрощённым и точным результатом, поэтому при многих совпадениях упрощённую формулу лучше не использовать.
Если в данных мало уникальных значений (например, шкала от 1 до 5), связей будет очень много. Тогда упрощённая формула с числом 6 непригодна, считайте Пирсона по рангам.
Проверка значимости
Полученное значение нужно проверить на статистическую значимость: не объясняется ли связь случайностью малой выборки. При малом (до 9 пар) сравнивают с критическим значением по специальной таблице Спирмена для выбранного уровня . Если выборочный по модулю превышает табличное значение, нулевую гипотезу об отсутствии связи отвергают.
При большем числе наблюдений () применяют -статистику:
Она сравнивается с критическим значением распределения Стьюдента при степенях свободы. Логика та же, что и при проверке корреляции Пирсона и связи с детерминацией: значимость зависит и от силы связи, и от объёма выборки. Маленький по модулю на большой выборке может оказаться значимым, а крупный на выборке из пяти объектов - нет.

Когда выбирать Спирмена, а не Пирсона
Спирмена предпочитают в нескольких ситуациях. Во-первых, когда данные изначально порядковые: места в рейтинге, экспертные баллы, разряды. Пирсон для таких шкал некорректен, потому что предполагает интервальность. Во-вторых, когда есть выбросы: ранжирование «сглаживает» экстремальные значения, и единичный аномальный регион не перекосит оценку. В-третьих, когда связь монотонная, но явно нелинейная.
Если же признаки измерены в количественной шкале, распределены близко к нормальному и связь линейна, точнее работает Пирсон. Сравнивать выводы двух методов полезно: большое расхождение между Спирменом и Пирсоном - сигнал о нелинейности или влиянии выбросов. Когда нужно сопоставить силу связи в двух разных подвыборках, пригодится отдельная процедура сравнения двух коэффициентов корреляции.
Частые ошибки
- Разное направление ранжирования у двух признаков. Если один столбец ранжирован по возрастанию, а другой по убыванию, знак перевернётся, и сильная прямая связь покажется обратной.
- Игнорирование связанных рангов. При повторах нельзя присваивать ранги произвольно, нужен средний ранг, иначе и результат смещён.
- Применение упрощённой формулы при множестве совпадений. Число 6 в формуле верно только без связей. При балльных шкалах считайте Пирсона по рангам.
- Вывод о значимости без проверки. Само по себе ничего не доказывает, пока не сравнили его с критическим значением или -статистикой при вашем .
- Трактовка корреляции как причинности. Согласованность рангов не означает, что один признак вызывает другой.
FAQ
Чем коэффициент Спирмена отличается от Пирсона простыми словами? Пирсон измеряет линейную связь по самим значениям, Спирмен - монотонную связь по их рангам. Спирмен устойчивее к выбросам и подходит для порядковых данных, но игнорирует точную форму зависимости.
Что делать, если значения повторяются? Присвоить повторам средний ранг. При небольшом числе повторов можно использовать упрощённую формулу, но точнее посчитать Пирсона по столбцам рангов, который учитывает связи автоматически.
Какое значение считать сильной связью? Грубый ориентир: до слабая, – умеренная, выше сильная. Но интерпретация зависит от области: в социально-экономических данных и часто считается заметной связью. Главное, чтобы значение прошло проверку на значимость.
Коротко
Коэффициент Спирмена - это корреляция, посчитанная по рангам, а не по исходным значениям. Алгоритм расчёта: проранжировать оба признака в одном направлении, найти разности рангов, возвести их в квадрат, просуммировать и подставить в формулу . При связанных рангах упрощённую формулу заменяют на Пирсона по рангам или вводят поправку. Результат обязательно проверяют на значимость по таблице (малые выборки) или -статистике (от десяти пар).
Читайте также

Коэффициент корреляции Кендалла: расчёт тау
Коэффициент корреляции Кендалла: расчёт тау по согласованным и несогласованным парам, формула, пример вычисления вручную, поправка на связи и проверка значимости.

Ранговая корреляция Спирмена: формула и расчёт
Как вычислить коэффициент ранговой корреляции Спирмена: пошаговый расчёт по формуле rs = 1 - 6*sum(d^2)/(n*(n^2-1)), ранжирование данных, проверка значимости и интерпретация по шкале.

Агрегатный индекс цен Ласпейреса: формула и расчёт
Агрегатный индекс цен Ласпейреса: формула с весами базисного периода, пошаговый расчёт на числовом примере, сравнение с Пааше и Фишером, применение в ИПЦ и дефляторе ВВП.