EssayAI
Блог
Блог
Математика и алгоритмы

Коэффициент корреляции Кендалла: расчёт тау

17 июня 2026Время чтения: 7 минут
#коэффициент Кендалла#тау Кендалла#ранговая корреляция#согласованные пары#эконометрика
Коэффициент корреляции Кендалла: расчёт тау

Коэффициент корреляции Кендалла (тау Кендалла) измеряет силу и направление монотонной связи между двумя ранжированными признаками через подсчёт согласованных и несогласованных пар наблюдений. В отличие от коэффициента Пирсона он не требует линейности и нормальности, а в отличие от Спирмена опирается не на разности рангов, а на прямое сравнение всех пар объектов. Ниже разберём расчёт коэффициента корреляции Кендалла шаг за шагом: формулу, ручной пример, поправку на совпадающие ранги и проверку значимости. А чтобы быстро прикинуть тау для своих данных, соберите запрос в калькуляторе ниже.

Что измеряет тау Кендалла

Идея коэффициента в том, чтобы перебрать все возможные пары объектов и для каждой спросить: сохраняется ли их относительный порядок по обоим признакам? Если объект, который выше по первому признаку, выше и по второму, пара считается согласованной (конкордантной). Если порядок переворачивается, пара несогласованная (дискордантная). Тау Кендалла это нормированная разность числа согласованных и несогласованных пар.

Связь рангов по двум признакам: согласованные пары идут параллельно, несогласованные пересекаются
Связь рангов по двум признакам: согласованные пары идут параллельно, несогласованные пересекаются

Значение тау лежит в диапазоне от 1-1 до +1+1. Единица означает полное совпадение порядков (все пары согласованы), минус единица полную противоположность, ноль отсутствие монотонной связи. Содержательно тау интерпретируется как разность вероятностей: насколько вероятнее встретить согласованную пару, чем несогласованную.

Формула коэффициента корреляции Кендалла

Базовая формула без совпадающих рангов (её называют тау-a):

τa=PQ12n(n1),\tau_a = \frac{P - Q}{\tfrac{1}{2}\,n(n-1)},

где PP число согласованных пар, QQ число несогласованных, а знаменатель 12n(n1)\tfrac{1}{2}n(n-1) это общее число пар из nn объектов (число сочетаний Cn2C_n^2). Поскольку P+QP + Q при отсутствии связей равно общему числу пар, формулу часто записывают как

τ=PQP+Q.\tau = \frac{P - Q}{P + Q}.

Чтобы упростить подсчёт, наблюдения сначала упорядочивают по первому признаку. Тогда для каждого объекта достаточно смотреть только на ранги второго признака у объектов, стоящих ниже него: каждый больший ранг даёт согласованную пару, каждый меньший несогласованную. Этот приём превращает расчёт коэффициента корреляции Кендалла в один проход по упорядоченной таблице.

Расчёт вручную: пошаговый пример

Пусть пять студентов получили ранги по двум тестам. Упорядочим их по первому признаку (ранги 1,2,3,4,51,2,3,4,5), а второму соответствуют ранги y=(1,3,2,5,4)y = (1, 3, 2, 5, 4).

Идём по списку слева направо и для каждого yiy_i считаем, сколько правее него значений больше (это вклад в PP):

  • для y1=1y_1 = 1 правее больше: 3,2,5,43,2,5,4 → 4 согласованных;
  • для y2=3y_2 = 3 правее больше: 5,45,4 → 2;
  • для y3=2y_3 = 2 правее больше: 5,45,4 → 2;
  • для y4=5y_4 = 5 правее больше: ничего → 0;
  • для y5=4y_5 = 4 правее ничего нет → 0.

Сумма P=4+2+2+0+0=8P = 4 + 2 + 2 + 0 + 0 = 8. Всего пар 1254=10\tfrac{1}{2}\cdot 5 \cdot 4 = 10, значит несогласованных Q=108=2Q = 10 - 8 = 2. Подставляем:

τ=8210=0,6.\tau = \frac{8 - 2}{10} = 0{,}6.

Получили умеренно сильную положительную связь. Тот же логикой парного сравнения пользуется и ранговый коэффициент корреляции Спирмена, но он суммирует квадраты разностей рангов, поэтому численно тау и ро обычно не совпадают (при этом всегда τρ|\tau| \le |\rho|).

Поправка на совпадающие ранги (тау-b)

Если в данных есть связи (одинаковые значения, которым присваивают средний ранг), число пар P+QP+Q становится меньше общего, и простая формула даёт смещённую оценку. Тогда применяют тау-b, где знаменатель корректируется на группы совпадений:

τb=PQ(n0n1)(n0n2),\tau_b = \frac{P - Q}{\sqrt{(n_0 - n_1)\,(n_0 - n_2)}},

где n0=12n(n1)n_0 = \tfrac{1}{2}n(n-1), а n1=12ti(ti1)n_1 = \tfrac{1}{2}\sum t_i(t_i-1) и n2=12uj(uj1)n_2 = \tfrac{1}{2}\sum u_j(u_j-1) учитывают объёмы групп связей tit_i по первому признаку и uju_j по второму. Если связей нет, n1=n2=0n_1 = n_2 = 0 и тау-b совпадает с тау-a.

Шкала значений тау от минус единицы до плюс единицы с примерами слабой, средней и сильной связи
Шкала значений тау от минус единицы до плюс единицы с примерами слабой, средней и сильной связи

В эконометрике и анализе порядковых шкал (баллы, рейтинги, категории «низкий-средний-высокий») связей много, поэтому по умолчанию считают именно тау-b: он сохраняет диапазон от 1-1 до +1+1 даже при обилии совпадений. Существует ещё тау-c (он же тау Стюарта), который дополнительно нормируют на размер прямоугольной таблицы сопряжённости и применяют, когда число категорий у двух признаков различается. Для большинства учебных задач достаточно тау-a и тау-b: первый берут для строгих рангов без повторов, второй когда повторяющиеся значения встречаются в обоих рядах. Важно держать выбранную версию согласованной с формулой проверки значимости, иначе сравнение с критическим значением окажется некорректным.

Проверка значимости коэффициента

Полученное тау это оценка по выборке, и нужно проверить, отличается ли оно от нуля значимо. При нулевой гипотезе об отсутствии связи статистика

z=3τn(n1)2(2n+5)z = \frac{3\,\tau\,\sqrt{n(n-1)}}{\sqrt{2\,(2n+5)}}

приближённо распределена стандартно нормально. Для нашего примера с τ=0,6\tau = 0{,}6 и n=5n=5 выборка слишком мала для нормального приближения, поэтому используют точные критические значения из таблиц Кендалла. На практике при n10n \ge 10 нормальная аппроксимация уже работает, и решение принимают по pp-значению: если оно меньше уровня значимости (обычно 0,050{,}05), связь признают статистически значимой.

Логика проверки такая же, как для любой статистики: формулируют нулевую гипотезу «истинное тау равно нулю» и альтернативную «тау отлично от нуля», вычисляют zz, переводят его в pp-значение по стандартному нормальному распределению и сравнивают с порогом. Полезно помнить, что значимость и сила связи это разные вещи: при большой выборке статистически значимым окажется и слабое тау около 0,10{,}1, тогда как при n=8n=8 даже тау 0,50{,}5 может не дотянуть до критической границы. Поэтому вывод формулируют по обоим основаниям сразу: и по знаку с величиной коэффициента, и по результату проверки гипотезы. Доверительный интервал для тау при необходимости строят через ту же оценку дисперсии, что стоит в знаменателе статистики zz.

Когда выбирать Кендалла, а не Пирсона

Тау Кендалла предпочтительнее, когда данные порядковые, выборка небольшая, а в распределении есть выбросы. Коэффициент устойчив к ним, потому что работает только с порядком, а не с величинами. Пирсон же чувствителен к форме связи и аномальным значениям. Если же важна именно линейная зависимость числовых величин, ближе подойдёт корреляция Пирсона или модель регрессии. Тау также удобно интерпретировать как меру согласия двух упорядочиваний, поэтому его часто берут в задачах ранжирования и сравнения экспертных оценок.

Ещё один практический довод в пользу Кендалла его прозрачность при ручном пересчёте небольших выборок: всю процедуру можно выполнить на бумаге, перебрав пары, тогда как ро Спирмена требует аккуратной работы с разностями рангов, а Пирсон сумм произведений отклонений. В курсовых и контрольных по статистике именно тау просят посчитать «вручную», чтобы показать понимание идеи согласованных и несогласованных пар, а не навык подстановки в готовую формулу. При этом для больших массивов данных коэффициент удобно считать программно, поскольку прямой перебор всех пар имеет квадратичную сложность.

Частые ошибки

  • Считают пары без предварительной сортировки по первому признаку: тогда легко сбиться в подсчёте PP и QQ.
  • Применяют тау-a к данным со связями вместо тау-b, что занижает абсолютное значение коэффициента.
  • Путают тау с ро Спирмена и ждут одинаковых чисел: они измеряют монотонность по-разному и совпадают лишь в крайних случаях.
  • Делят на nn вместо числа пар 12n(n1)\tfrac{1}{2}n(n-1) в знаменателе.
  • Делают вывод о значимости по малой выборке через нормальное приближение, хотя нужны точные табличные критические значения.

FAQ

Чем тау Кендалла отличается от коэффициента Спирмена? Оба ранговые и оценивают монотонную связь, но Спирмен опирается на квадраты разностей рангов, а Кендалл на долю согласованных пар. Тау обычно по модулю меньше ро и имеет более прозрачную вероятностную интерпретацию.

Может ли тау быть больше единицы? Нет. По построению PQP - Q не превышает общего числа пар, поэтому тау всегда лежит в отрезке от 1-1 до +1+1. Значения вне диапазона признак ошибки в подсчёте.

Что делать при совпадающих рангах? Присвоить совпадающим наблюдениям средний ранг и считать по формуле тау-b с поправкой на группы связей, иначе оценка будет смещена.

Коротко

Коэффициент корреляции Кендалла строится на сравнении всех пар наблюдений: тау равно нормированной разности числа согласованных и несогласованных пар, лежит в диапазоне от 1-1 до +1+1 и устойчиво к выбросам. Для ручного расчёта данные сортируют по первому признаку и считают, сколько правых рангов больше каждого текущего; при совпадениях переходят к тау-b, а значимость проверяют через нормальное приближение или таблицы Кендалла.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также