Коэффициент корреляции Кендалла: расчёт тау

17 июня 2026Время чтения: 7 минут

#коэффициент Кендалла#тау Кендалла#ранговая корреляция#согласованные пары#эконометрика

Коэффициент корреляции Кендалла (тау Кендалла) измеряет силу и направление монотонной связи между двумя ранжированными признаками через подсчёт согласованных и несогласованных пар наблюдений. В отличие от коэффициента Пирсона он не требует линейности и нормальности, а в отличие от Спирмена опирается не на разности рангов, а на прямое сравнение всех пар объектов. Ниже разберём расчёт коэффициента корреляции Кендалла шаг за шагом: формулу, ручной пример, поправку на совпадающие ранги и проверку значимости. А чтобы быстро прикинуть тау для своих данных, соберите запрос в калькуляторе ниже.

Что измеряет тау Кендалла

Идея коэффициента в том, чтобы перебрать все возможные пары объектов и для каждой спросить: сохраняется ли их относительный порядок по обоим признакам? Если объект, который выше по первому признаку, выше и по второму, пара считается согласованной (конкордантной). Если порядок переворачивается, пара несогласованная (дискордантная). Тау Кендалла это нормированная разность числа согласованных и несогласованных пар.

Связь рангов по двум признакам: согласованные пары идут параллельно, несогласованные пересекаются

Значение тау лежит в диапазоне от $-1$ до $+1$ . Единица означает полное совпадение порядков (все пары согласованы), минус единица полную противоположность, ноль отсутствие монотонной связи. Содержательно тау интерпретируется как разность вероятностей: насколько вероятнее встретить согласованную пару, чем несогласованную.

Формула коэффициента корреляции Кендалла

Базовая формула без совпадающих рангов (её называют тау-a):

$\tau_a = \frac{P - Q}{\tfrac{1}{2}\,n(n-1)},$

где $P$ число согласованных пар, $Q$ число несогласованных, а знаменатель $\tfrac{1}{2}n(n-1)$ это общее число пар из $n$ объектов (число сочетаний $C_n^2$ ). Поскольку $P + Q$ при отсутствии связей равно общему числу пар, формулу часто записывают как

$\tau = \frac{P - Q}{P + Q}.$

Чтобы упростить подсчёт, наблюдения сначала упорядочивают по первому признаку. Тогда для каждого объекта достаточно смотреть только на ранги второго признака у объектов, стоящих ниже него: каждый больший ранг даёт согласованную пару, каждый меньший несогласованную. Этот приём превращает расчёт коэффициента корреляции Кендалла в один проход по упорядоченной таблице.

Расчёт вручную: пошаговый пример

Пусть пять студентов получили ранги по двум тестам. Упорядочим их по первому признаку (ранги $1,2,3,4,5$ ), а второму соответствуют ранги $y = (1, 3, 2, 5, 4)$ .

Идём по списку слева направо и для каждого $y_i$ считаем, сколько правее него значений больше (это вклад в $P$ ):

для $y_1 = 1$ правее больше: $3,2,5,4$ → 4 согласованных;
для $y_2 = 3$ правее больше: $5,4$ → 2;
для $y_3 = 2$ правее больше: $5,4$ → 2;
для $y_4 = 5$ правее больше: ничего → 0;
для $y_5 = 4$ правее ничего нет → 0.

Сумма $P = 4 + 2 + 2 + 0 + 0 = 8$ . Всего пар $\tfrac{1}{2}\cdot 5 \cdot 4 = 10$ , значит несогласованных $Q = 10 - 8 = 2$ . Подставляем:

$\tau = \frac{8 - 2}{10} = 0{,}6.$

Получили умеренно сильную положительную связь. Тот же логикой парного сравнения пользуется и ранговый коэффициент корреляции Спирмена, но он суммирует квадраты разностей рангов, поэтому численно тау и ро обычно не совпадают (при этом всегда $|\tau| \le |\rho|$ ).

Поправка на совпадающие ранги (тау-b)

Если в данных есть связи (одинаковые значения, которым присваивают средний ранг), число пар $P+Q$ становится меньше общего, и простая формула даёт смещённую оценку. Тогда применяют тау-b, где знаменатель корректируется на группы совпадений:

$\tau_b = \frac{P - Q}{\sqrt{(n_0 - n_1)\,(n_0 - n_2)}},$

где $n_0 = \tfrac{1}{2}n(n-1)$ , а $n_1 = \tfrac{1}{2}\sum t_i(t_i-1)$ и $n_2 = \tfrac{1}{2}\sum u_j(u_j-1)$ учитывают объёмы групп связей $t_i$ по первому признаку и $u_j$ по второму. Если связей нет, $n_1 = n_2 = 0$ и тау-b совпадает с тау-a.

Шкала значений тау от минус единицы до плюс единицы с примерами слабой, средней и сильной связи

В эконометрике и анализе порядковых шкал (баллы, рейтинги, категории «низкий-средний-высокий») связей много, поэтому по умолчанию считают именно тау-b: он сохраняет диапазон от $-1$ до $+1$ даже при обилии совпадений. Существует ещё тау-c (он же тау Стюарта), который дополнительно нормируют на размер прямоугольной таблицы сопряжённости и применяют, когда число категорий у двух признаков различается. Для большинства учебных задач достаточно тау-a и тау-b: первый берут для строгих рангов без повторов, второй когда повторяющиеся значения встречаются в обоих рядах. Важно держать выбранную версию согласованной с формулой проверки значимости, иначе сравнение с критическим значением окажется некорректным.

Проверка значимости коэффициента

Полученное тау это оценка по выборке, и нужно проверить, отличается ли оно от нуля значимо. При нулевой гипотезе об отсутствии связи статистика

$z = \frac{3\,\tau\,\sqrt{n(n-1)}}{\sqrt{2\,(2n+5)}}$

приближённо распределена стандартно нормально. Для нашего примера с $\tau = 0{,}6$ и $n=5$ выборка слишком мала для нормального приближения, поэтому используют точные критические значения из таблиц Кендалла. На практике при $n \ge 10$ нормальная аппроксимация уже работает, и решение принимают по $p$ -значению: если оно меньше уровня значимости (обычно $0{,}05$ ), связь признают статистически значимой.

Логика проверки такая же, как для любой статистики: формулируют нулевую гипотезу «истинное тау равно нулю» и альтернативную «тау отлично от нуля», вычисляют $z$ , переводят его в $p$ -значение по стандартному нормальному распределению и сравнивают с порогом. Полезно помнить, что значимость и сила связи это разные вещи: при большой выборке статистически значимым окажется и слабое тау около $0{,}1$ , тогда как при $n=8$ даже тау $0{,}5$ может не дотянуть до критической границы. Поэтому вывод формулируют по обоим основаниям сразу: и по знаку с величиной коэффициента, и по результату проверки гипотезы. Доверительный интервал для тау при необходимости строят через ту же оценку дисперсии, что стоит в знаменателе статистики $z$ .

Когда выбирать Кендалла, а не Пирсона

Тау Кендалла предпочтительнее, когда данные порядковые, выборка небольшая, а в распределении есть выбросы. Коэффициент устойчив к ним, потому что работает только с порядком, а не с величинами. Пирсон же чувствителен к форме связи и аномальным значениям. Если же важна именно линейная зависимость числовых величин, ближе подойдёт корреляция Пирсона или модель регрессии. Тау также удобно интерпретировать как меру согласия двух упорядочиваний, поэтому его часто берут в задачах ранжирования и сравнения экспертных оценок.

Ещё один практический довод в пользу Кендалла его прозрачность при ручном пересчёте небольших выборок: всю процедуру можно выполнить на бумаге, перебрав пары, тогда как ро Спирмена требует аккуратной работы с разностями рангов, а Пирсон сумм произведений отклонений. В курсовых и контрольных по статистике именно тау просят посчитать «вручную», чтобы показать понимание идеи согласованных и несогласованных пар, а не навык подстановки в готовую формулу. При этом для больших массивов данных коэффициент удобно считать программно, поскольку прямой перебор всех пар имеет квадратичную сложность.

Частые ошибки

Считают пары без предварительной сортировки по первому признаку: тогда легко сбиться в подсчёте $P$ и $Q$ .
Применяют тау-a к данным со связями вместо тау-b, что занижает абсолютное значение коэффициента.
Путают тау с ро Спирмена и ждут одинаковых чисел: они измеряют монотонность по-разному и совпадают лишь в крайних случаях.
Делят на $n$ вместо числа пар $\tfrac{1}{2}n(n-1)$ в знаменателе.
Делают вывод о значимости по малой выборке через нормальное приближение, хотя нужны точные табличные критические значения.

FAQ

Чем тау Кендалла отличается от коэффициента Спирмена? Оба ранговые и оценивают монотонную связь, но Спирмен опирается на квадраты разностей рангов, а Кендалл на долю согласованных пар. Тау обычно по модулю меньше ро и имеет более прозрачную вероятностную интерпретацию.

Может ли тау быть больше единицы? Нет. По построению $P - Q$ не превышает общего числа пар, поэтому тау всегда лежит в отрезке от $-1$ до $+1$ . Значения вне диапазона признак ошибки в подсчёте.

Что делать при совпадающих рангах? Присвоить совпадающим наблюдениям средний ранг и считать по формуле тау-b с поправкой на группы связей, иначе оценка будет смещена.

Коротко

Коэффициент корреляции Кендалла строится на сравнении всех пар наблюдений: тау равно нормированной разности числа согласованных и несогласованных пар, лежит в диапазоне от $-1$ до $+1$ и устойчиво к выбросам. Для ручного расчёта данные сортируют по первому признаку и считают, сколько правых рангов больше каждого текущего; при совпадениях переходят к тау-b, а значимость проверяют через нормальное приближение или таблицы Кендалла.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Коэффициент корреляции Кендалла: расчёт тау

Что измеряет тау Кендалла

Формула коэффициента корреляции Кендалла

Расчёт вручную: пошаговый пример

Поправка на совпадающие ранги (тау-b)

Проверка значимости коэффициента

Когда выбирать Кендалла, а не Пирсона

Частые ошибки

FAQ

Коротко

Читайте также

Ранговый коэффициент корреляции Спирмена: расчёт по шагам

Тест Бройша-Годфри: проверка остатков на автокорреляцию

Частный F-критерий: значимость фактора в регрессии