Коэффициент корреляции Кендалла: расчёт тау

Коэффициент корреляции Кендалла (тау Кендалла) измеряет силу и направление монотонной связи между двумя ранжированными признаками через подсчёт согласованных и несогласованных пар наблюдений. В отличие от коэффициента Пирсона он не требует линейности и нормальности, а в отличие от Спирмена опирается не на разности рангов, а на прямое сравнение всех пар объектов. Ниже разберём расчёт коэффициента корреляции Кендалла шаг за шагом: формулу, ручной пример, поправку на совпадающие ранги и проверку значимости. А чтобы быстро прикинуть тау для своих данных, соберите запрос в калькуляторе ниже.
Что измеряет тау Кендалла
Идея коэффициента в том, чтобы перебрать все возможные пары объектов и для каждой спросить: сохраняется ли их относительный порядок по обоим признакам? Если объект, который выше по первому признаку, выше и по второму, пара считается согласованной (конкордантной). Если порядок переворачивается, пара несогласованная (дискордантная). Тау Кендалла это нормированная разность числа согласованных и несогласованных пар.

Значение тау лежит в диапазоне от до . Единица означает полное совпадение порядков (все пары согласованы), минус единица полную противоположность, ноль отсутствие монотонной связи. Содержательно тау интерпретируется как разность вероятностей: насколько вероятнее встретить согласованную пару, чем несогласованную.
Формула коэффициента корреляции Кендалла
Базовая формула без совпадающих рангов (её называют тау-a):
где число согласованных пар, число несогласованных, а знаменатель это общее число пар из объектов (число сочетаний ). Поскольку при отсутствии связей равно общему числу пар, формулу часто записывают как
Чтобы упростить подсчёт, наблюдения сначала упорядочивают по первому признаку. Тогда для каждого объекта достаточно смотреть только на ранги второго признака у объектов, стоящих ниже него: каждый больший ранг даёт согласованную пару, каждый меньший несогласованную. Этот приём превращает расчёт коэффициента корреляции Кендалла в один проход по упорядоченной таблице.
Расчёт вручную: пошаговый пример
Пусть пять студентов получили ранги по двум тестам. Упорядочим их по первому признаку (ранги ), а второму соответствуют ранги .
Идём по списку слева направо и для каждого считаем, сколько правее него значений больше (это вклад в ):
- для правее больше: → 4 согласованных;
- для правее больше: → 2;
- для правее больше: → 2;
- для правее больше: ничего → 0;
- для правее ничего нет → 0.
Сумма . Всего пар , значит несогласованных . Подставляем:
Получили умеренно сильную положительную связь. Тот же логикой парного сравнения пользуется и ранговый коэффициент корреляции Спирмена, но он суммирует квадраты разностей рангов, поэтому численно тау и ро обычно не совпадают (при этом всегда ).
Поправка на совпадающие ранги (тау-b)
Если в данных есть связи (одинаковые значения, которым присваивают средний ранг), число пар становится меньше общего, и простая формула даёт смещённую оценку. Тогда применяют тау-b, где знаменатель корректируется на группы совпадений:
где , а и учитывают объёмы групп связей по первому признаку и по второму. Если связей нет, и тау-b совпадает с тау-a.

В эконометрике и анализе порядковых шкал (баллы, рейтинги, категории «низкий-средний-высокий») связей много, поэтому по умолчанию считают именно тау-b: он сохраняет диапазон от до даже при обилии совпадений. Существует ещё тау-c (он же тау Стюарта), который дополнительно нормируют на размер прямоугольной таблицы сопряжённости и применяют, когда число категорий у двух признаков различается. Для большинства учебных задач достаточно тау-a и тау-b: первый берут для строгих рангов без повторов, второй когда повторяющиеся значения встречаются в обоих рядах. Важно держать выбранную версию согласованной с формулой проверки значимости, иначе сравнение с критическим значением окажется некорректным.
Проверка значимости коэффициента
Полученное тау это оценка по выборке, и нужно проверить, отличается ли оно от нуля значимо. При нулевой гипотезе об отсутствии связи статистика
приближённо распределена стандартно нормально. Для нашего примера с и выборка слишком мала для нормального приближения, поэтому используют точные критические значения из таблиц Кендалла. На практике при нормальная аппроксимация уже работает, и решение принимают по -значению: если оно меньше уровня значимости (обычно ), связь признают статистически значимой.
Логика проверки такая же, как для любой статистики: формулируют нулевую гипотезу «истинное тау равно нулю» и альтернативную «тау отлично от нуля», вычисляют , переводят его в -значение по стандартному нормальному распределению и сравнивают с порогом. Полезно помнить, что значимость и сила связи это разные вещи: при большой выборке статистически значимым окажется и слабое тау около , тогда как при даже тау может не дотянуть до критической границы. Поэтому вывод формулируют по обоим основаниям сразу: и по знаку с величиной коэффициента, и по результату проверки гипотезы. Доверительный интервал для тау при необходимости строят через ту же оценку дисперсии, что стоит в знаменателе статистики .
Когда выбирать Кендалла, а не Пирсона
Тау Кендалла предпочтительнее, когда данные порядковые, выборка небольшая, а в распределении есть выбросы. Коэффициент устойчив к ним, потому что работает только с порядком, а не с величинами. Пирсон же чувствителен к форме связи и аномальным значениям. Если же важна именно линейная зависимость числовых величин, ближе подойдёт корреляция Пирсона или модель регрессии. Тау также удобно интерпретировать как меру согласия двух упорядочиваний, поэтому его часто берут в задачах ранжирования и сравнения экспертных оценок.
Ещё один практический довод в пользу Кендалла его прозрачность при ручном пересчёте небольших выборок: всю процедуру можно выполнить на бумаге, перебрав пары, тогда как ро Спирмена требует аккуратной работы с разностями рангов, а Пирсон сумм произведений отклонений. В курсовых и контрольных по статистике именно тау просят посчитать «вручную», чтобы показать понимание идеи согласованных и несогласованных пар, а не навык подстановки в готовую формулу. При этом для больших массивов данных коэффициент удобно считать программно, поскольку прямой перебор всех пар имеет квадратичную сложность.
Частые ошибки
- Считают пары без предварительной сортировки по первому признаку: тогда легко сбиться в подсчёте и .
- Применяют тау-a к данным со связями вместо тау-b, что занижает абсолютное значение коэффициента.
- Путают тау с ро Спирмена и ждут одинаковых чисел: они измеряют монотонность по-разному и совпадают лишь в крайних случаях.
- Делят на вместо числа пар в знаменателе.
- Делают вывод о значимости по малой выборке через нормальное приближение, хотя нужны точные табличные критические значения.
FAQ
Чем тау Кендалла отличается от коэффициента Спирмена? Оба ранговые и оценивают монотонную связь, но Спирмен опирается на квадраты разностей рангов, а Кендалл на долю согласованных пар. Тау обычно по модулю меньше ро и имеет более прозрачную вероятностную интерпретацию.
Может ли тау быть больше единицы? Нет. По построению не превышает общего числа пар, поэтому тау всегда лежит в отрезке от до . Значения вне диапазона признак ошибки в подсчёте.
Что делать при совпадающих рангах? Присвоить совпадающим наблюдениям средний ранг и считать по формуле тау-b с поправкой на группы связей, иначе оценка будет смещена.
Коротко
Коэффициент корреляции Кендалла строится на сравнении всех пар наблюдений: тау равно нормированной разности числа согласованных и несогласованных пар, лежит в диапазоне от до и устойчиво к выбросам. Для ручного расчёта данные сортируют по первому признаку и считают, сколько правых рангов больше каждого текущего; при совпадениях переходят к тау-b, а значимость проверяют через нормальное приближение или таблицы Кендалла.
Читайте также

Ранговый коэффициент корреляции Спирмена: расчёт по шагам
Разбираем расчёт рангового коэффициента корреляции Спирмена: ранжирование, формула с разностями рангов, поправка на связанные ранги и проверка значимости с примером.

Тест Бройша-Годфри: проверка остатков на автокорреляцию
Тест Бройша-Годфри на автокорреляцию остатков регрессии: LM-статистика n·R², выбор числа лагов, сравнение с хи-квадрат, отличие от Дарбина-Уотсона и интерпретация p-значения.

Частный F-критерий: значимость фактора в регрессии
Частный F-критерий проверяет значимость отдельного фактора или группы факторов в множественной регрессии. Формула, сравнение с t-критерием, пошаговый пример расчёта и типичные ошибки.