Индекс Джини: расчёт по шагам и формулы

Индекс Джини - это число от 0 до 1, которое показывает, насколько неравномерно распределён ресурс (чаще всего доход или богатство) между членами совокупности. Ноль означает полное равенство: все получают одинаково. Единица - предельную концентрацию: весь ресурс достаётся одному. На практике расчёт индекса Джини сводится к измерению площади между кривой Лоренца и линией абсолютного равенства, и эту геометрическую идею можно превратить в несколько компактных формул. Ниже разберём, как считать коэффициент Джини и для упорядоченного списка наблюдений, и для сгруппированных данных, а также как не наделать типичных ошибок при округлении и сортировке.
Что такое кривая Лоренца
Прежде чем считать индекс, полезно понять, что он измеряет. Кривая Лоренца строится так: население упорядочивают по возрастанию дохода, затем по горизонтали откладывают накопленную долю населения , а по вертикали - накопленную долю суммарного дохода . Если бы все получали поровну, беднейшие 20% владели бы ровно 20% дохода, и кривая совпала бы с диагональю . В реальности беднейшие 20% владеют меньшей долей, поэтому кривая Лоренца провисает под диагональю.
Коэффициент Джини равен удвоенной площади между диагональю и кривой Лоренца:
где - площадь между линией равенства и кривой Лоренца, - площадь под самой кривой, причём . Чем сильнее провисает кривая, тем больше и тем выше неравенство.
Дальше идёт подводящий мостик к практике: чтобы не строить кривую вручную, удобно сразу подставить свои данные в готовый расчётчик и получить значение вместе с разбором.
Формула для несгруппированных данных
Когда у вас есть отдельные значения (например, доходы человек), самый надёжный путь - сначала отсортировать их по возрастанию, а затем применить формулу через ранги. После сортировки, где - -е по порядку значение, индекс Джини считается так:
Эта формула эквивалентна определению через среднюю разность. Если обозначить среднее , то справедливо выражение через попарные модули разностей:
Вторая запись нагляднее объясняет смысл: индекс Джини - это средняя абсолютная разница доходов между любыми двумя случайно выбранными людьми, нормированная на удвоенное среднее. Для ручного счёта удобнее ранговая формула: она требует одного прохода по отсортированному ряду.
Разберём короткий пример. Пусть доходы пяти человек уже упорядочены: (в условных единицах). Сумма равна , . Считаем числитель с коэффициентами :
Тогда . Умеренное неравенство.
Расчёт по сгруппированным данным
Если данные представлены интервальным рядом (доли населения и соответствующие доли дохода по группам), индекс Джини удобно считать по накопленным частотам через формулу площади трапеций. Пусть группы упорядочены по возрастанию дохода, - доля населения в группе , а - накопленная доля дохода до конца группы включительно (). Тогда
Здесь каждая скобка - это сумма «высот» кривой Лоренца на границах интервала, а играет роль ширины. Сумма произведений даёт удвоенную площадь под кривой, и вычитание из единицы возвращает . Этот способ называют расчётом через площади трапеций, и он даёт точное значение, если внутри групп распределение считается равномерным.
Для квинтильных данных (пять групп по 20% населения) формула особенно компактна, потому что все . Именно так публикуют оценки неравенства национальные статистические службы.
Покажем счёт на квинтилях. Пусть доли дохода по пяти группам от беднейшей к богатейшей равны . Накопленные доли: . Тогда сумма при равна . Отсюда . Обратите внимание: ширина интервалов постоянна, поэтому ошибиться можно только в накопленных долях - их и стоит перепроверять в первую очередь.
Контроль результата: последняя накопленная доля дохода всегда должна равняться единице. Если она не сходится, в исходных долях есть ошибка ещё до расчёта G.
Интерпретация значений коэффициента
Само число мало что говорит без контекста. Обычно ориентируются на такие границы: - относительно равномерное распределение, - умеренное неравенство, - заметное, - высокое. Важно помнить, что индекс Джини нечувствителен к тому, в какой части распределения происходит перераспределение: одинаковый прирост неравенства в нижней и в верхней половине ряда даёт один и тот же сдвиг . Поэтому для анализа бедности его дополняют другими мерами концентрации - коэффициентом фондов, индексами Тейла или Аткинсона.
Ещё одна тонкость - единица измерения. Иногда индекс приводят в процентах (в диапазоне 0–100) и тогда называют процентным коэффициентом Джини; это то же самое число, домноженное на 100. Если сравниваете оценки из разных источников, проверьте шкалу и год: расчёт по доходу до и после налогов даёт разные значения.
Полезно помнить и об эффекте размера выборки. Для маленькой совокупности ранговая формула даёт смещённую вниз оценку, поэтому при сравнении небольших групп иногда применяют поправку , домножая на неё полученное . Для крупных выборок эта поправка пренебрежимо мала, и её обычно опускают. Кроме того, индекс Джини не аддитивен: нельзя сложить коэффициенты по регионам и получить коэффициент по стране - внутригрупповое и межгрупповое неравенство приходится разлагать отдельно, и для этого как раз удобнее индексы Тейла.
Связь с другими мерами неравенства
Кривая Лоренца и индекс Джини - лишь одна из систем координат. Полезно держать рядом разбор логарифмически нормального распределения: доходы часто моделируют именно логнормальным законом, и для него существует аналитическая формула , связывающая коэффициент Джини напрямую с параметром . Это удобно, когда выборка мала, а форма распределения известна.
Для финансовых рядов рядом стоит идея нормировки риска и неоднородности - там работают свои индексы, например коэффициент Шарпа, измеряющий доходность на единицу волатильности. Логика общая: свести многомерную картину к одному интерпретируемому числу, не теряя из виду, что именно это число игнорирует.
Частые ошибки
- Забыть отсортировать данные. Ранговая формула и площади трапеций предполагают возрастающий порядок. На неотсортированном ряде получится бессмысленное, иногда отрицательное число.
- Перепутать накопленные и обычные доли. В формуле для сгруппированных данных в скобках стоят именно накопленные доли дохода и , а не доли отдельных групп.
- Смешать шкалы. Сравнивать с «коэффициентом 42» нельзя - второе число дано в процентах ().
- Игнорировать единицы наблюдения. Джини по домохозяйствам и по индивидам различаются; одинаковая выборка даст разные значения в зависимости от единицы.
- Округлять промежуточные доли. Грубое округление накопленных долей до целых процентов заметно искажает площадь и итоговый .
FAQ
Может ли индекс Джини быть больше единицы? Для неотрицательных доходов - нет, корректное значение лежит в . Значение выше единицы или отрицательное - признак ошибки (несортированные данные, отрицательные значения дохода или опечатка в формуле).
Какую формулу выбрать - ранговую или через попарные разности? Результат одинаков. Ранговая формула быстрее: один проход по отсортированному ряду вместо операций. Попарную запись удобнее использовать для объяснения смысла.
Как считать Джини, если есть только квинтили? Используйте формулу через накопленные доли с площадями трапеций. Для пяти групп по 20% подставьте и накопленные доли дохода по каждому квинтилю.
Коротко
Индекс Джини измеряет неравенство как удвоенную площадь между диагональю и кривой Лоренца и принимает значения от 0 (равенство) до 1 (полная концентрация). Для отдельных наблюдений его считают по ранговой формуле после сортировки, для сгруппированных данных - через накопленные доли и площади трапеций. Главное при расчёте - упорядочить данные, не путать накопленные доли с обычными и следить за шкалой (доли против процентов).
Читайте также

Алгоритм Рабина-Карпа: поиск подстроки за O(n+m)
Разбираем алгоритм Рабина-Карпа: как полиномиальный хеш и скользящее окно ускоряют поиск подстроки до O(n+m) в среднем, почему бывают ложные совпадения и при чём тут плагиат.

Распределение Фишера критические значения: как искать F-квантили
Распределение Фишера и его критические значения: что такое F-распределение, как читать таблицу критических значений по двум степеням свободы, как применять F-квантили в F-тесте на равенство дисперсий и в дисперсионном анализе.

Модель Гордона: рост дивидендов и цена акции
Модель Гордона (Gordon Growth Model) оценивает справедливую стоимость акции через дивиденды с постоянным темпом роста. Формула, вывод, расчёт, ставка дисконтирования и ошибки.