EssayAI
Блог
Блог
Математика и алгоритмы

Индекс Джини: расчёт по шагам и формулы

28 марта 2026Время чтения: 7 минут
#индекс джини#коэффициент джини#кривая лоренца#неравенство доходов#концентрация
Индекс Джини: расчёт по шагам и формулы

Индекс Джини - это число от 0 до 1, которое показывает, насколько неравномерно распределён ресурс (чаще всего доход или богатство) между членами совокупности. Ноль означает полное равенство: все получают одинаково. Единица - предельную концентрацию: весь ресурс достаётся одному. На практике расчёт индекса Джини сводится к измерению площади между кривой Лоренца и линией абсолютного равенства, и эту геометрическую идею можно превратить в несколько компактных формул. Ниже разберём, как считать коэффициент Джини и для упорядоченного списка наблюдений, и для сгруппированных данных, а также как не наделать типичных ошибок при округлении и сортировке.

Что такое кривая Лоренца

Прежде чем считать индекс, полезно понять, что он измеряет. Кривая Лоренца строится так: население упорядочивают по возрастанию дохода, затем по горизонтали откладывают накопленную долю населения pp, а по вертикали - накопленную долю суммарного дохода L(p)L(p). Если бы все получали поровну, беднейшие 20% владели бы ровно 20% дохода, и кривая совпала бы с диагональю L(p)=pL(p)=p. В реальности беднейшие 20% владеют меньшей долей, поэтому кривая Лоренца провисает под диагональю.

Коэффициент Джини равен удвоенной площади между диагональю и кривой Лоренца:

G=AA+B=2A,G = \frac{A}{A + B} = 2A,

где AA - площадь между линией равенства и кривой Лоренца, BB - площадь под самой кривой, причём A+B=12A + B = \tfrac12. Чем сильнее провисает кривая, тем больше AA и тем выше неравенство.

Дальше идёт подводящий мостик к практике: чтобы не строить кривую вручную, удобно сразу подставить свои данные в готовый расчётчик и получить значение GG вместе с разбором.

Формула для несгруппированных данных

Когда у вас есть отдельные значения y1,y2,,yny_1, y_2, \dots, y_n (например, доходы nn человек), самый надёжный путь - сначала отсортировать их по возрастанию, а затем применить формулу через ранги. После сортировки, где y(i)y_{(i)} - ii-е по порядку значение, индекс Джини считается так:

G=i=1n(2in1)y(i)ni=1ny(i).G = \frac{\sum_{i=1}^{n} (2i - n - 1)\, y_{(i)}}{n \sum_{i=1}^{n} y_{(i)}}.

Эта формула эквивалентна определению через среднюю разность. Если обозначить среднее yˉ\bar{y}, то справедливо выражение через попарные модули разностей:

G=i=1nj=1nyiyj2n2yˉ.G = \frac{\sum_{i=1}^{n} \sum_{j=1}^{n} |y_i - y_j|}{2 n^2 \bar{y}}.

Вторая запись нагляднее объясняет смысл: индекс Джини - это средняя абсолютная разница доходов между любыми двумя случайно выбранными людьми, нормированная на удвоенное среднее. Для ручного счёта удобнее ранговая формула: она требует одного прохода по отсортированному ряду.

Разберём короткий пример. Пусть доходы пяти человек уже упорядочены: 2,4,6,8,102, 4, 6, 8, 10 (в условных единицах). Сумма равна 3030, n=5n = 5. Считаем числитель (2in1)y(i)\sum (2i - n - 1) y_{(i)} с коэффициентами 4,2,0,2,4-4, -2, 0, 2, 4:

(4)(2)+(2)(4)+06+28+410=88+0+16+40=40.(-4)(2) + (-2)(4) + 0\cdot 6 + 2\cdot 8 + 4\cdot 10 = -8 - 8 + 0 + 16 + 40 = 40.

Тогда G=40530=401500,267G = \dfrac{40}{5 \cdot 30} = \dfrac{40}{150} \approx 0{,}267. Умеренное неравенство.

Расчёт по сгруппированным данным

Если данные представлены интервальным рядом (доли населения и соответствующие доли дохода по группам), индекс Джини удобно считать по накопленным частотам через формулу площади трапеций. Пусть группы упорядочены по возрастанию дохода, xkx_k - доля населения в группе kk, а cumk\text{cum}_k - накопленная доля дохода до конца группы kk включительно (cum0=0\text{cum}_0 = 0). Тогда

G=1k=1mxk(cumk1+cumk).G = 1 - \sum_{k=1}^{m} x_k \left( \text{cum}_{k-1} + \text{cum}_{k} \right).

Здесь каждая скобка - это сумма «высот» кривой Лоренца на границах интервала, а xkx_k играет роль ширины. Сумма произведений даёт удвоенную площадь BB под кривой, и вычитание из единицы возвращает 2A=G2A = G. Этот способ называют расчётом через площади трапеций, и он даёт точное значение, если внутри групп распределение считается равномерным.

Для квинтильных данных (пять групп по 20% населения) формула особенно компактна, потому что все xk=0,2x_k = 0{,}2. Именно так публикуют оценки неравенства национальные статистические службы.

Покажем счёт на квинтилях. Пусть доли дохода по пяти группам от беднейшей к богатейшей равны 0,08; 0,13; 0,17; 0,23; 0,390{,}08;\ 0{,}13;\ 0{,}17;\ 0{,}23;\ 0{,}39. Накопленные доли: 0,08; 0,21; 0,38; 0,61; 1,000{,}08;\ 0{,}21;\ 0{,}38;\ 0{,}61;\ 1{,}00. Тогда сумма xk(cumk1+cumk)\sum x_k(\text{cum}_{k-1}+\text{cum}_k) при xk=0,2x_k = 0{,}2 равна 0,2[(0+0,08)+(0,08+0,21)+(0,21+0,38)+(0,38+0,61)+(0,61+1,00)]=0,23,65=0,730{,}2\,[(0+0{,}08)+(0{,}08+0{,}21)+(0{,}21+0{,}38)+(0{,}38+0{,}61)+(0{,}61+1{,}00)] = 0{,}2 \cdot 3{,}65 = 0{,}73. Отсюда G=10,73=0,27G = 1 - 0{,}73 = 0{,}27. Обратите внимание: ширина интервалов постоянна, поэтому ошибиться можно только в накопленных долях - их и стоит перепроверять в первую очередь.

Контроль результата: последняя накопленная доля дохода всегда должна равняться единице. Если она не сходится, в исходных долях есть ошибка ещё до расчёта G.

Интерпретация значений коэффициента

Само число мало что говорит без контекста. Обычно ориентируются на такие границы: G<0,3G < 0{,}3 - относительно равномерное распределение, 0,3G<0,40{,}3 \le G < 0{,}4 - умеренное неравенство, 0,4G<0,50{,}4 \le G < 0{,}5 - заметное, G0,5G \ge 0{,}5 - высокое. Важно помнить, что индекс Джини нечувствителен к тому, в какой части распределения происходит перераспределение: одинаковый прирост неравенства в нижней и в верхней половине ряда даёт один и тот же сдвиг GG. Поэтому для анализа бедности его дополняют другими мерами концентрации - коэффициентом фондов, индексами Тейла или Аткинсона.

Ещё одна тонкость - единица измерения. Иногда индекс приводят в процентах (в диапазоне 0–100) и тогда называют процентным коэффициентом Джини; это то же самое число, домноженное на 100. Если сравниваете оценки из разных источников, проверьте шкалу и год: расчёт по доходу до и после налогов даёт разные значения.

Полезно помнить и об эффекте размера выборки. Для маленькой совокупности ранговая формула даёт смещённую вниз оценку, поэтому при сравнении небольших групп иногда применяют поправку nn1\frac{n}{n-1}, домножая на неё полученное GG. Для крупных выборок эта поправка пренебрежимо мала, и её обычно опускают. Кроме того, индекс Джини не аддитивен: нельзя сложить коэффициенты по регионам и получить коэффициент по стране - внутригрупповое и межгрупповое неравенство приходится разлагать отдельно, и для этого как раз удобнее индексы Тейла.

Связь с другими мерами неравенства

Кривая Лоренца и индекс Джини - лишь одна из систем координат. Полезно держать рядом разбор логарифмически нормального распределения: доходы часто моделируют именно логнормальным законом, и для него существует аналитическая формула G=2Φ ⁣(σ/2)1G = 2\Phi\!\left(\sigma/\sqrt{2}\right) - 1, связывающая коэффициент Джини напрямую с параметром σ\sigma. Это удобно, когда выборка мала, а форма распределения известна.

Для финансовых рядов рядом стоит идея нормировки риска и неоднородности - там работают свои индексы, например коэффициент Шарпа, измеряющий доходность на единицу волатильности. Логика общая: свести многомерную картину к одному интерпретируемому числу, не теряя из виду, что именно это число игнорирует.

Частые ошибки

  • Забыть отсортировать данные. Ранговая формула и площади трапеций предполагают возрастающий порядок. На неотсортированном ряде получится бессмысленное, иногда отрицательное число.
  • Перепутать накопленные и обычные доли. В формуле для сгруппированных данных в скобках стоят именно накопленные доли дохода cumk1\text{cum}_{k-1} и cumk\text{cum}_{k}, а не доли отдельных групп.
  • Смешать шкалы. Сравнивать G=0,38G = 0{,}38 с «коэффициентом 42» нельзя - второе число дано в процентах (0,420{,}42).
  • Игнорировать единицы наблюдения. Джини по домохозяйствам и по индивидам различаются; одинаковая выборка даст разные значения в зависимости от единицы.
  • Округлять промежуточные доли. Грубое округление накопленных долей до целых процентов заметно искажает площадь и итоговый GG.

FAQ

Может ли индекс Джини быть больше единицы? Для неотрицательных доходов - нет, корректное значение лежит в [0,1][0, 1]. Значение выше единицы или отрицательное - признак ошибки (несортированные данные, отрицательные значения дохода или опечатка в формуле).

Какую формулу выбрать - ранговую или через попарные разности? Результат одинаков. Ранговая формула (2in1)y(i)\sum (2i - n - 1) y_{(i)} быстрее: один проход по отсортированному ряду вместо n2n^2 операций. Попарную запись удобнее использовать для объяснения смысла.

Как считать Джини, если есть только квинтили? Используйте формулу через накопленные доли с площадями трапеций. Для пяти групп по 20% подставьте xk=0,2x_k = 0{,}2 и накопленные доли дохода по каждому квинтилю.

Коротко

Индекс Джини измеряет неравенство как удвоенную площадь между диагональю и кривой Лоренца и принимает значения от 0 (равенство) до 1 (полная концентрация). Для отдельных наблюдений его считают по ранговой формуле G=(2in1)y(i)ny(i)G = \frac{\sum (2i - n - 1) y_{(i)}}{n \sum y_{(i)}} после сортировки, для сгруппированных данных - через накопленные доли и площади трапеций. Главное при расчёте - упорядочить данные, не путать накопленные доли с обычными и следить за шкалой (доли против процентов).

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также