Индекс разнообразия Симпсона: формула и смысл

Экологи давно заметили: простой подсчёт числа видов в сообществе даёт неполную картину. Два луга с одинаковым набором видов могут сильно различаться по структуре - на одном доминирует один вид, на другом все виды представлены примерно поровну. Именно для описания такого неравенства Эдвард Симпсон в 1949 году предложил меру, основанную на вероятности случайного выбора: насколько вероятно, что два произвольно взятых организма окажутся одного вида? Если вероятность высока - разнообразие мало; если мала - сообщество богато и равномерно. Давайте разберём эту логику до конца - и проверим на числах с помощью калькулятора.
История и вероятностная основа
Эдвард Хью Симпсон сформулировал свою меру в 1949 году в однополосной заметке в журнале Nature, ища способ описать концентрацию доминирования в криминологической статистике - и по совместительству в экологии. Идея простая: возьмите произвольно двух особей из сообщества. Какова вероятность, что они одного вида? Если сообщество состоит из одного вида - вероятность 1. Если из бесконечно большого числа равных видов - вероятность стремится к нулю.
Формула и вероятностная основа
Исходная мера Симпсона D выражает вероятность того, что два случайно выбранных организма принадлежат одному виду:
где - число видов, - относительное обилие вида , - численность, - суммарная численность. Значение меняется от (при абсолютном равенстве обилий) до 1 (доминирование одного вида).
Для конечных выборок Симпсон дал несмещённую версию:
Эта запись предпочтительна в полевой работе: она не требует вычисления относительных долей и корректирует смещение при малых .

Производные меры: 1-D и 1/D
Поскольку растёт при снижении разнообразия, экологи чаще используют производные, которые ведут себя интуитивно:
- Индекс Симпсона разнообразия (Simpson Diversity Index): . Принимает значения от 0 (один вид) до (максимальное равенство). Интерпретация: вероятность того, что два случайно выбранных организма принадлежат разным видам.
- Обратный индекс Симпсона (Simpson's Reciprocal Index): . Минимум = 1 (один вид), максимум = (полное равенство). Единицы этого значения удобно читать: «эффективное число видов» - сколько видов с равным обилием давали бы то же .
Обратный индекс - наиболее интерпретируемая форма: его можно сравнивать между сообществами напрямую как «число экологически равнозначных видов».
Пример расчёта для сообщества из пяти видов с численностями , :
Тогда и . Это означает: вероятность случайного совпадения двух организмов по виду около 31%, а «эффективное число видов» - лишь 3,2 из 5 реальных, что говорит о заметном неравенстве обилий.
Сравнение с индексом Шеннона
Индекс Шеннона-Уинера тоже часто используют для оценки разнообразия:
Различия принципиальны:
| Свойство | Индекс Симпсона (1-D) | Индекс Шеннона (H') |
|---|---|---|
| Основа | Вероятность совпадения | Информационная энтропия |
| Чувствительность | К доминирующим видам | К редким видам |
| Диапазон | 0 - 1 | 0 - ln S |
| Единицы | Безразмерный | Бит/нат |
На практике: если вас интересует устойчивость сообщества к утрате доминантов - берите Симпсона; если важно уловить присутствие редких видов - Шеннона. При оценке альфа-разнообразия в охраняемых территориях обычно отчитываются обоими.
Биологический смысл: чувствительность к доминированию
Самое важное свойство : он квадратично взвешивает обилия. Это значит, что вид с долей 0,5 вносит в вклад , а два редких вида по 0,05 вместе всего . Девяносто семь процентов чувствительности приходится на самые обильные виды.
Следствие: если в луговом сообществе появился один доминирующий злак, индекс Симпсона отреагирует резко - даже если число видов не изменилось. Это делает его хорошим индикатором ранних стадий деградации сообщества, когда ещё не произошло вымирание видов, но началось перераспределение структуры в пользу одного доминанта.
Именно квадратичное взвешивание делает подходящим для задач экологического мониторинга типа «есть ли признаки нарушения структуры?». Если с прошлого года на участке снизился с 0,82 до 0,67 при том же числе видов - это сигнал опасного усиления доминирования, который надо исследовать дальше.

Применение в полевых исследованиях
Индекс Симпсона применяется в:
- Мониторинге биоразнообразия заповедников и буферных зон (стандарт CBD, метрика альфа-разнообразия).
- Оценке восстановления экосистем после нарушений: рост во времени сигнализирует о сукцессии от доминантного к сбалансированному сообществу.
- Сравнении местообитаний (луг vs. лес vs. опушка) при равных площадях выборки.
- Микробиомных исследованиях: OTU-таблицы 16S-ампликонного секвенирования анализируются в R-пакете
veganфункциейdiversity(x, index = "simpson"). - Паразитологии и медицинской экологии: разнообразие паразитофауны хозяев описывается теми же мерами; снижение кишечного микробиома ассоциируют с воспалительными заболеваниями кишечника.
В трофических каскадах индекс Симпсона нижнего трофического уровня служит предиктором устойчивости всей цепи: чем выше продуцентов, тем сложнее хищнику создать «бутылочное горлышко».
Конкретный пример полевого применения: при мониторинге восстановления луга после пожара учётные площадки исследуются ежегодно. В первый год после пожара (монодоминирование пожарного злака); к пятому году (несколько содоминантов). Это объективный показатель успеха восстановления, не зависящий от субъективной оценки «выглядит зелёным».
При выборке менее 50 особей всегда используйте несмещённую формулу с $n_i(n_i-1)$, а не квадраты долей $p_i^2$ - иначе D будет систематически занижен.
Расчёт в R и Python
В R самый быстрый способ через пакет vegan:
library(vegan) # x - вектор численностей видов diversity(x, index = "simpson") # возвращает 1-D diversity(x, index = "invsimpson") # возвращает 1/D
Обратите внимание: diversity(x, index = "simpson") возвращает , а не сам - исторически сложившееся соглашение пакета, которое регулярно путают в лабораторных работах.
В Python через вручную написанную несмещённую формулу:
import numpy as np
def simpson_d(counts):
n = np.array(counts)
N = n.sum()
return (n * (n - 1)).sum() / (N * (N - 1))
counts = [45, 12, 8, 30, 5]
D = simpson_d(counts)
print(f"D = {D:.3f}, 1-D = {1-D:.3f}, 1/D = {1/D:.3f}")
Для работы с матрицами образцов (несколько участков одновременно) используют numpy с axis параметрами или pandas-транспонирование перед передачей в vegan-аналог skbio.diversity.alpha_diversity("simpson", ...) в Python (пакет scikit-bio).
Частые ошибки
- Путают и : при росте разнообразия убывает, растёт. Всегда указывайте, какую именно форму вы сообщаете.
- Используют при малой выборке: для выборок менее 100 особей несмещённая версия с обязательна.
- Сравнивают сообщества с разными размерами выборки без рарефакции: при оценки систематически смещены даже при одинаковой истинной структуре.
- Игнорируют функциональное разнообразие: высокое по видам не означает функционального богатства, если все виды одной гильдии (например, только злаки).
- Трактуют индекс как «процент видов»: - это не «85% видов», а вероятность, что два случайных организма разных видов.
FAQ
Чем отличается альфа- от бета-разнообразия и где здесь Симпсон? Альфа-разнообразие - внутри одного местообитания (участка выборки); именно его измеряет . Бета-разнообразие - различия между участками (меры Жаккара, Серенсена). В логистических моделях популяций альфа-разнообразие связывают с вместимостью среды .
Можно ли применять индекс к данным секвенирования?
Да, но нужна рарефакция или нормализация глубины прочтений. Пакет vegan делает рарефакцию автоматически через rarefy; после неё diversity(rarefied, "invsimpson") корректен.
Какое значение считается «хорошим» разнообразием? Нет универсального порога: это зависит от типа экосистемы. Для умеренных лугов типично ; для боров - уже высокое значение. Сравнивать нужно однотипные сообщества.
Коротко
Индекс Симпсона измеряет вероятность случайного совпадения двух организмов по виду; чем она выше, тем ниже разнообразие. На практике используют производные (вероятность различия, 0 до 1) и (эффективное число видов). Индекс квадратично чувствителен к доминантам и плохо реагирует на редкие виды - в отличие от индекса Шеннона. Для полевых выборок обязательна несмещённая форма через . Широко применяется в мониторинге биоразнообразия, оценке сукцессии и микробиомных исследованиях через пакет vegan.
Читайте также

230 пространственных групп симметрии: откуда берётся число
230 пространственных групп симметрии в кристаллографии: как из 32 точечных групп, 14 решёток Браве и трансляций получается ровно 230 групп Фёдорова, и зачем это нужно.

Декогеренция квантовой системы: как теряется суперпозиция
Декогеренция квантовой системы простыми словами: почему суперпозиция разрушается при взаимодействии со средой, как считать время декогеренции и чем она отличается от коллапса волновой функции.

Эффект Мейснера-Оксенфельда: вытеснение поля
Эффект Мейснера-Оксенфельда: как сверхпроводник выталкивает магнитное поле при переходе ниже критической температуры, чем он отличается от идеального проводника и при чём здесь глубина Лондона.