EssayAI
Блог
Блог
Гуманитарные науки

Формула Стёрджесса: число групп при группировке данных

17 июня 2026Время чтения: 8 минут
#формула Стёрджесса#число групп#группировка данных#интервальный ряд#эконометрика
Формула Стёрджесса: число групп при группировке данных

Число интервалов - ключевой параметр при построении интервального ряда: слишком мало групп сглаживают распределение до неузнаваемости, слишком много делают каждый столбец гистограммы пустым. Формула Стёрджесса даёт стартовую оценку kk по объёму выборки nn - это минимум, который нужно знать при любой группировке данных.

Что такое формула Стёрджесса

Герберт Стёрджесс опубликовал своё правило в 1926 году. Идея - число групп kk должно так соотноситься с объёмом выборки nn, чтобы каждый класс содержал в среднем не менее одного-двух наблюдений и при этом число групп не было избыточным.

Формула:

k=1+3,322lgnk = 1 + 3{,}322 \cdot \lg n

где lgn\lg n - десятичный логарифм объёма выборки, а результат округляется до ближайшего целого.

Практические значения:

nnlgn\lg nkk (точно)kk (округл.)
101,0004,324
201,3015,325
501,6996,657
1002,0007,648
2002,3018,649
5002,6999,9610
10003,00010,9711

Коэффициент 3,322 - не магическое число, а log2(10)3,322\log_2(10) \approx 3,322. Это означает, что на самом деле формула записывается через двоичный логарифм:

k=1+log2nk = 1 + \log_2 n

Откуда берётся эта формула

Стёрджесс рассуждал так: если данные нормально распределены, оптимальная гистограмма должна «схватить» форму кривой, не теряя детализации. Он опирался на аналогию с биномиальным распределением: при kk группах для нормально распределённой переменной оптимально, чтобы 2k1n2^{k-1} \approx n. Отсюда k1=log2nk - 1 = \log_2 n, то есть k=1+log2nk = 1 + \log_2 n.

Переход к десятичному логарифму - лишь удобство: log2n=lgn/lg2=lgn3,322\log_2 n = \lg n / \lg 2 = \lg n \cdot 3{,}322.

Запомнить коэффициент просто: $1/\lg 2 \approx 3{,}32$. Либо сразу пользоваться двоичным логарифмом и не умножать.

Зависимость числа групп от объёма выборки по формуле Стёрджесса
Зависимость числа групп от объёма выборки по формуле Стёрджесса

Пошаговый расчёт

Пример. Данные о доходах 80 домохозяйств (эконометрика, практикум). Нужно построить интервальный ряд.

Шаг 1. Считаем число групп:

k=1+3,322lg80=1+3,3221,903=1+6,327k = 1 + 3{,}322 \cdot \lg 80 = 1 + 3{,}322 \cdot 1{,}903 = 1 + 6{,}32 \approx 7

Шаг 2. Находим размах. Пусть минимальный доход xmin=18000x_{\min} = 18\,000 руб., максимальный xmax=95000x_{\max} = 95\,000 руб. Размах:

R=xmaxxmin=9500018000=77000 руб.R = x_{\max} - x_{\min} = 95\,000 - 18\,000 = 77\,000 \text{ руб.}

Шаг 3. Вычисляем ширину интервала:

h=Rk=77000711000 руб.h = \frac{R}{k} = \frac{77\,000}{7} \approx 11\,000 \text{ руб.}

На практике hh округляют до «удобного» числа - кратного 5000 или 10000. Возьмём h=11000h = 11\,000 руб. и начнём первый интервал с 1800018\,000.

Шаг 4. Строим интервалы: [18;29)[18; 29), [29;40)[29; 40), [40;51)[40; 51), [51;62)[51; 62), [62;73)[62; 73), [73;84)[73; 84), [84;95][84; 95] (в тыс. руб.).

После построения таблицы частот легко перейти к расчёту коэффициента вариации выборки, среднего и дисперсии по взвешенным формулам.

Ограничения формулы Стёрджесса

Формула работает хорошо при нормальном распределении. Но у неё есть важные ограничения:

1. Малые выборки. При n<30n < 30 формула даёт k5,9k \leq 5{,}9. Для n=10n = 10 - всего 4 группы, что почти не имеет смысла. Эконометрики рекомендуют при n<30n < 30 строить точечный ряд или использовать k=nk = \sqrt{n}.

2. Скошенные распределения. Если данные сильно правосторонне или левосторонне скошены (доходы, размеры компаний, цены активов), Стёрджесс «не знает» об этом и даёт одинаковый kk независимо от формы. Поправку вносит формула Доана (см. ниже).

3. Большие выборки. При n>1000n > 1000 число групп по Стёрджессу 11-12. Но для больших массивов часто нужна более тонкая детализация. Правило Скотта и Фридмана-Диакониса дают адаптивную ширину hh, а не число групп kk.

4. Бимодальные и мультимодальные данные. Если в данных два пика, формула Стёрджесса не поможет их «разделить» - это определяется содержательно.

Сравнение формул Стёрджесса и квадратного корня для разных n
Сравнение формул Стёрджесса и квадратного корня для разных n

Альтернативные формулы

В учебниках по эконометрике и статистике используют несколько правил. Вот три основных:

Правило квадратного корня:

k=nk = \sqrt{n}

Проще в расчёте, даёт больше групп при малых nn и меньше при больших по сравнению со Стёрджессом. Популярно в практических руководствах.

Правило Райса (Rice rule):

k=2n3=2n1/3k = 2 \cdot \sqrt[3]{n} = 2n^{1/3}

Оценивает kk через кубический корень. При n=100n = 100 даёт k=24,649k = 2 \cdot 4{,}64 \approx 9 против 8 по Стёрджессу.

Формула Доана (Doane, 1976):

k=1+log2n+log2 ⁣(1+g1σg1)k = 1 + \log_2 n + \log_2\!\left(1 + \frac{|g_1|}{\sigma_{g_1}}\right)

где g1g_1 - коэффициент асимметрии выборки, σg1=6(n2)/((n+1)(n+3))\sigma_{g_1} = \sqrt{6(n-2)/((n+1)(n+3))} - стандартная ошибка асимметрии. Доан модифицировал формулу Стёрджесса для несимметричных данных: чем больше скос, тем больше групп нужно.

В эконометрических пакетах (R, Python, SPSS) по умолчанию используется правило Фридмана-Диакониса (ширина h=2IQRn1/3h = 2 \cdot IQR \cdot n^{-1/3}, где IQRIQR - межквартильный размах), которое устойчиво к выбросам.

Результаты разных формул расходятся на 1-3 группы. В учебной задаче по эконометрике всегда уточняйте, какое правило требует преподаватель. Если не указано - используйте формулу Стёрджесса.

Как связаны k и ширина интервала h

Число групп и ширина интервала связаны через размах:

h=xmaxxminkh = \frac{x_{\max} - x_{\min}}{k}

Чем больше kk, тем уже интервалы - и тем точнее аппроксимируется форма распределения. Но при фиксированном nn рост kk уменьшает среднее число наблюдений в каждом классе nˉi=n/k\bar{n}_i = n/k:

nˉi=nk=n1+log2n\bar{n}_i = \frac{n}{k} = \frac{n}{1 + \log_2 n}

При n=100n = 100 и k=8k = 8 в среднем 12-13 наблюдений на группу - достаточно для устойчивых оценок. При n=20n = 20 и k=5k = 5 - по 4 наблюдения, это уже на грани.

В группировке статистических данных по интервалам подробно разобрано, как использовать полученные kk и hh для построения полного вариационного ряда.

Число групп и точность средней

Важный теоретический момент: группировка вносит погрешность замены - все наблюдения внутри интервала заменяются серединой класса xix_i. Дисперсия этой погрешности по формуле Шеппарда:

Dшепп=h212D_{\text{шепп}} = \frac{h^2}{12}

Из формулы Стёрджесса hR/(1+log2n)h \approx R / (1 + \log_2 n), поэтому при фиксированном размахе RR погрешность снижается с ростом числа групп. Чем больше kk - тем точнее средняя по сгруппированным данным приближает «поточечное» значение.

На практике поправку Шеппарда вносят в учебных задачах редко: при k7k \geq 7 и умеренном RR её влияние на дисперсию составляет доли процента.

Частые ошибки

  • Перепутать lg\lg и ln\ln. Формула использует десятичный логарифм (lg\lg, основание 10), а не натуральный (ln\ln, основание e2,718e \approx 2{,}718). ln1004,61\ln 100 \approx 4{,}61, lg100=2\lg 100 = 2 - разница существенная.
  • Не округлить результат. Формула даёт вещественное число (например, 7,64), которое нужно округлить до целого. Правило: обычно до ближайшего целого; при дробной части ровно 0,5 - в большую сторону.
  • Применять формулу при n<15n < 15. При совсем малых выборках Стёрджесс даёт 4-5 групп, что превращает гистограмму в почти бесполезный столбчатый ряд.
  • Игнорировать скос распределения. Для правосторонних данных (доходы, цены, объёмы сделок) без поправки Доана число групп будет занижено в хвосте.
  • Путать kk и hh. Формула Стёрджесса даёт число групп, а не ширину интервала. Ширина hh считается отдельно через размах.

FAQ

Обязательно ли использовать формулу Стёрджесса в учебной задаче? В большинстве российских учебников по статистике и эконометрике она является стандартом по умолчанию. Если условие задачи не указывает конкретный метод, используйте Стёрджесса. Правило квадратного корня (k=nk = \sqrt{n}) допускается, если это оговорено.

Почему коэффициент 3,322, а не 3,32 или 3,3? Потому что 1/lg2=1/0,301033,3219...1/\lg 2 = 1/0{,}30103 \approx 3{,}3219.... Округление до 3,322 - компромисс между точностью и удобством расчёта. В некоторых учебниках встречается 3,32 или даже 3,3 - это допустимые приближения.

Что делать, если по формуле Стёрджесса вышло 8 групп, а дисперсионный анализ требует 5? Содержательные или методические требования задачи приоритетнее формальных правил. Стёрджесс задаёт нижний порог «разумного» числа групп, но ничто не мешает взять меньше, если это обосновано целями анализа.

Коротко

Формула Стёрджесса k=1+3,322lgnk = 1 + 3{,}322 \cdot \lg n выводится из условия k=1+log2nk = 1 + \log_2 n и даёт оптимальное число групп для нормально распределённых данных. При nn от 20 до 1000 она даёт kk от 5 до 11. Ширина интервала после этого вычисляется как h=(xmaxxmin)/kh = (x_{\max} - x_{\min})/k и округляется вверх. Главные ограничения: не работает для сильно скошенных данных (используйте формулу Доана), ненадёжна при n<30n < 30, при больших n>1000n > 1000 лучше применять правило Фридмана-Диакониса. В учебных задачах по эконометрике - стандарт по умолчанию.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также