Группировка статистических данных: интервалы и ряды

17 июня 2026Время чтения: 8 минут

#группировка данных#интервальный ряд#формула Стёрджесса#вариационный ряд#статистика

Группировка статистических данных по интервалам - это первый шаг при анализе любой числовой выборки: она сжимает сотни наблюдений в компактный вариационный ряд, из которого уже рассчитываются средние, дисперсия и квантили. Без правильного разбиения на классы все последующие вычисления теряют смысл. Ниже - алгоритм построения интервального ряда с формулами и разбором типичных ошибок.

Зачем нужна группировка данных

Когда выборка содержит десятки или сотни значений, работать с «сырым» массивом неудобно: сложно увидеть закономерность, трудно рассчитать среднее по взвешенной формуле. Группировка решает три задачи разом.

Во-первых, она сжимает информацию: вместо 200 отдельных чисел получаем 8-10 групп с частотами. Во-вторых, она обнажает распределение: по частотам и накопленным частотам видно, где сосредоточена масса значений и есть ли выбросы. В-третьих, она стандартизирует вычисления: средняя величина интервального ряда, коэффициент вариации и другие характеристики считаются по унифицированным формулам.

Различают два вида группировки: дискретную (для целых или точечных значений) и интервальную (для непрерывных или широко разбросанных признаков). На практике при объёме выборки $n \geq 20$ и широком диапазоне значений используют именно интервальный ряд.

Шаг 1 - определить число интервалов

Ключевой вопрос: сколько классов выбрать? Мало групп - теряется детализация; много - каждый интервал содержит 1-2 наблюдения, частоты дробятся и закономерность пропадает.

Самый распространённый критерий - формула Стёрджесса:

$k = 1 + 3{,}322 \cdot \lg n$

где $n$ - объём выборки, $k$ округляется до целого. При $n = 50$ получаем $k \approx 1 + 3{,}322 \cdot 1{,}699 \approx 6{,}6 \approx 7$ ; при $n = 100$ - $k \approx 8$ .

Альтернатива - правило квадратного корня: $k = \sqrt{n}$ (округлить). Оно даёт несколько больше групп, но проще в расчёте. На практике число интервалов выбирают в диапазоне 5-15: меньше пяти - слишком грубо, больше пятнадцати - теряется наглядность.

Формула Стёрджесса и выбор числа интервалов

Шаг 2 - вычислить ширину интервала

После выбора числа классов $k$ ширина каждого интервала вычисляется по формуле:

$h = \frac{x_{\max} - x_{\min}}{k}$

где $x_{\max}$ и $x_{\min}$ - максимальное и минимальное значения выборки. Полученное $h$ обычно округляют вверх до удобного числа (кратного 5 или 10), чтобы границы интервалов были «круглыми» - это упрощает восприятие таблицы.

Пример. Выборка объёмов продаж: от 12 до 87 единиц, $n = 50$ . Тогда $k = 7$ , $h = (87 - 12)/7 \approx 10{,}7 \to$ округляем до $11$ (или до $10$ с поправкой на последний класс).

Первая граница первого интервала: берут $x_{\min} - h/2$ (центрирование), чтобы ни одно наблюдение не попало на саму границу. На практике чаще просто начинают с $x_{\min}$ и договариваются, что левая граница включается: $[a_i; a_{i+1})$.

Шаг 3 - построить таблицу частот

Результат группировки оформляется таблицей вариационного (интервального) ряда:

Интервал $[a_i; a_{i+1})$	Середина $x_i$	Частота $n_i$	Отн. частота $w_i$	Накопл. частота $S_i$
$[12; 22)$	17	8	0,16	8
$[22; 32)$	27	14	0,28	22
...	...	...	...	...

Середина интервала $x_i = (a_i + a_{i+1})/2$ - это «представитель» класса в дальнейших вычислениях средней и дисперсии.

Проверка: $\sum n_i = n$ , $\sum w_i = 1$ (при округлении допустима погрешность $\pm 0{,}01$ ).

После построения такой таблицы можно перейти к расчёту среднего уровня интервального ряда по взвешенной формуле.

Шаг 4 - нарисовать гистограмму

Гистограмма - это столбчатая диаграмма, где по оси X - границы интервалов, по оси Y - частоты или относительные частоты. Каждый столбец примыкает к соседнему (без зазоров): это подчёркивает непрерывность шкалы.

По форме гистограммы сразу видно тип распределения:

Колоколообразная - близко к нормальному;
Правосторонний скос - большинство значений в левой части, «хвост» вправо;
Бимодальная - два пика, вероятно, две смешанные совокупности.

Для дисперсионного анализа важно визуально убедиться в симметричности распределения ещё до расчётов.

Шаг 5 - накопленные частоты и огива

Накопленная частота $S_i = \sum_{j=1}^{i} n_j$ показывает, сколько наблюдений попало в первые $i$ классов. График накопленных частот называется огивой (или кумулятой). По огиве удобно определять медиану и квантили.

Медиана по интервальному ряду:

$\text{Me} = a_{\text{Me}} + h \cdot \frac{n/2 - S_{\text{Me}-1}}{n_{\text{Me}}}$

где $a_{\text{Me}}$ - нижняя граница медианного класса (того, где накопленная частота впервые превышает $n/2$ ), $S_{\text{Me}-1}$ - накопленная частота предыдущего класса, $n_{\text{Me}}$ - частота медианного класса.

Правила включения границ

Стандартное соглашение в российских учебниках: интервалы левозамкнутые $[a_i; a_{i+1})$ - левая граница включается, правая нет. Исключение - последний интервал: он обычно замкнут с обеих сторон $[a_k; a_{k+1}]$ , чтобы максимальное значение попало в выборку.

Если наблюдение точно совпадает с границей между интервалами (кроме последнего), его всегда относят к правому (следующему) классу. Нарушение этого правила ведёт к разным итогам у разных аналитиков при одних и тех же данных.

Открытые и равные интервалы

Иногда первый или последний класс делают открытым: «до 10» или «50 и более». Это оправдано, когда крайние значения единичны и создавать для них отдельный полноценный класс нецелесообразно.

При вычислении средней по интервальному ряду с открытыми классами середину условно принимают равной половине ширины соседнего закрытого интервала: если крайний интервал «до 10» при $h = 10$ , то $x_1 = 5$ .

Кроме равных интервалов существуют неравные: например, прогрессивно расширяющиеся («до 100», «100-500», «500-2000», «свыше 2000»). Их применяют, когда данные охватывают несколько порядков - в экономике доходов, в анализе размеров предприятий. Гистограмма для неравных интервалов строится по плотности частоты $d_i = n_i / h_i$ , а не по самим частотам.

Вычисление средней и дисперсии по сгруппированным данным

После построения интервального ряда всё дальнейшее считается через середины классов $x_i$ . Взвешенная арифметическая средняя:

$\bar{x} = \frac{\sum_{i=1}^{k} x_i \cdot n_i}{n}$

Дисперсия по сгруппированным данным:

$D = \frac{\sum_{i=1}^{k} (x_i - \bar{x})^2 \cdot n_i}{n}$

Среднее квадратическое отклонение $\sigma = \sqrt{D}$ , коэффициент вариации $CV = \sigma / \bar{x} \cdot 100\%$ .

Формулы немного отличаются от «поточечных», потому что каждая середина $x_i$ представляет все наблюдения своего класса - это вносит погрешность замены: реальные значения внутри интервала не равны его середине. Чем шире класс, тем больше погрешность. Именно поэтому при слишком малом числе групп точность оценок снижается.

В учебных задачах по эконометрике и математической статистике рекомендуется проверять расчёт в два прохода: сначала составить ряд, затем вычислить $\bar{x}$ , $D$ и $\sigma$ - и сравнить результат с «поточечной» оценкой, если исходные данные доступны. Расхождение более 5% сигнализирует о слишком крупных интервалах.

Частые ошибки

Забыть округлить $h$ вверх. Если взять теоретическую ширину дробно, последний интервал окажется короче остальных и выйдет за $x_{\max}$ .
Включить оба конца у всех интервалов. Тогда наблюдение на границе попадёт в два класса сразу - сумма частот превысит $n$ .
Перепутать частоту и плотность частоты при неравных интервалах: столбцы гистограммы будут пропорциональны площади, а не высоте.
Начать первый интервал с нуля при $x_{\min} \gg 0$ . Это создаёт пустые классы и искажает форму распределения.
Слишком мало групп (2-3 при $n = 100$ ): всё сводится к «ниже среднего / выше среднего», теряется любая структура распределения.

FAQ

Нужно ли использовать именно формулу Стёрджесса? Нет, это рекомендация, а не жёсткое требование. В эконометрике часто используют $k = \sqrt{n}$ или выбирают $k$ вручную, исходя из содержательного смысла данных. Главное - обоснованность выбора.

Что делать, если интервалы получаются неудобными числами? Округлять ширину $h$ вверх до кратного 5 или 10, при необходимости сдвигать левую границу первого интервала вниз до ближайшего «круглого» числа.

Как связаны интервальный ряд и коэффициент вариации? Коэффициент вариации $CV = \sigma / \bar{x}$ рассчитывается из дисперсии и средней, которые вычисляются по взвешенным формулам именно через середины интервалов $x_i$ . Без корректной группировки все производные характеристики будут смещены.

Коротко

Группировка статистических данных по интервалам включает четыре ключевых шага: выбрать число классов $k$ (формула Стёрджесса $k = 1 + 3{,}322 \cdot \lg n$ или правило $k = \sqrt{n}$ ), рассчитать ширину интервала $h = (x_{\max} - x_{\min})/k$ , составить таблицу частот с серединами классов и накопленными частотами, построить гистограмму. Стандартное соглашение - левозамкнутые интервалы $[a_i; a_{i+1})$ . По полученному ряду рассчитываются средняя, медиана, дисперсия и квантили; гистограмма сразу показывает тип распределения.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN