Группировка статистических данных: интервалы и ряды

Группировка статистических данных по интервалам - это первый шаг при анализе любой числовой выборки: она сжимает сотни наблюдений в компактный вариационный ряд, из которого уже рассчитываются средние, дисперсия и квантили. Без правильного разбиения на классы все последующие вычисления теряют смысл. Ниже - алгоритм построения интервального ряда с формулами и разбором типичных ошибок.
Зачем нужна группировка данных
Когда выборка содержит десятки или сотни значений, работать с «сырым» массивом неудобно: сложно увидеть закономерность, трудно рассчитать среднее по взвешенной формуле. Группировка решает три задачи разом.
Во-первых, она сжимает информацию: вместо 200 отдельных чисел получаем 8-10 групп с частотами. Во-вторых, она обнажает распределение: по частотам и накопленным частотам видно, где сосредоточена масса значений и есть ли выбросы. В-третьих, она стандартизирует вычисления: средняя величина интервального ряда, коэффициент вариации и другие характеристики считаются по унифицированным формулам.
Различают два вида группировки: дискретную (для целых или точечных значений) и интервальную (для непрерывных или широко разбросанных признаков). На практике при объёме выборки и широком диапазоне значений используют именно интервальный ряд.
Шаг 1 - определить число интервалов
Ключевой вопрос: сколько классов выбрать? Мало групп - теряется детализация; много - каждый интервал содержит 1-2 наблюдения, частоты дробятся и закономерность пропадает.
Самый распространённый критерий - формула Стёрджесса:
где - объём выборки, округляется до целого. При получаем ; при - .
Альтернатива - правило квадратного корня: (округлить). Оно даёт несколько больше групп, но проще в расчёте. На практике число интервалов выбирают в диапазоне 5-15: меньше пяти - слишком грубо, больше пятнадцати - теряется наглядность.

Шаг 2 - вычислить ширину интервала
После выбора числа классов ширина каждого интервала вычисляется по формуле:
где и - максимальное и минимальное значения выборки. Полученное обычно округляют вверх до удобного числа (кратного 5 или 10), чтобы границы интервалов были «круглыми» - это упрощает восприятие таблицы.
Пример. Выборка объёмов продаж: от 12 до 87 единиц, . Тогда , округляем до (или до с поправкой на последний класс).
Первая граница первого интервала: берут $x_{\min} - h/2$ (центрирование), чтобы ни одно наблюдение не попало на саму границу. На практике чаще просто начинают с $x_{\min}$ и договариваются, что левая граница включается: $[a_i; a_{i+1})$.
Шаг 3 - построить таблицу частот
Результат группировки оформляется таблицей вариационного (интервального) ряда:
| Интервал | Середина | Частота | Отн. частота | Накопл. частота |
|---|---|---|---|---|
| 17 | 8 | 0,16 | 8 | |
| 27 | 14 | 0,28 | 22 | |
| ... | ... | ... | ... | ... |
Середина интервала - это «представитель» класса в дальнейших вычислениях средней и дисперсии.
Проверка: , (при округлении допустима погрешность ).
После построения такой таблицы можно перейти к расчёту среднего уровня интервального ряда по взвешенной формуле.
Шаг 4 - нарисовать гистограмму
Гистограмма - это столбчатая диаграмма, где по оси X - границы интервалов, по оси Y - частоты или относительные частоты. Каждый столбец примыкает к соседнему (без зазоров): это подчёркивает непрерывность шкалы.

По форме гистограммы сразу видно тип распределения:
- Колоколообразная - близко к нормальному;
- Правосторонний скос - большинство значений в левой части, «хвост» вправо;
- Бимодальная - два пика, вероятно, две смешанные совокупности.
Для дисперсионного анализа важно визуально убедиться в симметричности распределения ещё до расчётов.
Шаг 5 - накопленные частоты и огива
Накопленная частота показывает, сколько наблюдений попало в первые классов. График накопленных частот называется огивой (или кумулятой). По огиве удобно определять медиану и квантили.
Медиана по интервальному ряду:
где - нижняя граница медианного класса (того, где накопленная частота впервые превышает ), - накопленная частота предыдущего класса, - частота медианного класса.
Правила включения границ
Стандартное соглашение в российских учебниках: интервалы левозамкнутые - левая граница включается, правая нет. Исключение - последний интервал: он обычно замкнут с обеих сторон , чтобы максимальное значение попало в выборку.
Если наблюдение точно совпадает с границей между интервалами (кроме последнего), его всегда относят к правому (следующему) классу. Нарушение этого правила ведёт к разным итогам у разных аналитиков при одних и тех же данных.
Открытые и равные интервалы
Иногда первый или последний класс делают открытым: «до 10» или «50 и более». Это оправдано, когда крайние значения единичны и создавать для них отдельный полноценный класс нецелесообразно.
При вычислении средней по интервальному ряду с открытыми классами середину условно принимают равной половине ширины соседнего закрытого интервала: если крайний интервал «до 10» при , то .
Кроме равных интервалов существуют неравные: например, прогрессивно расширяющиеся («до 100», «100-500», «500-2000», «свыше 2000»). Их применяют, когда данные охватывают несколько порядков - в экономике доходов, в анализе размеров предприятий. Гистограмма для неравных интервалов строится по плотности частоты , а не по самим частотам.
Вычисление средней и дисперсии по сгруппированным данным
После построения интервального ряда всё дальнейшее считается через середины классов . Взвешенная арифметическая средняя:
Дисперсия по сгруппированным данным:
Среднее квадратическое отклонение , коэффициент вариации .
Формулы немного отличаются от «поточечных», потому что каждая середина представляет все наблюдения своего класса - это вносит погрешность замены: реальные значения внутри интервала не равны его середине. Чем шире класс, тем больше погрешность. Именно поэтому при слишком малом числе групп точность оценок снижается.
В учебных задачах по эконометрике и математической статистике рекомендуется проверять расчёт в два прохода: сначала составить ряд, затем вычислить , и - и сравнить результат с «поточечной» оценкой, если исходные данные доступны. Расхождение более 5% сигнализирует о слишком крупных интервалах.
Частые ошибки
- Забыть округлить вверх. Если взять теоретическую ширину дробно, последний интервал окажется короче остальных и выйдет за .
- Включить оба конца у всех интервалов. Тогда наблюдение на границе попадёт в два класса сразу - сумма частот превысит .
- Перепутать частоту и плотность частоты при неравных интервалах: столбцы гистограммы будут пропорциональны площади, а не высоте.
- Начать первый интервал с нуля при . Это создаёт пустые классы и искажает форму распределения.
- Слишком мало групп (2-3 при ): всё сводится к «ниже среднего / выше среднего», теряется любая структура распределения.
FAQ
Нужно ли использовать именно формулу Стёрджесса? Нет, это рекомендация, а не жёсткое требование. В эконометрике часто используют или выбирают вручную, исходя из содержательного смысла данных. Главное - обоснованность выбора.
Что делать, если интервалы получаются неудобными числами? Округлять ширину вверх до кратного 5 или 10, при необходимости сдвигать левую границу первого интервала вниз до ближайшего «круглого» числа.
Как связаны интервальный ряд и коэффициент вариации? Коэффициент вариации рассчитывается из дисперсии и средней, которые вычисляются по взвешенным формулам именно через середины интервалов . Без корректной группировки все производные характеристики будут смещены.
Коротко
Группировка статистических данных по интервалам включает четыре ключевых шага: выбрать число классов (формула Стёрджесса или правило ), рассчитать ширину интервала , составить таблицу частот с серединами классов и накопленными частотами, построить гистограмму. Стандартное соглашение - левозамкнутые интервалы . По полученному ряду рассчитываются средняя, медиана, дисперсия и квантили; гистограмма сразу показывает тип распределения.
Читайте также

Формула Стёрджесса: число групп при группировке данных
Формула Стёрджесса для числа групп k = 1 + 3,322 lg n: вывод из log2, ограничения, альтернативы (Rice, Doane), пошаговый расчёт с примерами из эконометрики.

Расчёт средней по интервальному ряду: пошагово
Как найти среднюю по интервальному ряду распределения: формула средней взвешенной, выбор середины интервала, открытые интервалы, примеры расчёта и типичные ошибки.

Средний уровень интервального ряда: формула и расчёт
Как найти средний уровень интервального ряда: формула взвешенной средней через середины интервалов, расчётная таблица, примеры задач на зарплату и баллы, частые ошибки.