Расчёт средней по интервальному ряду: пошагово

Когда данные сгруппированы в интервалы (например, зарплаты разбиты на «10–20 тыс.», «20–30 тыс.» и так далее), исходных значений у нас уже нет - есть только границы интервалов и частоты. Чтобы найти среднюю по интервальному ряду, каждый интервал заменяют одним числом - его серединой, а затем считают среднюю взвешенную, где весами служат частоты. Ниже разберём формулу, выбор середины, случай открытых интервалов и пройдём полный численный пример. Чтобы быстро прикинуть результат на своих данных, воспользуйтесь калькулятором ниже.
Формула средней взвешенной для интервального ряда
Расчёт средней по интервальному ряду строится на средней арифметической взвешенной. Если - середина -го интервала, а - его частота, то средняя равна:
Числитель - сумма произведений «середина на частоту», знаменатель - общая численность совокупности (сумма всех частот, то есть объём выборки ). По сути мы взвешиваем середины интервалов их частотами: чем больше наблюдений попало в интервал, тем сильнее его середина тянет среднюю на себя.

Формула одинаково работает и с абсолютными частотами , и с относительными (долями) , тогда , потому что сумма долей равна единице. Если вы только формируете интервалы из «сырых» наблюдений, начните с шага группировки статистических данных в интервалы - корректные границы определяют всё последующее.
Как найти середину интервала
Главная идея метода: внутри интервала значения распределены условно равномерно, поэтому представителем всего интервала берут его середину - полусумму нижней и верхней границ:
Например, для интервала «20–30» середина равна . Эту середину и подставляют в формулу средней взвешенной вместо реальных значений, которые попали в интервал.

Важно следить за тем, как заданы границы. Если интервалы записаны как «20–30», «30–40», граница 30 формально принадлежит обоим, но на расчёт середины это не влияет: всё равно равна 25 и 35. А вот при дискретных границах вида «20–29», «30–39» (целочисленные значения) середину аккуратнее считать как , ориентируясь на ширину шага, а не на записанные числа, иначе средняя получится смещённой вниз.
Полный пример расчёта
Пусть распределение рабочих по стажу (лет) задано так: интервал «0–5» - 4 человека, «5–10» - 10, «10–15» - 16, «15–20» - 7, «20–25» - 3. Найдём середины: 2.5, 7.5, 12.5, 17.5, 22.5. Считаем произведения :
Сумма частот . Тогда средняя:
Удобно вести расчёт в таблице из трёх колонок: середина, частота, произведение. Внизу - две суммы, и средняя получается делением одной на другую. Такой формат исключает потерю слагаемых и легко проверяется.
Открытые интервалы
Часто крайние интервалы записаны без одной границы: «до 5», «свыше 25». Это открытые интервалы, и для них середину напрямую не вычислить. Стандартный приём - достроить недостающую границу по ширине соседнего интервала. Если все интервалы по 5 единиц, то «до 5» условно считают «0–5» (середина 2.5), а «свыше 25» - «25–30» (середина 27.5).
Достройка открытого интервала - это допущение. Если крайний интервал содержит много наблюдений или его реальная ширина сильно отличается, средняя получит заметное смещение. В таких случаях честнее указать медиану или работать с исходными данными.
Когда соседние интервалы имеют разную ширину, для открытого берут ширину ближайшего к нему интервала, а не среднюю по всему ряду - так допущение остаётся локальным и наименее искажающим.
Порядок действий при ручном расчёте
Чтобы расчёт средней по интервальному ряду не сбивался, удобно держать в голове фиксированную последовательность шагов. Сначала по каждому интервалу находим середину и выписываем её в отдельную колонку. Затем напротив каждой середины ставим частоту - число наблюдений, попавших в этот интервал. Третьим шагом перемножаем середину на частоту и получаем колонку произведений . Наконец, складываем все произведения в числитель, складываем все частоты в знаменатель и делим одно на другое.
Такой табличный порядок не только удобен, но и защищает от ошибок: пустая клетка сразу видна, а контрольная сумма частот должна совпасть с заявленным объёмом выборки . Если интервалов много, считать лучше в таблице или в калькуляторе выше - там середины и обе суммы пересчитываются автоматически при любом изменении частот, и видно, как средняя смещается вслед за «тяжёлыми» интервалами.
Средняя по интервальному ряду и другие средние
Средняя по интервальному ряду - это всегда приближение: мы заменили реальные значения серединами, поэтому результат отличается от средней, посчитанной по «сырым» данным. Чем уже интервалы и чем равномернее распределение внутри них, тем точнее оценка. На сильно скошенных распределениях (доходы, площади) средняя взвешенная завышается длинным «хвостом», и рядом с ней полезно привести медиану и моду.
Та же логика середин лежит в основе расчёта дисперсии и среднего квадратического отклонения по сгруппированным данным: там вместо в формулу подставляют , снова взвешивая на частоты. То есть аккуратно найденная средняя - это база для всех последующих показателей вариации.
Упрощённый расчёт способом моментов
При больших числах ручной счёт упрощают способом моментов (методом условных отклонений). Выбирают «условный нуль» - середину интервала с наибольшей частотой, и шаг - ширину интервала. Для каждого интервала находят условное отклонение , которое обычно принимает маленькие целые значения . Тогда:
Способ моментов даёт тот же ответ, что и прямая формула, но арифметика становится заметно легче: вместо умножения на крупные середины перемножаем частоты на небольшие целые . Для нашего примера со стажем при и получится ровно те же 11.875 года.
Частые ошибки
- Берут не середину, а границу интервала. В формулу должна идти полусумма границ , а не нижняя или верхняя граница.
- Забывают про открытые интервалы. «До 5» и «свыше 25» нельзя оставить без середины - границу достраивают по ширине соседнего интервала.
- Путают сумму частот с числом интервалов. Знаменатель - это (объём совокупности), а не количество строк таблицы.
- Используют относительные частоты как абсолютные. Если веса заданы долями, делить на не нужно: средняя равна просто .
- Округляют середины слишком грубо. Округление середин до целых на каждом шаге накапливает ошибку - округляйте только итоговую среднюю.
FAQ
Чем середина интервала отличается от его границы? Граница - это конец интервала ( или ), а середина - точка ровно посередине. В расчёт средней подставляют именно середину как представителя всех значений интервала.
Что делать, если интервалы разной ширины? Формула средней взвешенной работает и при неравных интервалах: для каждого считают свою середину и частоту. Осторожность нужна только с гистограммой плотности и при достройке открытых интервалов.
Совпадёт ли результат с реальной средней по исходным данным? Обычно нет - это оценка, ведь мы заменили значения серединами. Совпадение точное только если все наблюдения в каждом интервале симметричны относительно его середины.
Коротко
Расчёт средней по интервальному ряду - это средняя арифметическая взвешенная по серединам интервалов: . Каждый интервал заменяют его серединой , частоты служат весами, открытые интервалы достраивают по ширине соседних. Результат - приближение тем точнее, чем уже интервалы, и основа для последующего расчёта дисперсии и отклонения.
Читайте также

Средний уровень интервального ряда: формула и расчёт
Как найти средний уровень интервального ряда: формула взвешенной средней через середины интервалов, расчётная таблица, примеры задач на зарплату и баллы, частые ошибки.

Группировка статистических данных: интервалы и ряды
Группировка статистических данных по интервалам: как выбрать число классов, ширину интервала по формуле Стёрджесса, построить вариационный ряд и гистограмму.

Мощность статистического критерия: формула и расчёт
Мощность статистического критерия 1-beta: как рассчитать через ошибку II рода, объём выборки и эффект-сайз. Формула для z-теста, целевой порог 80 %, примеры.