Генеральная совокупность и выборка в статистике

19 июня 2026Время чтения: 8 минут

#генеральная совокупность#выборка#репрезентативность#выборочное среднее#доверительный интервал

Когда нужно узнать средний рост студентов вуза, долю бракованных деталей на заводе или мнение избирателей, измерить каждого невозможно: объектов слишком много, а иногда проверка ещё и разрушает изделие. Поэтому статистика работает не со всем массивом данных, а с его частью. Всё множество объектов, которые нас интересуют, называют генеральной совокупностью, а отобранную для изучения часть - выборкой. По выборке оценивают характеристики всей совокупности и обязательно указывают, насколько точна такая оценка. Ниже разберём оба понятия, виды выборок и то, как из нескольких чисел получить вывод о тысячах. Калькулятор сразу покажет, как выборочное среднее оценивает генеральное и какова погрешность.

Что такое генеральная совокупность

Генеральная совокупность - это полное множество всех объектов (наблюдений, единиц), обладающих изучаемым признаком, относительно которого мы хотим сделать вывод. Если исследуем рост первокурсников конкретного вуза, генеральная совокупность - это все первокурсники этого вуза. Если изучаем срок службы лампочек с конвейера - все лампочки, которые этот конвейер выпускает и ещё выпустит.

Объём генеральной совокупности обозначают $N$ . Совокупность бывает конечной (студенты вуза в этом году) и бесконечной либо гипотетической (все возможные результаты измерения прибором, все будущие изделия). Числовые характеристики генеральной совокупности называют параметрами и обозначают греческими буквами: генеральное среднее $\mu$ , генеральная дисперсия $\sigma^2$ , генеральная доля $p$ . Эти величины обычно неизвестны - их-то мы и оцениваем.

Что такое выборка

Выборка - это часть объектов генеральной совокупности, отобранная для непосредственного изучения. Её объём обозначают $n$ , и почти всегда $n \ll N$ . Характеристики, посчитанные по выборке, называют статистиками или выборочными оценками: выборочное среднее $\bar{x}$ , выборочная дисперсия $s^2$ , выборочная доля $\hat{p}$ .

Ключевая идея математической статистики: статистика выборки служит оценкой соответствующего параметра генеральной совокупности. Выборочное среднее $\bar{x}$ оценивает генеральное среднее $\mu$ , выборочная доля $\hat{p}$ оценивает $p$ . Выборка работает как окно: глядя в небольшую часть, мы судим обо всём множестве - но с неизбежной погрешностью, которую тоже нужно уметь считать.

Генеральная совокупность как большой круг точек, стрелка к маленькой выборке и оценке параметра по ней

Зачем нужна выборка

Сплошное обследование всей генеральной совокупности (перепись) применяют редко, и причин для выборочного метода несколько:

Размер. Совокупность бывает огромной или бесконечной - измерить каждый объект физически невозможно.
Стоимость и время. Опросить тысячу человек дешевле и быстрее, чем миллион, а точность при грамотной выборке падает несильно.
Разрушающий контроль. Проверка прочности на разрыв, срока службы, вкуса уничтожает изделие - испытать всю партию нельзя по определению.
Недоступность. Часть генеральной совокупности относится к будущему (ещё не выпущенные детали) и просто не существует на момент измерения.

Поэтому выборочный метод - не вынужденный компромисс, а основной инструмент: правильно собранная выборка даёт обоснованный вывод о совокупности при разумных затратах.

Репрезентативность выборки

Главное требование к выборке - репрезентативность: выборка должна правильно представлять структуру генеральной совокупности, то есть быть её уменьшенной копией по интересующим признакам. Нерепрезентативная выборка даёт смещённую оценку, и никакая математика этого уже не исправит.

Классический пример провала - опрос журнала Literary Digest 1936 года: выборку набрали по телефонным справочникам и спискам автовладельцев, то есть из обеспеченных людей, и прогноз выборов оказался грубо ошибочным. Причина - систематическая ошибка отбора: часть совокупности заведомо не попадала в выборку.

Большой объём выборки не спасает от нерепрезентативности. Миллион ответов от смещённой аудитории хуже тысячи ответов от случайной: размер уменьшает случайную ошибку, но не систематическую.

Репрезентативность обеспечивается случайностью отбора: у каждого объекта генеральной совокупности должен быть известный (в простейшем случае равный) шанс попасть в выборку. Тогда выборочные оценки несмещённые, а погрешность поддаётся расчёту.

Виды выборок

Способ отбора объектов определяет вид выборки. Основные схемы вероятностного (случайного) отбора:

Четыре схемы отбора: случайная, механическая, типическая и серийная выборки в виде точечных карточек

Собственно-случайная - объекты отбирают полностью наугад, например по таблице случайных чисел или жребию. Бывает повторной (объект возвращается) и бесповторной.
Механическая (систематическая) - совокупность упорядочивают и берут каждый $k$ -й объект (каждого десятого студента из списка). Проста в исполнении, но опасна при скрытой периодичности данных.
Типическая (стратифицированная) - совокупность делят на однородные группы (страты): по полу, курсу, региону, - и из каждой берут случайную подвыборку. Повышает точность, если группы внутри однородны.
Серийная (гнездовая) - случайно отбирают не отдельные объекты, а целые группы (классы, бригады) и обследуют их целиком. Удобна организационно, но обычно менее точна.

Кроме вероятностных есть невероятностные выборки (квотная, стихийная, метод снежного кома) - они дешевле, но не позволяют строго оценить погрешность и легко дают смещение.

Как выборка оценивает генеральную совокупность

Перейдём к расчётам. По выборке $x_1, \dots, x_n$ вычисляют точечные оценки параметров. Выборочное среднее - оценка генерального среднего $\mu$ :

\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i

Несмещённая выборочная дисперсия (с делителем $n-1$ , а не $n$ ) оценивает $\sigma^2$ :

s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2

Делитель $n-1$ (число степеней свободы) убирает систематическое занижение разброса: по самой выборке мы уже «потратили» одну степень свободы на оценку среднего. Эта же несмещённая дисперсия лежит в основе коэффициента вариации выборки, который показывает относительную однородность данных.

Стандартная ошибка и доверительный интервал

Выборочное среднее $\bar{x}$ - лишь одно число, точечная оценка. От выборки к выборке оно колеблется вокруг истинного $\mu$ . Меру этого колебания даёт стандартная ошибка среднего:

SE = \frac{s}{\sqrt{n}}

Из формулы видны два рычага точности: чем меньше разброс $s$ в совокупности и чем больше объём выборки $n$ , тем меньше ошибка. Но растёт точность как $\sqrt{n}$ - чтобы вдвое сузить ошибку, выборку нужно увеличить вчетверо.

Точечную оценку дополняют доверительным интервалом - диапазоном, который с заданной надёжностью (обычно 95%) накрывает неизвестное $\mu$ :

\bar{x} - t\cdot SE \ \le\ \mu\ \le\ \bar{x} + t\cdot SE

При большом объёме для 95% берут $t \approx 1{,}96$ (квантиль нормального распределения), при малом $n$ - коэффициент Стьюдента. Величину $t\cdot SE$ называют предельной ошибкой выборки.

Числовая шкала с золотой точечной оценкой и красным доверительным интервалом вокруг неё

Правильная трактовка такова: при многократном повторении выборок 95% построенных интервалов накроют истинное $\mu$ . Это инструмент той же логики, что и достаточная статистика - выжать из выборки максимум информации о параметре совокупности.

Объём выборки

Частая задача - заранее найти нужный $n$ , чтобы уложиться в предельную ошибку $\Delta$ . Из условия $t\cdot \sigma/\sqrt{n} \le \Delta$ получаем:

n \ge \frac{t^2\,\sigma^2}{\Delta^2}

Для оценки доли $p$ при неизвестном $p$ берут самый осторожный случай $p = 0{,}5$ :

n \ge \frac{t^2\,p(1-p)}{\Delta^2}

Отсюда видно, что для удвоения точности нужен учетверённый объём, а от размера самой генеральной совокупности $N$ необходимый $n$ почти не зависит (при $N$ от десятков тысяч и выше) - это контринтуитивный, но важный факт.

Частые ошибки

Путают параметр и статистику. $\mu$ , $\sigma$ , $p$ - генеральные параметры (неизвестны); $\bar{x}$ , $s$ , $\hat{p}$ - выборочные оценки. Писать «генеральное среднее равно $\bar{x}$ » неверно: $\bar{x}$ лишь оценивает $\mu$ .
Делят дисперсию на $n$ вместо $n-1$ . Для выборочной (несмещённой) дисперсии делитель - $n-1$ . Деление на $n$ даёт смещённую вниз оценку разброса.
Считают большой объём гарантией качества. Без случайного отбора большая выборка лишь точнее воспроизводит смещение.
Забывают про погрешность. Точечная оценка без доверительного интервала или предельной ошибки бессодержательна: непонятно, насколько ей можно верить.
Игнорируют репрезентативность. Удобная, но смещённая выборка (только добровольцы, только доступные объекты) ломает любые дальнейшие выводы.

FAQ

Чем выборочное среднее отличается от генерального? Генеральное среднее $\mu$ - истинная характеристика всей совокупности, обычно неизвестная. Выборочное среднее $\bar{x}$ считается по конкретной выборке и служит оценкой $\mu$ . Они совпадают лишь в среднем по всем возможным выборкам, а в каждой отдельной - различаются на случайную ошибку.

Какой минимальный объём выборки достаточен? Универсального числа нет: $n$ зависит от требуемой точности $\Delta$ , разброса $\sigma$ и надёжности. Формула $n \ge t^2\sigma^2/\Delta^2$ даёт конкретное значение. Эмпирическое правило $n \ge 30$ обеспечивает приближение к нормальному распределению среднего по центральной предельной теореме, но не заменяет расчёт.

Можно ли по выборке узнать параметр точно? Нет. Выборка даёт оценку с погрешностью; абсолютную точность дало бы только сплошное обследование всей генеральной совокупности. Зато выборка позволяет указать доверительный интервал - диапазон, в котором параметр лежит с заданной надёжностью.

Коротко

Генеральная совокупность - это всё множество интересующих объектов с параметрами $\mu$ , $\sigma$ , $p$ ; выборка - отобранная часть объёмом $n$ со статистиками $\bar{x}$ , $s$ , $\hat{p}$ , которые оценивают эти параметры. Чтобы вывод был корректным, выборка должна быть репрезентативной (случайный отбор), а оценку всегда сопровождают стандартной ошибкой $SE = s/\sqrt{n}$ и доверительным интервалом. Объём выборки подбирают по требуемой точности, а не по размеру совокупности.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN