EssayAI
Блог
Блог
Математика и алгоритмы

Генеральная совокупность и выборка в статистике

19 июня 2026Время чтения: 8 минут
#генеральная совокупность#выборка#репрезентативность#выборочное среднее#доверительный интервал
Генеральная совокупность и выборка в статистике

Когда нужно узнать средний рост студентов вуза, долю бракованных деталей на заводе или мнение избирателей, измерить каждого невозможно: объектов слишком много, а иногда проверка ещё и разрушает изделие. Поэтому статистика работает не со всем массивом данных, а с его частью. Всё множество объектов, которые нас интересуют, называют генеральной совокупностью, а отобранную для изучения часть - выборкой. По выборке оценивают характеристики всей совокупности и обязательно указывают, насколько точна такая оценка. Ниже разберём оба понятия, виды выборок и то, как из нескольких чисел получить вывод о тысячах. Калькулятор сразу покажет, как выборочное среднее оценивает генеральное и какова погрешность.

Что такое генеральная совокупность

Генеральная совокупность - это полное множество всех объектов (наблюдений, единиц), обладающих изучаемым признаком, относительно которого мы хотим сделать вывод. Если исследуем рост первокурсников конкретного вуза, генеральная совокупность - это все первокурсники этого вуза. Если изучаем срок службы лампочек с конвейера - все лампочки, которые этот конвейер выпускает и ещё выпустит.

Объём генеральной совокупности обозначают NN. Совокупность бывает конечной (студенты вуза в этом году) и бесконечной либо гипотетической (все возможные результаты измерения прибором, все будущие изделия). Числовые характеристики генеральной совокупности называют параметрами и обозначают греческими буквами: генеральное среднее μ\mu, генеральная дисперсия σ2\sigma^2, генеральная доля pp. Эти величины обычно неизвестны - их-то мы и оцениваем.

Что такое выборка

Выборка - это часть объектов генеральной совокупности, отобранная для непосредственного изучения. Её объём обозначают nn, и почти всегда nNn \ll N. Характеристики, посчитанные по выборке, называют статистиками или выборочными оценками: выборочное среднее xˉ\bar{x}, выборочная дисперсия s2s^2, выборочная доля p^\hat{p}.

Ключевая идея математической статистики: статистика выборки служит оценкой соответствующего параметра генеральной совокупности. Выборочное среднее xˉ\bar{x} оценивает генеральное среднее μ\mu, выборочная доля p^\hat{p} оценивает pp. Выборка работает как окно: глядя в небольшую часть, мы судим обо всём множестве - но с неизбежной погрешностью, которую тоже нужно уметь считать.

Генеральная совокупность как большой круг точек, стрелка к маленькой выборке и оценке параметра по ней
Генеральная совокупность как большой круг точек, стрелка к маленькой выборке и оценке параметра по ней

Зачем нужна выборка

Сплошное обследование всей генеральной совокупности (перепись) применяют редко, и причин для выборочного метода несколько:

  • Размер. Совокупность бывает огромной или бесконечной - измерить каждый объект физически невозможно.
  • Стоимость и время. Опросить тысячу человек дешевле и быстрее, чем миллион, а точность при грамотной выборке падает несильно.
  • Разрушающий контроль. Проверка прочности на разрыв, срока службы, вкуса уничтожает изделие - испытать всю партию нельзя по определению.
  • Недоступность. Часть генеральной совокупности относится к будущему (ещё не выпущенные детали) и просто не существует на момент измерения.

Поэтому выборочный метод - не вынужденный компромисс, а основной инструмент: правильно собранная выборка даёт обоснованный вывод о совокупности при разумных затратах.

Репрезентативность выборки

Главное требование к выборке - репрезентативность: выборка должна правильно представлять структуру генеральной совокупности, то есть быть её уменьшенной копией по интересующим признакам. Нерепрезентативная выборка даёт смещённую оценку, и никакая математика этого уже не исправит.

Классический пример провала - опрос журнала Literary Digest 1936 года: выборку набрали по телефонным справочникам и спискам автовладельцев, то есть из обеспеченных людей, и прогноз выборов оказался грубо ошибочным. Причина - систематическая ошибка отбора: часть совокупности заведомо не попадала в выборку.

Большой объём выборки не спасает от нерепрезентативности. Миллион ответов от смещённой аудитории хуже тысячи ответов от случайной: размер уменьшает случайную ошибку, но не систематическую.

Репрезентативность обеспечивается случайностью отбора: у каждого объекта генеральной совокупности должен быть известный (в простейшем случае равный) шанс попасть в выборку. Тогда выборочные оценки несмещённые, а погрешность поддаётся расчёту.

Виды выборок

Способ отбора объектов определяет вид выборки. Основные схемы вероятностного (случайного) отбора:

Четыре схемы отбора: случайная, механическая, типическая и серийная выборки в виде точечных карточек
Четыре схемы отбора: случайная, механическая, типическая и серийная выборки в виде точечных карточек
  • Собственно-случайная - объекты отбирают полностью наугад, например по таблице случайных чисел или жребию. Бывает повторной (объект возвращается) и бесповторной.
  • Механическая (систематическая) - совокупность упорядочивают и берут каждый kk-й объект (каждого десятого студента из списка). Проста в исполнении, но опасна при скрытой периодичности данных.
  • Типическая (стратифицированная) - совокупность делят на однородные группы (страты): по полу, курсу, региону, - и из каждой берут случайную подвыборку. Повышает точность, если группы внутри однородны.
  • Серийная (гнездовая) - случайно отбирают не отдельные объекты, а целые группы (классы, бригады) и обследуют их целиком. Удобна организационно, но обычно менее точна.

Кроме вероятностных есть невероятностные выборки (квотная, стихийная, метод снежного кома) - они дешевле, но не позволяют строго оценить погрешность и легко дают смещение.

Как выборка оценивает генеральную совокупность

Перейдём к расчётам. По выборке x1,,xnx_1, \dots, x_n вычисляют точечные оценки параметров. Выборочное среднее - оценка генерального среднего μ\mu:

xˉ=1ni=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i

Несмещённая выборочная дисперсия (с делителем n1n-1, а не nn) оценивает σ2\sigma^2:

s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2

Делитель n1n-1 (число степеней свободы) убирает систематическое занижение разброса: по самой выборке мы уже «потратили» одну степень свободы на оценку среднего. Эта же несмещённая дисперсия лежит в основе коэффициента вариации выборки, который показывает относительную однородность данных.

Стандартная ошибка и доверительный интервал

Выборочное среднее xˉ\bar{x} - лишь одно число, точечная оценка. От выборки к выборке оно колеблется вокруг истинного μ\mu. Меру этого колебания даёт стандартная ошибка среднего:

SE=snSE = \frac{s}{\sqrt{n}}

Из формулы видны два рычага точности: чем меньше разброс ss в совокупности и чем больше объём выборки nn, тем меньше ошибка. Но растёт точность как n\sqrt{n} - чтобы вдвое сузить ошибку, выборку нужно увеличить вчетверо.

Точечную оценку дополняют доверительным интервалом - диапазоном, который с заданной надёжностью (обычно 95%) накрывает неизвестное μ\mu:

xˉtSE  μ  xˉ+tSE\bar{x} - t\cdot SE \ \le\ \mu\ \le\ \bar{x} + t\cdot SE

При большом объёме для 95% берут t1,96t \approx 1{,}96 (квантиль нормального распределения), при малом nn - коэффициент Стьюдента. Величину tSEt\cdot SE называют предельной ошибкой выборки.

Числовая шкала с золотой точечной оценкой и красным доверительным интервалом вокруг неё
Числовая шкала с золотой точечной оценкой и красным доверительным интервалом вокруг неё

Правильная трактовка такова: при многократном повторении выборок 95% построенных интервалов накроют истинное μ\mu. Это инструмент той же логики, что и достаточная статистика - выжать из выборки максимум информации о параметре совокупности.

Объём выборки

Частая задача - заранее найти нужный nn, чтобы уложиться в предельную ошибку Δ\Delta. Из условия tσ/nΔt\cdot \sigma/\sqrt{n} \le \Delta получаем:

nt2σ2Δ2n \ge \frac{t^2\,\sigma^2}{\Delta^2}

Для оценки доли pp при неизвестном pp берут самый осторожный случай p=0,5p = 0{,}5:

nt2p(1p)Δ2n \ge \frac{t^2\,p(1-p)}{\Delta^2}

Отсюда видно, что для удвоения точности нужен учетверённый объём, а от размера самой генеральной совокупности NN необходимый nn почти не зависит (при NN от десятков тысяч и выше) - это контринтуитивный, но важный факт.

Частые ошибки

  • Путают параметр и статистику. μ\mu, σ\sigma, pp - генеральные параметры (неизвестны); xˉ\bar{x}, ss, p^\hat{p} - выборочные оценки. Писать «генеральное среднее равно xˉ\bar{x}» неверно: xˉ\bar{x} лишь оценивает μ\mu.
  • Делят дисперсию на nn вместо n1n-1. Для выборочной (несмещённой) дисперсии делитель - n1n-1. Деление на nn даёт смещённую вниз оценку разброса.
  • Считают большой объём гарантией качества. Без случайного отбора большая выборка лишь точнее воспроизводит смещение.
  • Забывают про погрешность. Точечная оценка без доверительного интервала или предельной ошибки бессодержательна: непонятно, насколько ей можно верить.
  • Игнорируют репрезентативность. Удобная, но смещённая выборка (только добровольцы, только доступные объекты) ломает любые дальнейшие выводы.

FAQ

Чем выборочное среднее отличается от генерального? Генеральное среднее μ\mu - истинная характеристика всей совокупности, обычно неизвестная. Выборочное среднее xˉ\bar{x} считается по конкретной выборке и служит оценкой μ\mu. Они совпадают лишь в среднем по всем возможным выборкам, а в каждой отдельной - различаются на случайную ошибку.

Какой минимальный объём выборки достаточен? Универсального числа нет: nn зависит от требуемой точности Δ\Delta, разброса σ\sigma и надёжности. Формула nt2σ2/Δ2n \ge t^2\sigma^2/\Delta^2 даёт конкретное значение. Эмпирическое правило n30n \ge 30 обеспечивает приближение к нормальному распределению среднего по центральной предельной теореме, но не заменяет расчёт.

Можно ли по выборке узнать параметр точно? Нет. Выборка даёт оценку с погрешностью; абсолютную точность дало бы только сплошное обследование всей генеральной совокупности. Зато выборка позволяет указать доверительный интервал - диапазон, в котором параметр лежит с заданной надёжностью.

Коротко

Генеральная совокупность - это всё множество интересующих объектов с параметрами μ\mu, σ\sigma, pp; выборка - отобранная часть объёмом nn со статистиками xˉ\bar{x}, ss, p^\hat{p}, которые оценивают эти параметры. Чтобы вывод был корректным, выборка должна быть репрезентативной (случайный отбор), а оценку всегда сопровождают стандартной ошибкой SE=s/nSE = s/\sqrt{n} и доверительным интервалом. Объём выборки подбирают по требуемой точности, а не по размеру совокупности.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также