Генеральная совокупность и выборка в статистике

Когда нужно узнать средний рост студентов вуза, долю бракованных деталей на заводе или мнение избирателей, измерить каждого невозможно: объектов слишком много, а иногда проверка ещё и разрушает изделие. Поэтому статистика работает не со всем массивом данных, а с его частью. Всё множество объектов, которые нас интересуют, называют генеральной совокупностью, а отобранную для изучения часть - выборкой. По выборке оценивают характеристики всей совокупности и обязательно указывают, насколько точна такая оценка. Ниже разберём оба понятия, виды выборок и то, как из нескольких чисел получить вывод о тысячах. Калькулятор сразу покажет, как выборочное среднее оценивает генеральное и какова погрешность.
Что такое генеральная совокупность
Генеральная совокупность - это полное множество всех объектов (наблюдений, единиц), обладающих изучаемым признаком, относительно которого мы хотим сделать вывод. Если исследуем рост первокурсников конкретного вуза, генеральная совокупность - это все первокурсники этого вуза. Если изучаем срок службы лампочек с конвейера - все лампочки, которые этот конвейер выпускает и ещё выпустит.
Объём генеральной совокупности обозначают . Совокупность бывает конечной (студенты вуза в этом году) и бесконечной либо гипотетической (все возможные результаты измерения прибором, все будущие изделия). Числовые характеристики генеральной совокупности называют параметрами и обозначают греческими буквами: генеральное среднее , генеральная дисперсия , генеральная доля . Эти величины обычно неизвестны - их-то мы и оцениваем.
Что такое выборка
Выборка - это часть объектов генеральной совокупности, отобранная для непосредственного изучения. Её объём обозначают , и почти всегда . Характеристики, посчитанные по выборке, называют статистиками или выборочными оценками: выборочное среднее , выборочная дисперсия , выборочная доля .
Ключевая идея математической статистики: статистика выборки служит оценкой соответствующего параметра генеральной совокупности. Выборочное среднее оценивает генеральное среднее , выборочная доля оценивает . Выборка работает как окно: глядя в небольшую часть, мы судим обо всём множестве - но с неизбежной погрешностью, которую тоже нужно уметь считать.

Зачем нужна выборка
Сплошное обследование всей генеральной совокупности (перепись) применяют редко, и причин для выборочного метода несколько:
- Размер. Совокупность бывает огромной или бесконечной - измерить каждый объект физически невозможно.
- Стоимость и время. Опросить тысячу человек дешевле и быстрее, чем миллион, а точность при грамотной выборке падает несильно.
- Разрушающий контроль. Проверка прочности на разрыв, срока службы, вкуса уничтожает изделие - испытать всю партию нельзя по определению.
- Недоступность. Часть генеральной совокупности относится к будущему (ещё не выпущенные детали) и просто не существует на момент измерения.
Поэтому выборочный метод - не вынужденный компромисс, а основной инструмент: правильно собранная выборка даёт обоснованный вывод о совокупности при разумных затратах.
Репрезентативность выборки
Главное требование к выборке - репрезентативность: выборка должна правильно представлять структуру генеральной совокупности, то есть быть её уменьшенной копией по интересующим признакам. Нерепрезентативная выборка даёт смещённую оценку, и никакая математика этого уже не исправит.
Классический пример провала - опрос журнала Literary Digest 1936 года: выборку набрали по телефонным справочникам и спискам автовладельцев, то есть из обеспеченных людей, и прогноз выборов оказался грубо ошибочным. Причина - систематическая ошибка отбора: часть совокупности заведомо не попадала в выборку.
Большой объём выборки не спасает от нерепрезентативности. Миллион ответов от смещённой аудитории хуже тысячи ответов от случайной: размер уменьшает случайную ошибку, но не систематическую.
Репрезентативность обеспечивается случайностью отбора: у каждого объекта генеральной совокупности должен быть известный (в простейшем случае равный) шанс попасть в выборку. Тогда выборочные оценки несмещённые, а погрешность поддаётся расчёту.
Виды выборок
Способ отбора объектов определяет вид выборки. Основные схемы вероятностного (случайного) отбора:

- Собственно-случайная - объекты отбирают полностью наугад, например по таблице случайных чисел или жребию. Бывает повторной (объект возвращается) и бесповторной.
- Механическая (систематическая) - совокупность упорядочивают и берут каждый -й объект (каждого десятого студента из списка). Проста в исполнении, но опасна при скрытой периодичности данных.
- Типическая (стратифицированная) - совокупность делят на однородные группы (страты): по полу, курсу, региону, - и из каждой берут случайную подвыборку. Повышает точность, если группы внутри однородны.
- Серийная (гнездовая) - случайно отбирают не отдельные объекты, а целые группы (классы, бригады) и обследуют их целиком. Удобна организационно, но обычно менее точна.
Кроме вероятностных есть невероятностные выборки (квотная, стихийная, метод снежного кома) - они дешевле, но не позволяют строго оценить погрешность и легко дают смещение.
Как выборка оценивает генеральную совокупность
Перейдём к расчётам. По выборке вычисляют точечные оценки параметров. Выборочное среднее - оценка генерального среднего :
Несмещённая выборочная дисперсия (с делителем , а не ) оценивает :
Делитель (число степеней свободы) убирает систематическое занижение разброса: по самой выборке мы уже «потратили» одну степень свободы на оценку среднего. Эта же несмещённая дисперсия лежит в основе коэффициента вариации выборки, который показывает относительную однородность данных.
Стандартная ошибка и доверительный интервал
Выборочное среднее - лишь одно число, точечная оценка. От выборки к выборке оно колеблется вокруг истинного . Меру этого колебания даёт стандартная ошибка среднего:
Из формулы видны два рычага точности: чем меньше разброс в совокупности и чем больше объём выборки , тем меньше ошибка. Но растёт точность как - чтобы вдвое сузить ошибку, выборку нужно увеличить вчетверо.
Точечную оценку дополняют доверительным интервалом - диапазоном, который с заданной надёжностью (обычно 95%) накрывает неизвестное :
При большом объёме для 95% берут (квантиль нормального распределения), при малом - коэффициент Стьюдента. Величину называют предельной ошибкой выборки.

Правильная трактовка такова: при многократном повторении выборок 95% построенных интервалов накроют истинное . Это инструмент той же логики, что и достаточная статистика - выжать из выборки максимум информации о параметре совокупности.
Объём выборки
Частая задача - заранее найти нужный , чтобы уложиться в предельную ошибку . Из условия получаем:
Для оценки доли при неизвестном берут самый осторожный случай :
Отсюда видно, что для удвоения точности нужен учетверённый объём, а от размера самой генеральной совокупности необходимый почти не зависит (при от десятков тысяч и выше) - это контринтуитивный, но важный факт.
Частые ошибки
- Путают параметр и статистику. , , - генеральные параметры (неизвестны); , , - выборочные оценки. Писать «генеральное среднее равно » неверно: лишь оценивает .
- Делят дисперсию на вместо . Для выборочной (несмещённой) дисперсии делитель - . Деление на даёт смещённую вниз оценку разброса.
- Считают большой объём гарантией качества. Без случайного отбора большая выборка лишь точнее воспроизводит смещение.
- Забывают про погрешность. Точечная оценка без доверительного интервала или предельной ошибки бессодержательна: непонятно, насколько ей можно верить.
- Игнорируют репрезентативность. Удобная, но смещённая выборка (только добровольцы, только доступные объекты) ломает любые дальнейшие выводы.
FAQ
Чем выборочное среднее отличается от генерального? Генеральное среднее - истинная характеристика всей совокупности, обычно неизвестная. Выборочное среднее считается по конкретной выборке и служит оценкой . Они совпадают лишь в среднем по всем возможным выборкам, а в каждой отдельной - различаются на случайную ошибку.
Какой минимальный объём выборки достаточен? Универсального числа нет: зависит от требуемой точности , разброса и надёжности. Формула даёт конкретное значение. Эмпирическое правило обеспечивает приближение к нормальному распределению среднего по центральной предельной теореме, но не заменяет расчёт.
Можно ли по выборке узнать параметр точно? Нет. Выборка даёт оценку с погрешностью; абсолютную точность дало бы только сплошное обследование всей генеральной совокупности. Зато выборка позволяет указать доверительный интервал - диапазон, в котором параметр лежит с заданной надёжностью.
Коротко
Генеральная совокупность - это всё множество интересующих объектов с параметрами , , ; выборка - отобранная часть объёмом со статистиками , , , которые оценивают эти параметры. Чтобы вывод был корректным, выборка должна быть репрезентативной (случайный отбор), а оценку всегда сопровождают стандартной ошибкой и доверительным интервалом. Объём выборки подбирают по требуемой точности, а не по размеру совокупности.
Читайте также

Доверительный интервал коэффициента регрессии: расчёт
Как рассчитать доверительный интервал коэффициента регрессии: формула через стандартную ошибку и критическое значение Стьюдента, пример вычисления и проверка значимости.

Коэффициент вариации выборки: формула и расчёт
Коэффициент вариации выборки простыми словами: формула через среднее и стандартное отклонение, пошаговый расчёт в процентах, порог однородности 33% и где студенты ошибаются в задачах по статистике.

Распределение Стьюдента: роль степеней свободы
Распределение Стьюдента и его степени свободы: что такое параметр df, как он меняет форму t-распределения, как считать критические значения и применять в t-тестах и доверительных интервалах.