Коэффициент вариации выборки: формула и расчёт

Коэффициент вариации выборки - это относительная мера разброса данных: он показывает, насколько велико стандартное отклонение по сравнению со средним значением, и выражается в процентах. В отличие от самого стандартного отклонения, которое зависит от единиц измерения и масштаба, коэффициент вариации безразмерен, поэтому им удобно сравнивать разброс совершенно разных по природе совокупностей - рост и вес, зарплаты и оценки, время и температуру. Ниже разберём формулу, посчитаем коэффициент вариации по шагам, поймём порог однородности 33% и где чаще всего ошибаются в задачах. Чтобы сразу почувствовать связь среднего, разброса и итогового процента, впишите свою выборку в калькулятор ниже - он пересчитает среднее, выборочное стандартное отклонение и коэффициент вариации, а заодно покажет, по какую сторону порога однородности легла ваша совокупность.
Что показывает коэффициент вариации
Коэффициент вариации отвечает на вопрос: большой разброс или маленький относительно того, вокруг чего колеблются данные. Стандартное отклонение в три единицы - это много или мало? Если среднее равно пяти, то это огромный разброс; если среднее равно тысяче, то им можно пренебречь. Именно поэтому абсолютную меру разброса делят на среднее: получается относительная величина, которую можно сравнивать между разными признаками и разными выборками независимо от их единиц измерения и порядка величин.
Из этого следует первое практическое правило: коэффициент вариации имеет смысл только для данных с положительным средним, измеренных в шкале отношений (есть естественный ноль). Для температуры по Цельсию или для оценок относительно среднего по группе его считать нельзя - при среднем, близком к нулю, величина теряет смысл и улетает в бесконечность.
Формула коэффициента вариации
Коэффициент вариации выборки - это отношение выборочного стандартного отклонения к выборочному среднему , умноженное на сто процентов:
Чтобы его посчитать, нужны две предварительные величины. Сначала выборочное среднее - сумма всех значений, делённая на их число:
Затем выборочное стандартное отклонение. Здесь важная деталь: для выборки в знаменателе дисперсии стоит , а не (поправка Бесселя, дающая несмещённую оценку дисперсии генеральной совокупности):
Подставив и в первую формулу, получаем коэффициент вариации. Он всегда выражается в процентах и, в отличие от , не несёт единиц измерения: и для выборки в метрах, и для выборки в рублях будет просто числом процентов.

Геометрически удобно представлять так: проведите линию среднего, отложите вокруг неё коридор шириной в одно стандартное отклонение в каждую сторону. Коэффициент вариации - это во сколько раз половина ширины коридора меньше высоты линии среднего, переведённое в проценты. Узкий коридор у высокой линии - маленький , широкий коридор у низкой линии - большой.
Расчёт по шагам на примере
Возьмём учебную выборку из восьми чисел: 12, 15, 14, 10, 18, 16, 13, 17. Посчитаем коэффициент вариации строго по формуле.
Шаг первый - среднее. Сумма равна , делим на :
Шаг второй - сумма квадратов отклонений от среднего. Для каждого значения берём разность с , возводим в квадрат и складываем; получается . Делим на и извлекаем корень:
Шаг третий - сам коэффициент вариации:
Значение меньше 33%, поэтому выборку считают однородной: разброс невелик по сравнению со средним, и среднее хорошо её описывает. Калькулятор выше собирает ровно эту цепочку - попробуйте заменить одно число на резко выбивающееся и увидите, как сразу перешагивает порог.
Порог однородности 33 процента
В статистике коэффициент вариации используют не только как число, но и как критерий однородности совокупности. Общепринятое правило: если , совокупность считается однородной, а среднее - надёжной характеристикой; если , совокупность неоднородна, и одно лишь среднее описывает её плохо. Иногда выделяют более дробную шкалу: до 10% - слабая вариация, 10-33% - умеренная, свыше 33% - сильная.
Это видно на пресетах калькулятора. Однородная выборка вроде 50, 51, 49, 52, 48, 50, 51, 49 даёт - данные тесно сгруппированы вокруг среднего. А выборка с выбросом, например зарплаты 35, 40, 38, 42, 120, 37, 39, 41, даёт : одно большое значение раздувает стандартное отклонение, среднее перестаёт быть типичным, и совокупность признаётся неоднородной.
Сравнение разброса двух выборок
Главная польза коэффициента вариации - честное сравнение разброса там, где стандартное отклонение обманывает. Пусть у одной выборки среднее и , а у другой среднее и . По стандартному отклонению вторая кажется разбросаннее (). Но коэффициенты вариации говорят обратное: , а . Относительно своего среднего вторая выборка стабильнее. Именно так коэффициент вариации применяют в финансах (сравнение риска активов на единицу доходности), биологии (изменчивость признаков разного масштаба) и контроле качества.
Частые ошибки
- Делитель n вместо n - 1. Для выборки дисперсия считается с делителем . Деление на даёт смещённую оценку и заниженный коэффициент вариации. Делитель берут только для всей генеральной совокупности.
- Забыли умножить на 100%. Коэффициент вариации по определению выражают в процентах. Если оставить голую дробь , получится не процент, а доля, и сравнение с порогом 33% сломается.
- Расчёт при среднем около нуля или отрицательном. При коэффициент вариации улетает в бесконечность и теряет смысл. Для данных с возможным нулевым или отрицательным средним эту меру не применяют.
- Путаница среднего и медианы. В формуле стоит именно среднее арифметическое, а не медиана. Подстановка медианы даёт другую величину, не являющуюся коэффициентом вариации.
- Сравнение V для разных по природе шкал без оговорок. Коэффициент вариации безразмерен, но осмысленно сравнивать его стоит для величин в шкале отношений; для интервальных шкал (температура по Цельсию) вывод будет некорректным.
FAQ
Чему равен коэффициент вариации выборки 12, 15, 14, 10, 18, 16, 13, 17? Среднее равно , выборочное стандартное отклонение , поэтому . Значение меньше 33%, значит, выборка однородна.
Почему в формуле для выборки делят на n - 1, а не на n? Деление на (поправка Бесселя) даёт несмещённую оценку дисперсии генеральной совокупности по выборке: при делении на оценка систематически занижена. На делят, только когда обработана вся совокупность целиком.
Какой коэффициент вариации считается нормальным? Чёткой универсальной нормы нет, но в учебной статистике порогом однородности берут 33%: ниже - совокупность однородна, выше - неоднородна. Часто дополнительно выделяют слабую вариацию до 10% и умеренную 10-33%.
Коротко
Коэффициент вариации выборки - это отношение выборочного стандартного отклонения к среднему в процентах: , где считается с делителем . Он безразмерен и позволяет сравнивать разброс разных по масштабу и единицам данных. Порог 33% делит совокупности на однородные (, среднее надёжно) и неоднородные (, среднее описывает данные плохо). Считать его имеет смысл только при положительном среднем в шкале отношений.
Читайте также

Коэффициент вариации: интерпретация и пороги однородности
Коэффициент вариации интерпретация на примерах: что означают значения до 33 процентов, от 33 до 50 и выше, как читать разброс, сравнивать совокупности и не ошибаться при отрицательном среднем.

Генеральная совокупность и выборка в статистике
Генеральная совокупность и выборка в статистике: чем отличаются, как выборка оценивает параметры всей совокупности, виды выборок, репрезентативность, стандартная ошибка и доверительный интервал.

Мощность статистического критерия: формула и расчёт
Мощность статистического критерия 1-beta: как рассчитать через ошибку II рода, объём выборки и эффект-сайз. Формула для z-теста, целевой порог 80 %, примеры.