Распределение Стьюдента степени свободы: как они задают форму

Когда выборка мала, а дисперсия генеральной совокупности неизвестна, нормальное распределение перестаёт корректно описывать поведение выборочного среднего. На помощь приходит распределение Стьюдента, а его ключевой параметр - степени свободы - определяет, насколько «тяжёлыми» будут хвосты и насколько осторожными должны быть выводы. Ниже разберём, что такое степени свободы в распределении Стьюдента, откуда они берутся, как влияют на форму кривой и как использовать всё это в реальных расчётах: t-критериях и доверительных интервалах.
Что такое распределение Стьюдента
Распределение Стьюдента (t-распределение) возникает, когда мы стандартизуем выборочное среднее, но вместо известного стандартного отклонения подставляем его выборочную оценку . Формально, если и независимы, то величина
имеет распределение Стьюдента с степенями свободы. Плотность распределения симметрична относительно нуля и выглядит как «расплывшаяся» колоколообразная кривая:
Единственный параметр здесь - число степеней свободы . Именно он управляет всей геометрией кривой, поэтому понимание степеней свободы критично для корректного применения распределения Стьюдента.
Если вам нужно быстро прикинуть критическое значение или t-статистику для своей выборки, соберите запрос в калькуляторе ниже - он подставит ваши числа и распишет решение по шагам.
Что такое степени свободы
Степени свободы - это число независимых значений, которые могут варьироваться при оценке параметра. Когда мы вычисляем выборочную дисперсию , мы используем выборочное среднее , которое само оценено по тем же данным. Это «связывает» одно значение: зная среднее и наблюдений, последнее восстанавливается однозначно. Поэтому при оценке дисперсии остаётся независимых отклонений.
Для классической одновыборочной задачи число степеней свободы распределения Стьюдента равно
где - объём выборки. Чем больше наблюдений, тем больше степеней свободы и тем точнее оценка дисперсии. Идея «потери» одной степени свободы на каждый оценённый по данным параметр универсальна и встречается в регрессии, дисперсионном анализе и критерии .
Как степени свободы меняют форму кривой
Степени свободы напрямую задают «тяжесть» хвостов t-распределения. При малых оценка дисперсии сильно колеблется от выборки к выборке, и эта дополнительная неопределённость растягивает хвосты: экстремальные значения становятся более вероятными, чем у нормального закона. Числовые ориентиры:
- - распределение Коши: настолько тяжёлые хвосты, что математическое ожидание не существует.
- - заметно более широкие хвосты, чем у нормали; критические значения ощутимо больше.
- - кривая почти неотличима от стандартного нормального распределения.
- - распределение Стьюдента сходится к .
Дисперсия t-распределения равна при и всегда превышает единицу, приближаясь к ней с ростом степеней свободы. Именно поэтому при больших выборках статистики спокойно заменяют t-квантили на z-квантили: разница становится пренебрежимо малой.
Критические значения и квантили
На практике нас интересует квантиль - значение, выше которого лежит доля вероятности. Например, для двустороннего теста на уровне значимости при критическое значение составляет примерно , тогда как нормальное даёт . Разница в - это та самая «плата» за незнание дисперсии и малый объём данных.
Ключевая закономерность: при фиксированном критическое значение монотонно убывает с ростом . Поэтому одно и то же наблюдённое значение t-статистики может быть значимым на 12 наблюдениях и незначимым на 5 - степени свободы решают исход теста. Логика проверки гипотез подробно разобрана в материале про неравенство Маркова и оценку вероятностей.
Применение в t-критерии
Распределение Стьюдента лежит в основе всех t-тестов. В одновыборочном тесте проверяется гипотеза с помощью статистики
которая при верной имеет распределение Стьюдента с степенями свободы. В двухвыборочном тесте Стьюдента с равными дисперсиями степени свободы считаются как , потому что по данным оценивается общая дисперсия и два средних.
Если дисперсии групп не равны, применяют поправку Уэлча, где степени свободы вычисляются по формуле Уэлча - Саттертуэйта и обычно получаются дробными:
Дробное число степеней свободы - это нормально: оно отражает эффективный объём информации в неоднородных данных.
Доверительные интервалы
При построении доверительного интервала для среднего малой выборки используется именно t-квантиль, а не z-квантиль:
Поскольку , интервал, построенный по распределению Стьюдента, всегда шире нормального - он честно учитывает дополнительную неопределённость от оценивания . С ростом степени свободы увеличиваются, t-квантиль уменьшается, и интервал стягивается, постепенно совпадая с нормальным приближением.
Связь с другими распределениями
Распределение Стьюдента - часть «семьи» выборочных распределений. Квадрат t-величины с степенями свободы есть F-распределение с степенями свободы, что связывает t-тест с дисперсионным анализом. Знаменатель t-статистики содержит корень из , что отражает связь с распределением хи-квадрат. Понимание характеристических функций и моментов этих распределений помогает увидеть, почему именно нормировка на степени свободы даёт устойчивую к объёму выборки статистику; полезный смежный материал - про характеристическую функцию в теории вероятностей.
Частые ошибки
- Путают и . В одновыборочном тесте , а не . На малых выборках эта единица заметно меняет критическое значение.
- Используют z вместо t на малых данных. При замена t-квантиля нормальным занижает доверительный интервал и завышает значимость.
- Берут в двухвыборочном тесте. Правильно : теряются две степени свободы на два выборочных средних.
- Игнорируют поправку Уэлча. При неравных дисперсиях обычный t-тест даёт неверные степени свободы и искажённый p-уровень.
- Считают дробные степени свободы ошибкой. В поправке Уэлча почти всегда нецелое - это корректный результат, его не нужно округлять до расчёта квантиля.
FAQ
Чему равны степени свободы в распределении Стьюдента? Для одновыборочной задачи , где - объём выборки. В двухвыборочном тесте с равными дисперсиями , а при поправке Уэлча степени свободы вычисляются по отдельной формуле и могут быть дробными.
Почему t-распределение шире нормального? Потому что дисперсия оценивается по выборке и сама случайна. Эта дополнительная неопределённость утяжеляет хвосты. Чем меньше степеней свободы, тем шире кривая; при распределение Стьюдента совпадает с .
Когда можно заменить t-квантиль на z-квантиль? Практически - при , когда разница между квантилями становится меньше нескольких сотых. Однако для строгих расчётов на любых конечных выборках корректнее использовать именно t-квантиль.
Коротко
Распределение Стьюдента описывает стандартизованное выборочное среднее при неизвестной дисперсии, а его единственный параметр - степени свободы - задаёт форму кривой: чем их меньше, тем тяжелее хвосты и больше критические значения. В одновыборочной задаче , в двухвыборочной , а поправка Уэлча даёт дробные степени свободы. Правильный подсчёт напрямую определяет исход t-критерия и ширину доверительного интервала, а с ростом выборки распределение Стьюдента плавно переходит в нормальное.
Читайте также

Распределение Фишера критические значения: как искать F-квантили
Распределение Фишера и его критические значения: что такое F-распределение, как читать таблицу критических значений по двум степеням свободы, как применять F-квантили в F-тесте на равенство дисперсий и в дисперсионном анализе.

Распределение хи-квадрат таблица значений: как читать
Распределение хи-квадрат и таблица критических значений: как пользоваться таблицей по степеням свободы и уровню значимости, где брать квантили χ² и как применять их в критерии согласия Пирсона.

Как работает ANOVA однофакторный дисперсионный анализ
ANOVA однофакторный дисперсионный анализ сравнивает средние в трёх и более группах. Разбираем суммы квадратов, F-критерий и условия применимости на примере с расчётом.