EssayAI
Блог
Блог
Математика и алгоритмы

Доверительный интервал коэффициента регрессии: расчёт

17 июня 2026Время чтения: 6 минут
#эконометрика#регрессия#доверительный интервал#стандартная ошибка#критерий Стьюдента
Доверительный интервал коэффициента регрессии: расчёт

Оценка коэффициента регрессии β^\hat\beta, которую даёт метод наименьших квадратов, - это всего лишь точечное число, посчитанное по одной выборке. На другой выборке из той же генеральной совокупности оно получилось бы иным. Чтобы показать, в каких пределах лежит истинное значение коэффициента, строят доверительный интервал коэффициента регрессии. Его расчёт сводится к трём величинам: точечной оценке, её стандартной ошибке и критическому значению распределения Стьюдента. Ниже разберём формулу, порядок вычислений и типичные ошибки, а калькулятор соберёт запрос с вашими числами.

Что показывает доверительный интервал коэффициента

Коэффициент регрессии β\beta описывает, насколько в среднем меняется зависимая переменная yy при росте фактора xx на единицу. Истинного β\beta мы не знаем - у нас есть лишь выборочная оценка β^\hat\beta. Доверительный интервал - это диапазон вокруг β^\hat\beta, который с заданной вероятностью (обычно 95 %) накрывает неизвестное истинное β\beta.

Важно правильно читать фразу «доверие 95 %»: она относится к процедуре, а не к одному конкретному интервалу. Если многократно повторять выборку и каждый раз строить интервал, примерно 95 % из них накроют истинный коэффициент. Узкий интервал говорит о точной оценке, широкий - о большой неопределённости. Если интервал содержит ноль, фактор xx статистически незначим: данные не позволяют утверждать, что он вообще влияет на yy.

Формула доверительного интервала коэффициента регрессии

Расчёт строится на симметричном интервале вокруг оценки:

β^j±tα/2,nkSE(β^j)\hat\beta_j \pm t_{\alpha/2,\, n-k}\cdot SE(\hat\beta_j)

Здесь β^j\hat\beta_j - оценка jj-го коэффициента по МНК, SE(β^j)SE(\hat\beta_j) - его стандартная ошибка, а tα/2,nkt_{\alpha/2,\, n-k} - критическое значение распределения Стьюдента для уровня значимости α\alpha и числа степеней свободы nkn-k, где nn - объём выборки, а kk - число оцениваемых параметров (включая свободный член). Произведение tα/2SE(β^j)t_{\alpha/2}\cdot SE(\hat\beta_j) называют предельной ошибкой (маржой): именно на неё оценка отступает влево и вправо.

Структура доверительного интервала: оценка по центру, симметричные границы и маржа
Структура доверительного интервала: оценка по центру, симметричные границы и маржа

Границы интервала тогда записываются явно:

β^jtα/2SE(β^j)    βj    β^j+tα/2SE(β^j)\hat\beta_j - t_{\alpha/2}\cdot SE(\hat\beta_j) \;\le\; \beta_j \;\le\; \hat\beta_j + t_{\alpha/2}\cdot SE(\hat\beta_j)

Симметрия здесь не случайна: оценка МНК при выполнении классических предпосылок несмещённая, а её распределение симметрично относительно истинного значения.

Откуда берётся стандартная ошибка

Стандартная ошибка SE(β^j)SE(\hat\beta_j) - корень из соответствующего диагонального элемента ковариационной матрицы оценок. Для парной регрессии y=β0+β1xy = \beta_0 + \beta_1 x её удобно записать так:

SE(β^1)=si=1n(xixˉ)2,s2=i=1nei2n2SE(\hat\beta_1) = \frac{s}{\sqrt{\sum_{i=1}^{n}(x_i-\bar x)^2}}, \qquad s^2 = \frac{\sum_{i=1}^{n} e_i^2}{n-2}

где ei=yiy^ie_i = y_i - \hat y_i - остатки регрессии, а s2s^2 - несмещённая оценка дисперсии ошибок (остаточная дисперсия). Из формулы видны три рычага точности: чем меньше разброс остатков ss, чем больше объём выборки nn и чем сильнее варьирует фактор xx (велика (xixˉ)2\sum(x_i-\bar x)^2), тем меньше стандартная ошибка и уже интервал. В пакетах вроде Excel, Gretl или R значение SE(β^j)SE(\hat\beta_j) выводится прямо в таблице регрессии рядом с коэффициентом, поэтому вручную считать его обычно не нужно - но понимать структуру полезно, чтобы видеть, что улучшает оценку.

Критическое значение Стьюдента

Множитель tα/2,nkt_{\alpha/2,\, n-k} берётся из распределения Стьюдента, а не из нормального, потому что дисперсию ошибок мы оцениваем по выборке, а не знаем точно. Для двустороннего интервала с доверием 95 % используют квантиль уровня α/2=0,025\alpha/2 = 0{,}025 в каждом хвосте.

Распределение Стьюдента: центральная область доверия 95 процентов и критические значения в хвостах
Распределение Стьюдента: центральная область доверия 95 процентов и критические значения в хвостах

Число степеней свободы nkn-k напрямую влияет на ширину интервала. При малой выборке tt-распределение имеет тяжёлые хвосты, и критическое значение заметно больше 1,96 (например, при nk=10n-k=10 оно равно 2,228). По мере роста степеней свободы распределение Стьюдента сходится к стандартному нормальному, и t0,025t_{0{,}025} стремится к 1,96. Поэтому при nn больше 100–120 разница между Стьюдентом и нормальным распределением практически исчезает, и многие учебники подставляют 1,96 для 95 % и 2,58 для 99 %. Откуда берутся степени свободы самого распределения, подробно разобрано в материале про распределение Стьюдента и степени свободы.

Пример расчёта по шагам

Пусть по выборке из n=20n=20 наблюдений оценена парная регрессия, k=2k=2. МНК дал β^1=0,84\hat\beta_1 = 0{,}84 со стандартной ошибкой SE(β^1)=0,25SE(\hat\beta_1)=0{,}25. Построим 95-процентный интервал.

Шаг 1. Степени свободы: nk=202=18n-k = 20-2 = 18.

Шаг 2. Критическое значение: t0,025,18=2,101t_{0{,}025,\,18} = 2{,}101 (из таблицы Стьюдента).

Шаг 3. Предельная ошибка: M=2,1010,25=0,525M = 2{,}101 \cdot 0{,}25 = 0{,}525.

Шаг 4. Границы: 0,84±0,5250{,}84 \pm 0{,}525, то есть от 0,3150{,}315 до 1,3651{,}365.

Вывод: с надёжностью 95 % истинный коэффициент лежит в интервале [0,315; 1,365][0{,}315;\ 1{,}365]. Ноль в интервал не попадает - значит, фактор значим на уровне 5 %. Тот же вывод даёт tt-статистика: t=β^1/SE=0,84/0,25=3,36>2,101t = \hat\beta_1 / SE = 0{,}84/0{,}25 = 3{,}36 > 2{,}101. Доверительный интервал и проверка значимости коэффициента - две стороны одной медали.

Связь с проверкой гипотез

Проверка гипотезы H0: βj=0H_0:\ \beta_j = 0 и построение интервала эквивалентны. Коэффициент значим на уровне α\alpha тогда и только тогда, когда доверительный интервал той же надёжности 1α1-\alpha не содержит ноль. Это удобный визуальный критерий: достаточно посмотреть, по одну ли сторону от нуля лежат обе границы. Если интервал, например, [0,1; 0,9][-0{,}1;\ 0{,}9], ноль внутри - нулевую гипотезу о незначимости отвергнуть нельзя.

Тот же приём работает для проверки любого гипотетического значения βj0\beta_j^0, не только нуля: если βj0\beta_j^0 внутри интервала, гипотеза βj=βj0\beta_j=\beta_j^0 не отвергается. В множественной регрессии всё аналогично, только степеней свободы становится nkn-k при kk параметрах; механику оценивания самих коэффициентов разбирает заметка про расчёт коэффициентов множественной регрессии.

Частые ошибки

  • Берут 1,96 при малой выборке. На 15–30 наблюдениях нормальный квантиль занижает интервал; нужен именно tα/2,nkt_{\alpha/2,\,n-k}, который заметно больше.
  • Путают степени свободы. Для kk параметров (вместе со свободным членом) их nkn-k, а не n1n-1 и не n2n-2 автоматически - в парной регрессии n2n-2 как частный случай.
  • Считают SESE дисперсией. Стандартная ошибка - это корень из дисперсии оценки; подстановка дисперсии напрямую раздувает интервал в разы.
  • Читают доверие как вероятность для конкретного интервала. «95 %» относится к методу повторных выборок, а не к утверждению «истинный β\beta с вероятностью 0,95 здесь».
  • Игнорируют нарушение предпосылок. При гетероскедастичности или автокорреляции обычные SESE смещены, и интервал становится недостоверным - нужны робастные стандартные ошибки.

FAQ

Чем доверительный интервал коэффициента отличается от интервала прогноза? Интервал коэффициента оценивает неизвестный параметр βj\beta_j модели. Интервал прогноза оценивает будущее значение yy при заданном xx и шире, потому что включает ещё и случайную ошибку отдельного наблюдения.

Можно ли строить односторонний интервал? Да, если по содержательным причинам интересует только нижняя или верхняя граница (например, эффект заведомо положителен). Тогда в хвост уходит весь α\alpha, и берётся квантиль tα,nkt_{\alpha,\,n-k}, а не tα/2t_{\alpha/2}.

Почему интервал расширяется к краям диапазона xx на графике регрессии? Это интервал для линии регрессии (для условного среднего), а не для коэффициента. Он минимален вблизи xˉ\bar x и расширяется по краям, потому что неопределённость наклона сильнее сказывается вдали от центра данных.

Коротко

Доверительный интервал коэффициента регрессии рассчитывается как оценка β^j\hat\beta_j плюс-минус предельная ошибка tα/2,nkSE(β^j)t_{\alpha/2,\,n-k}\cdot SE(\hat\beta_j). Стандартную ошибку и сами коэффициенты выдаёт МНК-таблица, критическое значение берётся из распределения Стьюдента по nkn-k степеням свободы. Узкий интервал означает точную оценку; если он не содержит ноль - фактор значим. Это тот же вывод, что и проверка tt-статистики, только в виде наглядного диапазона.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также