Доверительный интервал коэффициента регрессии: расчёт

17 июня 2026Время чтения: 6 минут

#эконометрика#регрессия#доверительный интервал#стандартная ошибка#критерий Стьюдента

Оценка коэффициента регрессии $\hat\beta$ , которую даёт метод наименьших квадратов, - это всего лишь точечное число, посчитанное по одной выборке. На другой выборке из той же генеральной совокупности оно получилось бы иным. Чтобы показать, в каких пределах лежит истинное значение коэффициента, строят доверительный интервал коэффициента регрессии. Его расчёт сводится к трём величинам: точечной оценке, её стандартной ошибке и критическому значению распределения Стьюдента. Ниже разберём формулу, порядок вычислений и типичные ошибки, а калькулятор соберёт запрос с вашими числами.

Что показывает доверительный интервал коэффициента

Коэффициент регрессии $\beta$ описывает, насколько в среднем меняется зависимая переменная $y$ при росте фактора $x$ на единицу. Истинного $\beta$ мы не знаем - у нас есть лишь выборочная оценка $\hat\beta$ . Доверительный интервал - это диапазон вокруг $\hat\beta$ , который с заданной вероятностью (обычно 95 %) накрывает неизвестное истинное $\beta$ .

Важно правильно читать фразу «доверие 95 %»: она относится к процедуре, а не к одному конкретному интервалу. Если многократно повторять выборку и каждый раз строить интервал, примерно 95 % из них накроют истинный коэффициент. Узкий интервал говорит о точной оценке, широкий - о большой неопределённости. Если интервал содержит ноль, фактор $x$ статистически незначим: данные не позволяют утверждать, что он вообще влияет на $y$ .

Формула доверительного интервала коэффициента регрессии

Расчёт строится на симметричном интервале вокруг оценки:

$\hat\beta_j \pm t_{\alpha/2,\, n-k}\cdot SE(\hat\beta_j)$

Здесь $\hat\beta_j$ - оценка $j$ -го коэффициента по МНК, $SE(\hat\beta_j)$ - его стандартная ошибка, а $t_{\alpha/2,\, n-k}$ - критическое значение распределения Стьюдента для уровня значимости $\alpha$ и числа степеней свободы $n-k$ , где $n$ - объём выборки, а $k$ - число оцениваемых параметров (включая свободный член). Произведение $t_{\alpha/2}\cdot SE(\hat\beta_j)$ называют предельной ошибкой (маржой): именно на неё оценка отступает влево и вправо.

Структура доверительного интервала: оценка по центру, симметричные границы и маржа

Границы интервала тогда записываются явно:

$\hat\beta_j - t_{\alpha/2}\cdot SE(\hat\beta_j) \;\le\; \beta_j \;\le\; \hat\beta_j + t_{\alpha/2}\cdot SE(\hat\beta_j)$

Симметрия здесь не случайна: оценка МНК при выполнении классических предпосылок несмещённая, а её распределение симметрично относительно истинного значения.

Откуда берётся стандартная ошибка

Стандартная ошибка $SE(\hat\beta_j)$ - корень из соответствующего диагонального элемента ковариационной матрицы оценок. Для парной регрессии $y = \beta_0 + \beta_1 x$ её удобно записать так:

$SE(\hat\beta_1) = \frac{s}{\sqrt{\sum_{i=1}^{n}(x_i-\bar x)^2}}, \qquad s^2 = \frac{\sum_{i=1}^{n} e_i^2}{n-2}$

где $e_i = y_i - \hat y_i$ - остатки регрессии, а $s^2$ - несмещённая оценка дисперсии ошибок (остаточная дисперсия). Из формулы видны три рычага точности: чем меньше разброс остатков $s$ , чем больше объём выборки $n$ и чем сильнее варьирует фактор $x$ (велика $\sum(x_i-\bar x)^2$ ), тем меньше стандартная ошибка и уже интервал. В пакетах вроде Excel, Gretl или R значение $SE(\hat\beta_j)$ выводится прямо в таблице регрессии рядом с коэффициентом, поэтому вручную считать его обычно не нужно - но понимать структуру полезно, чтобы видеть, что улучшает оценку.

Критическое значение Стьюдента

Множитель $t_{\alpha/2,\, n-k}$ берётся из распределения Стьюдента, а не из нормального, потому что дисперсию ошибок мы оцениваем по выборке, а не знаем точно. Для двустороннего интервала с доверием 95 % используют квантиль уровня $\alpha/2 = 0{,}025$ в каждом хвосте.

Распределение Стьюдента: центральная область доверия 95 процентов и критические значения в хвостах

Число степеней свободы $n-k$ напрямую влияет на ширину интервала. При малой выборке $t$ -распределение имеет тяжёлые хвосты, и критическое значение заметно больше 1,96 (например, при $n-k=10$ оно равно 2,228). По мере роста степеней свободы распределение Стьюдента сходится к стандартному нормальному, и $t_{0{,}025}$ стремится к 1,96. Поэтому при $n$ больше 100–120 разница между Стьюдентом и нормальным распределением практически исчезает, и многие учебники подставляют 1,96 для 95 % и 2,58 для 99 %. Откуда берутся степени свободы самого распределения, подробно разобрано в материале про распределение Стьюдента и степени свободы.

Пример расчёта по шагам

Пусть по выборке из $n=20$ наблюдений оценена парная регрессия, $k=2$ . МНК дал $\hat\beta_1 = 0{,}84$ со стандартной ошибкой $SE(\hat\beta_1)=0{,}25$ . Построим 95-процентный интервал.

Шаг 1. Степени свободы: $n-k = 20-2 = 18$ .

Шаг 2. Критическое значение: $t_{0{,}025,\,18} = 2{,}101$ (из таблицы Стьюдента).

Шаг 3. Предельная ошибка: $M = 2{,}101 \cdot 0{,}25 = 0{,}525$ .

Шаг 4. Границы: $0{,}84 \pm 0{,}525$ , то есть от $0{,}315$ до $1{,}365$ .

Вывод: с надёжностью 95 % истинный коэффициент лежит в интервале $[0{,}315;\ 1{,}365]$ . Ноль в интервал не попадает - значит, фактор значим на уровне 5 %. Тот же вывод даёт $t$ -статистика: $t = \hat\beta_1 / SE = 0{,}84/0{,}25 = 3{,}36 > 2{,}101$ . Доверительный интервал и проверка значимости коэффициента - две стороны одной медали.

Связь с проверкой гипотез

Проверка гипотезы $H_0:\ \beta_j = 0$ и построение интервала эквивалентны. Коэффициент значим на уровне $\alpha$ тогда и только тогда, когда доверительный интервал той же надёжности $1-\alpha$ не содержит ноль. Это удобный визуальный критерий: достаточно посмотреть, по одну ли сторону от нуля лежат обе границы. Если интервал, например, $[-0{,}1;\ 0{,}9]$ , ноль внутри - нулевую гипотезу о незначимости отвергнуть нельзя.

Тот же приём работает для проверки любого гипотетического значения $\beta_j^0$ , не только нуля: если $\beta_j^0$ внутри интервала, гипотеза $\beta_j=\beta_j^0$ не отвергается. В множественной регрессии всё аналогично, только степеней свободы становится $n-k$ при $k$ параметрах; механику оценивания самих коэффициентов разбирает заметка про расчёт коэффициентов множественной регрессии.

Частые ошибки

Берут 1,96 при малой выборке. На 15–30 наблюдениях нормальный квантиль занижает интервал; нужен именно $t_{\alpha/2,\,n-k}$ , который заметно больше.
Путают степени свободы. Для $k$ параметров (вместе со свободным членом) их $n-k$ , а не $n-1$ и не $n-2$ автоматически - в парной регрессии $n-2$ как частный случай.
Считают $SE$ дисперсией. Стандартная ошибка - это корень из дисперсии оценки; подстановка дисперсии напрямую раздувает интервал в разы.
Читают доверие как вероятность для конкретного интервала. «95 %» относится к методу повторных выборок, а не к утверждению «истинный $\beta$ с вероятностью 0,95 здесь».
Игнорируют нарушение предпосылок. При гетероскедастичности или автокорреляции обычные $SE$ смещены, и интервал становится недостоверным - нужны робастные стандартные ошибки.

FAQ

Чем доверительный интервал коэффициента отличается от интервала прогноза? Интервал коэффициента оценивает неизвестный параметр $\beta_j$ модели. Интервал прогноза оценивает будущее значение $y$ при заданном $x$ и шире, потому что включает ещё и случайную ошибку отдельного наблюдения.

Можно ли строить односторонний интервал? Да, если по содержательным причинам интересует только нижняя или верхняя граница (например, эффект заведомо положителен). Тогда в хвост уходит весь $\alpha$ , и берётся квантиль $t_{\alpha,\,n-k}$ , а не $t_{\alpha/2}$ .

Почему интервал расширяется к краям диапазона $x$ на графике регрессии? Это интервал для линии регрессии (для условного среднего), а не для коэффициента. Он минимален вблизи $\bar x$ и расширяется по краям, потому что неопределённость наклона сильнее сказывается вдали от центра данных.

Коротко

Доверительный интервал коэффициента регрессии рассчитывается как оценка $\hat\beta_j$ плюс-минус предельная ошибка $t_{\alpha/2,\,n-k}\cdot SE(\hat\beta_j)$ . Стандартную ошибку и сами коэффициенты выдаёт МНК-таблица, критическое значение берётся из распределения Стьюдента по $n-k$ степеням свободы. Узкий интервал означает точную оценку; если он не содержит ноль - фактор значим. Это тот же вывод, что и проверка $t$ -статистики, только в виде наглядного диапазона.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Доверительный интервал коэффициента регрессии: расчёт

Что показывает доверительный интервал коэффициента

Формула доверительного интервала коэффициента регрессии

Откуда берётся стандартная ошибка

Критическое значение Стьюдента

Пример расчёта по шагам

Связь с проверкой гипотез

Частые ошибки

FAQ

Коротко

Читайте также

Стандартная ошибка коэффициента регрессии: формула и расчёт

Тест Бройша-Годфри: проверка остатков на автокорреляцию

Ловушка фиктивных переменных: причина и как избежать