Доверительный интервал коэффициента регрессии: расчёт

Оценка коэффициента регрессии , которую даёт метод наименьших квадратов, - это всего лишь точечное число, посчитанное по одной выборке. На другой выборке из той же генеральной совокупности оно получилось бы иным. Чтобы показать, в каких пределах лежит истинное значение коэффициента, строят доверительный интервал коэффициента регрессии. Его расчёт сводится к трём величинам: точечной оценке, её стандартной ошибке и критическому значению распределения Стьюдента. Ниже разберём формулу, порядок вычислений и типичные ошибки, а калькулятор соберёт запрос с вашими числами.
Что показывает доверительный интервал коэффициента
Коэффициент регрессии описывает, насколько в среднем меняется зависимая переменная при росте фактора на единицу. Истинного мы не знаем - у нас есть лишь выборочная оценка . Доверительный интервал - это диапазон вокруг , который с заданной вероятностью (обычно 95 %) накрывает неизвестное истинное .
Важно правильно читать фразу «доверие 95 %»: она относится к процедуре, а не к одному конкретному интервалу. Если многократно повторять выборку и каждый раз строить интервал, примерно 95 % из них накроют истинный коэффициент. Узкий интервал говорит о точной оценке, широкий - о большой неопределённости. Если интервал содержит ноль, фактор статистически незначим: данные не позволяют утверждать, что он вообще влияет на .
Формула доверительного интервала коэффициента регрессии
Расчёт строится на симметричном интервале вокруг оценки:
Здесь - оценка -го коэффициента по МНК, - его стандартная ошибка, а - критическое значение распределения Стьюдента для уровня значимости и числа степеней свободы , где - объём выборки, а - число оцениваемых параметров (включая свободный член). Произведение называют предельной ошибкой (маржой): именно на неё оценка отступает влево и вправо.

Границы интервала тогда записываются явно:
Симметрия здесь не случайна: оценка МНК при выполнении классических предпосылок несмещённая, а её распределение симметрично относительно истинного значения.
Откуда берётся стандартная ошибка
Стандартная ошибка - корень из соответствующего диагонального элемента ковариационной матрицы оценок. Для парной регрессии её удобно записать так:
где - остатки регрессии, а - несмещённая оценка дисперсии ошибок (остаточная дисперсия). Из формулы видны три рычага точности: чем меньше разброс остатков , чем больше объём выборки и чем сильнее варьирует фактор (велика ), тем меньше стандартная ошибка и уже интервал. В пакетах вроде Excel, Gretl или R значение выводится прямо в таблице регрессии рядом с коэффициентом, поэтому вручную считать его обычно не нужно - но понимать структуру полезно, чтобы видеть, что улучшает оценку.
Критическое значение Стьюдента
Множитель берётся из распределения Стьюдента, а не из нормального, потому что дисперсию ошибок мы оцениваем по выборке, а не знаем точно. Для двустороннего интервала с доверием 95 % используют квантиль уровня в каждом хвосте.

Число степеней свободы напрямую влияет на ширину интервала. При малой выборке -распределение имеет тяжёлые хвосты, и критическое значение заметно больше 1,96 (например, при оно равно 2,228). По мере роста степеней свободы распределение Стьюдента сходится к стандартному нормальному, и стремится к 1,96. Поэтому при больше 100–120 разница между Стьюдентом и нормальным распределением практически исчезает, и многие учебники подставляют 1,96 для 95 % и 2,58 для 99 %. Откуда берутся степени свободы самого распределения, подробно разобрано в материале про распределение Стьюдента и степени свободы.
Пример расчёта по шагам
Пусть по выборке из наблюдений оценена парная регрессия, . МНК дал со стандартной ошибкой . Построим 95-процентный интервал.
Шаг 1. Степени свободы: .
Шаг 2. Критическое значение: (из таблицы Стьюдента).
Шаг 3. Предельная ошибка: .
Шаг 4. Границы: , то есть от до .
Вывод: с надёжностью 95 % истинный коэффициент лежит в интервале . Ноль в интервал не попадает - значит, фактор значим на уровне 5 %. Тот же вывод даёт -статистика: . Доверительный интервал и проверка значимости коэффициента - две стороны одной медали.
Связь с проверкой гипотез
Проверка гипотезы и построение интервала эквивалентны. Коэффициент значим на уровне тогда и только тогда, когда доверительный интервал той же надёжности не содержит ноль. Это удобный визуальный критерий: достаточно посмотреть, по одну ли сторону от нуля лежат обе границы. Если интервал, например, , ноль внутри - нулевую гипотезу о незначимости отвергнуть нельзя.
Тот же приём работает для проверки любого гипотетического значения , не только нуля: если внутри интервала, гипотеза не отвергается. В множественной регрессии всё аналогично, только степеней свободы становится при параметрах; механику оценивания самих коэффициентов разбирает заметка про расчёт коэффициентов множественной регрессии.
Частые ошибки
- Берут 1,96 при малой выборке. На 15–30 наблюдениях нормальный квантиль занижает интервал; нужен именно , который заметно больше.
- Путают степени свободы. Для параметров (вместе со свободным членом) их , а не и не автоматически - в парной регрессии как частный случай.
- Считают дисперсией. Стандартная ошибка - это корень из дисперсии оценки; подстановка дисперсии напрямую раздувает интервал в разы.
- Читают доверие как вероятность для конкретного интервала. «95 %» относится к методу повторных выборок, а не к утверждению «истинный с вероятностью 0,95 здесь».
- Игнорируют нарушение предпосылок. При гетероскедастичности или автокорреляции обычные смещены, и интервал становится недостоверным - нужны робастные стандартные ошибки.
FAQ
Чем доверительный интервал коэффициента отличается от интервала прогноза? Интервал коэффициента оценивает неизвестный параметр модели. Интервал прогноза оценивает будущее значение при заданном и шире, потому что включает ещё и случайную ошибку отдельного наблюдения.
Можно ли строить односторонний интервал? Да, если по содержательным причинам интересует только нижняя или верхняя граница (например, эффект заведомо положителен). Тогда в хвост уходит весь , и берётся квантиль , а не .
Почему интервал расширяется к краям диапазона на графике регрессии? Это интервал для линии регрессии (для условного среднего), а не для коэффициента. Он минимален вблизи и расширяется по краям, потому что неопределённость наклона сильнее сказывается вдали от центра данных.
Коротко
Доверительный интервал коэффициента регрессии рассчитывается как оценка плюс-минус предельная ошибка . Стандартную ошибку и сами коэффициенты выдаёт МНК-таблица, критическое значение берётся из распределения Стьюдента по степеням свободы. Узкий интервал означает точную оценку; если он не содержит ноль - фактор значим. Это тот же вывод, что и проверка -статистики, только в виде наглядного диапазона.
Читайте также

Стандартная ошибка коэффициента регрессии: формула и расчёт
Что такое стандартная ошибка коэффициента регрессии, как вывести формулу, рассчитать вручную и интерпретировать в эконометрике. Примеры и частые ошибки.

Тест Бройша-Годфри: проверка остатков на автокорреляцию
Тест Бройша-Годфри на автокорреляцию остатков регрессии: LM-статистика n·R², выбор числа лагов, сравнение с хи-квадрат, отличие от Дарбина-Уотсона и интерпретация p-значения.

Ловушка фиктивных переменных: причина и как избежать
Что такое ловушка фиктивных переменных в регрессии: почему полный набор дамми с константой даёт мультиколлинеарность и как выбрать базовую категорию, чтобы её избежать.