Стандартная ошибка коэффициента регрессии: формула и расчёт

Стандартная ошибка коэффициента регрессии - ключевая характеристика точности оценки МНК. Она показывает, насколько сильно оценка наклона или свободного члена колебалась бы от выборки к выборке, если бы мы многократно брали разные данные из той же генеральной совокупности. Без неё невозможно построить доверительный интервал или проверить гипотезу о значимости фактора. Рассчитайте ошибку для своих данных с помощью инструмента ниже.
Что такое стандартная ошибка коэффициента МНК
В модели парной регрессии оценки и получают методом наименьших квадратов. Эти оценки случайны - разные выборки дают разные значения. Стандартная ошибка (SE) измеряет разброс этих оценок и вычисляется через дисперсию остатков и вариабельность предикторов.
Формально - это оценка стандартного отклонения выборочного распределения . Представьте, что вы 1000 раз берёте случайную выборку одного размера из той же генеральной совокупности и каждый раз оцениваете . Стандартное отклонение всех этих значений и есть то, что SE пытается оценить по одной наблюдаемой выборке. Теорема Гаусса-Маркова гарантирует, что МНК-оценка будет наилучшей линейной несмещённой оценкой (BLUE) при выполнении классических предположений: нулевое условное математическое ожидание ошибки, гомоскедастичность и отсутствие автокорреляции.

Вывод формулы для парной регрессии
В парной регрессии оценка наклона через МНК:
Можно показать, что , где - детерминированные веса. При выполнении условий Гаусса-Маркова:
Дисперсия неизвестна и оценивается несмещённо через сумму квадратов остатков:
где - число оцениваемых параметров. Для парной регрессии , поэтому знаменатель .
Итоговая формула стандартной ошибки наклона:
Формула для свободного члена
Дисперсия константы выражается через дисперсию наклона:
Отсюда оценённая стандартная ошибка:
Из формулы видно: чем дальше среднее от нуля, тем больше ошибка оценки константы. Это важно при прогнозировании вне диапазона данных.
Матричная запись для множественной регрессии
В множественной регрессии МНК-оценка:
Ковариационная матрица оценок:
Стандартная ошибка -го коэффициента - корень из -го диагонального элемента:
Именно эти числа вы видите в колонке Std. Error в выводе R, Python (statsmodels) или EViews. Отметим, что диагональные элементы не являются дисперсиями независимо - они связаны через внедиагональные элементы матрицы, которые отражают ковариации между оценками . Поэтому при интерпретации нескольких коэффициентов одновременно используют F-тест или тест Вальда, а не серию отдельных t-тестов.

Пример расчёта вручную
Пусть даны 5 наблюдений: , .
Шаг 1. Находим , .
Шаг 2. .
Шаг 3. .
Шаг 4. .
Шаг 5. .
Шаг 6. Остатки: . RSS . Значит .
Шаг 7. .
Это очень малая ошибка относительно коэффициента 2,01 - данные хорошо описываются линейной моделью.
Для интерпретации полезно ввести понятие коэффициент вариации оценки: . Если эта величина мала (меньше 10-15%), коэффициент оценён с хорошей точностью. При высоких значениях стоит расширить выборку или пересмотреть спецификацию модели.
Также вычислим t-статистику для проверки : . При степенях свободы и критическое значение . Поскольку , гипотеза об отсутствии эффекта отвергается уверенно.
Связь с t-статистикой и p-значением
Отношение оценки к её стандартной ошибке даёт t-статистику:
При верной нулевой гипотезе она имеет распределение Стьюдента с степенями свободы. Если , коэффициент значимо отличается от нуля на уровне .
Доверительный интервал строится по той же ошибке (подробнее о его расчёте - в статье о доверительном интервале коэффициента регрессии):
Именно поэтому стандартная ошибка - «валюта» статистического вывода в регрессии: всё, что касается значимости и доверия, проходит через неё.
Что уменьшает стандартную ошибку
Из формулы вытекают три пути снижения ошибки:
- Увеличить - больше наблюдений снижают и увеличивают .
- Увеличить вариабельность предиктора - если вы управляете планом эксперимента, разнесите значения шире.
- Уменьшить дисперсию остатков - добавить пропущенные факторы, убрать гетероскедастичность (подробнее - тест Бройша-Пагана).
В наблюдательных исследованиях вариабельность предиктора часто фиксирована данными, поэтому главный рычаг - объём выборки. Обратите внимание на асимметрию: удвоение снижает SE примерно в раза, то есть для двукратного снижения SE нужно четырёхкратное увеличение выборки. Это фундаментальное ограничение статистической точности, которое нельзя обойти без улучшения дизайна исследования.
Гетероскедастичность и робастные ошибки
Классическая формула предполагает (гомоскедастичность). При нарушении этого условия оценка остаётся несмещённой, но стандартные ошибки становятся некорректными. Решение - робастные ошибки (HC-оценки):
В R это coeftest(model, vcov = vcovHC), в Python - аргумент cov_type='HC3' в statsmodels. Используйте их по умолчанию в кросс-секционных данных.
Существует несколько вариантов HC-оценок: HC0, HC1, HC2 и HC3. На практике рекомендуется HC3, так как она даёт консервативные (завышенные) оценки SE в небольших выборках, что снижает вероятность ложно значимых результатов. При работе с панельными данными применяют кластеризованные стандартные ошибки, где заменяются суммами остатков внутри кластеров (напр. по фирмам или регионам). Диагностику гетероскедастичности перед выбором стандартных ошибок удобно провести тестом Уайта - смотрите тест Бройша-Пагана как отправную точку.
Частые ошибки
- Путают SE и RSS. Остатки - не ошибка коэффициента; SE - разброс самой оценки , а не предсказания.
- Делят RSS на , не на . Это смещённая оценка дисперсии; всегда делите на степени свободы .
- Не учитывают гетероскедастичность. Классические SE занижены при растущей дисперсии остатков - t-тест будет слишком оптимистичным.
- Путают и . Ошибка прогноза всегда больше: она включает как неточность коэффициентов, так и собственное рассеяние .
- Интерпретируют SE без t. Малая SE сама по себе ничего не говорит - важно отношение .
FAQ
Почему стандартная ошибка растёт при мультиколлинеарности? При высокой корреляции предикторов матрица плохо обусловлена, её диагональные элементы после инвертирования резко возрастают. В пределе идеальной мультиколлинеарности матрица вырождена и ошибки бесконечны.
Что делать, если выборка маленькая (n < 30)? Формула та же, но -распределение с малым числом степеней свободы имеет «тяжёлые хвосты» - критическое значение существенно больше 1,96. При и оно равно 2,57.
Правда ли, что SE всегда убывает с ростом n? В среднем - да, SE убывает как . Но если с ростом добавляются наблюдения с нетипичными , растёт непропорционально и SE убывает быстрее.
Коротко
Стандартная ошибка коэффициента регрессии - квадратный корень из дисперсии МНК-оценки. Для наклона парной регрессии она равна , где - стандартное отклонение остатков, - сумма квадратов отклонений предиктора. В множественной регрессии используют матричную формулу через . SE определяет t-статистику, p-значение и ширину доверительного интервала, поэтому её корректный расчёт - основа любого эконометрического анализа.
Читайте также

Доверительный интервал коэффициента регрессии: расчёт
Как рассчитать доверительный интервал коэффициента регрессии: формула через стандартную ошибку и критическое значение Стьюдента, пример вычисления и проверка значимости.

Тест Глейзера: проверка гетероскедастичности МНК
Тест Глейзера для выявления гетероскедастичности: три формы вспомогательной регрессии, t-критерий значимости, сравнение с тестом Уайта и Бройша-Пагана, пример расчёта.

Тест Бройша-Годфри: проверка остатков на автокорреляцию
Тест Бройша-Годфри на автокорреляцию остатков регрессии: LM-статистика n·R², выбор числа лагов, сравнение с хи-квадрат, отличие от Дарбина-Уотсона и интерпретация p-значения.