EssayAI
Блог
Блог
Математика и алгоритмы

Стандартная ошибка коэффициента регрессии: формула и расчёт

17 июня 2026Время чтения: 7 минут
#регрессия#эконометрика#МНК#стандартная ошибка#коэффициент регрессии
Стандартная ошибка коэффициента регрессии: формула и расчёт

Стандартная ошибка коэффициента регрессии - ключевая характеристика точности оценки МНК. Она показывает, насколько сильно оценка наклона или свободного члена колебалась бы от выборки к выборке, если бы мы многократно брали разные данные из той же генеральной совокупности. Без неё невозможно построить доверительный интервал или проверить гипотезу о значимости фактора. Рассчитайте ошибку для своих данных с помощью инструмента ниже.

Что такое стандартная ошибка коэффициента МНК

В модели парной регрессии yi=β0+β1xi+εiy_i = \beta_0 + \beta_1 x_i + \varepsilon_i оценки β^0\hat{\beta}_0 и β^1\hat{\beta}_1 получают методом наименьших квадратов. Эти оценки случайны - разные выборки дают разные значения. Стандартная ошибка (SE) измеряет разброс этих оценок и вычисляется через дисперсию остатков и вариабельность предикторов.

Формально SE(β^j)\operatorname{SE}(\hat{\beta}_j) - это оценка стандартного отклонения выборочного распределения β^j\hat{\beta}_j. Представьте, что вы 1000 раз берёте случайную выборку одного размера из той же генеральной совокупности и каждый раз оцениваете β^1\hat{\beta}_1. Стандартное отклонение всех этих значений и есть то, что SE пытается оценить по одной наблюдаемой выборке. Теорема Гаусса-Маркова гарантирует, что МНК-оценка будет наилучшей линейной несмещённой оценкой (BLUE) при выполнении классических предположений: нулевое условное математическое ожидание ошибки, гомоскедастичность и отсутствие автокорреляции.

Стандартная ошибка: диаграмма разброса оценок коэффициента при многократной выборке
Стандартная ошибка: диаграмма разброса оценок коэффициента при многократной выборке

Вывод формулы для парной регрессии

В парной регрессии оценка наклона через МНК:

β^1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2=SxySxx\hat{\beta}_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}}

Можно показать, что β^1=iwiyi\hat{\beta}_1 = \sum_i w_i y_i, где wi=(xixˉ)/Sxxw_i = (x_i - \bar{x}) / S_{xx} - детерминированные веса. При выполнении условий Гаусса-Маркова:

Var(β^1)=σ2iwi2=σ2Sxx=σ2i=1n(xixˉ)2\operatorname{Var}(\hat{\beta}_1) = \sigma^2 \sum_i w_i^2 = \frac{\sigma^2}{S_{xx}} = \frac{\sigma^2}{\sum_{i=1}^n (x_i - \bar{x})^2}

Дисперсия σ2\sigma^2 неизвестна и оценивается несмещённо через сумму квадратов остатков:

s2=RSSnk=i=1n(yiy^i)2nks^2 = \frac{\text{RSS}}{n - k} = \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{n - k}

где kk - число оцениваемых параметров. Для парной регрессии k=2k = 2, поэтому знаменатель n2n - 2.

Итоговая формула стандартной ошибки наклона:

SE(β^1)=sSxx=s2i=1n(xixˉ)2\operatorname{SE}(\hat{\beta}_1) = \frac{s}{\sqrt{S_{xx}}} = \sqrt{\frac{s^2}{\sum_{i=1}^n (x_i - \bar{x})^2}}

Формула для свободного члена

Дисперсия константы β^0\hat{\beta}_0 выражается через дисперсию наклона:

Var(β^0)=σ2(1n+xˉ2Sxx)\operatorname{Var}(\hat{\beta}_0) = \sigma^2 \left(\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}\right)

Отсюда оценённая стандартная ошибка:

SE(β^0)=s1n+xˉ2i=1n(xixˉ)2\operatorname{SE}(\hat{\beta}_0) = s\sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2}}

Из формулы видно: чем дальше среднее xˉ\bar{x} от нуля, тем больше ошибка оценки константы. Это важно при прогнозировании вне диапазона данных.

Матричная запись для множественной регрессии

В множественной регрессии y=Xβ+ε\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} МНК-оценка:

β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (\mathbf{X}^{\top}\mathbf{X})^{-1}\mathbf{X}^{\top}\mathbf{y}

Ковариационная матрица оценок:

Var(β^)=σ2(XX)1\operatorname{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{X}^{\top}\mathbf{X})^{-1}

Стандартная ошибка jj-го коэффициента - корень из jj-го диагонального элемента:

SE(β^j)=s[(XX)1]jj\operatorname{SE}(\hat{\beta}_j) = s \sqrt{\left[(\mathbf{X}^{\top}\mathbf{X})^{-1}\right]_{jj}}

Именно эти числа вы видите в колонке Std. Error в выводе R, Python (statsmodels) или EViews. Отметим, что диагональные элементы [(XX)1]jj[(\mathbf{X}^{\top}\mathbf{X})^{-1}]_{jj} не являются дисперсиями независимо - они связаны через внедиагональные элементы матрицы, которые отражают ковариации между оценками β^j\hat{\beta}_j. Поэтому при интерпретации нескольких коэффициентов одновременно используют F-тест или тест Вальда, а не серию отдельных t-тестов.

Матрица X'X и диагональные элементы ковариационной матрицы коэффициентов
Матрица X'X и диагональные элементы ковариационной матрицы коэффициентов

Пример расчёта вручную

Пусть даны 5 наблюдений: x=(1,2,3,4,5)x = (1, 2, 3, 4, 5), y=(2,1; 3,9; 6,2; 8,0; 10,1)y = (2{,}1;\ 3{,}9;\ 6{,}2;\ 8{,}0;\ 10{,}1).

Шаг 1. Находим xˉ=3\bar{x} = 3, yˉ=6,06\bar{y} = 6{,}06.

Шаг 2. Sxx=(xi3)2=4+1+0+1+4=10S_{xx} = \sum(x_i - 3)^2 = 4 + 1 + 0 + 1 + 4 = 10.

Шаг 3. Sxy=(xi3)(yi6,06)=(2)(3,96)+(1)(2,16)+0+11,94+24,04=20,1S_{xy} = \sum(x_i - 3)(y_i - 6{,}06) = (-2)(-3{,}96) + (-1)(-2{,}16) + 0 + 1 \cdot 1{,}94 + 2 \cdot 4{,}04 = 20{,}1.

Шаг 4. β^1=20,1/10=2,01\hat{\beta}_1 = 20{,}1 / 10 = 2{,}01.

Шаг 5. β^0=6,062,013=0,03\hat{\beta}_0 = 6{,}06 - 2{,}01 \cdot 3 = 0{,}03.

Шаг 6. Остатки: e^i=yiy^i\hat{e}_i = y_i - \hat{y}_i. RSS 0,094\approx 0{,}094. Значит s2=0,094/30,031s^2 = 0{,}094 / 3 \approx 0{,}031.

Шаг 7. SE(β^1)=0,031/100,056\operatorname{SE}(\hat{\beta}_1) = \sqrt{0{,}031 / 10} \approx 0{,}056.

Это очень малая ошибка относительно коэффициента 2,01 - данные хорошо описываются линейной моделью.

Для интерпретации полезно ввести понятие коэффициент вариации оценки: CV(β^1)=SE(β^1)/β^10,056/2,012,8%\operatorname{CV}(\hat{\beta}_1) = \operatorname{SE}(\hat{\beta}_1) / |\hat{\beta}_1| \approx 0{,}056 / 2{,}01 \approx 2{,}8\%. Если эта величина мала (меньше 10-15%), коэффициент оценён с хорошей точностью. При высоких значениях стоит расширить выборку или пересмотреть спецификацию модели.

Также вычислим t-статистику для проверки H0:β1=0H_0: \beta_1 = 0: t=2,01/0,05635,9t = 2{,}01 / 0{,}056 \approx 35{,}9. При степенях свободы n2=3n - 2 = 3 и α=0,05\alpha = 0{,}05 критическое значение t0,025;3=3,18t_{0{,}025;3} = 3{,}18. Поскольку 35,93,1835{,}9 \gg 3{,}18, гипотеза об отсутствии эффекта отвергается уверенно.

Связь с t-статистикой и p-значением

Отношение оценки к её стандартной ошибке даёт t-статистику:

tj=β^jSE(β^j)t_j = \frac{\hat{\beta}_j}{\operatorname{SE}(\hat{\beta}_j)}

При верной нулевой гипотезе H0:βj=0H_0: \beta_j = 0 она имеет распределение Стьюдента с nkn - k степенями свободы. Если tj>tα/2,nk|t_j| > t_{\alpha/2,\, n-k}, коэффициент значимо отличается от нуля на уровне α\alpha.

Доверительный интервал строится по той же ошибке (подробнее о его расчёте - в статье о доверительном интервале коэффициента регрессии):

β^j±tα/2,nkSE(β^j)\hat{\beta}_j \pm t_{\alpha/2,\, n-k} \cdot \operatorname{SE}(\hat{\beta}_j)

Именно поэтому стандартная ошибка - «валюта» статистического вывода в регрессии: всё, что касается значимости и доверия, проходит через неё.

Что уменьшает стандартную ошибку

Из формулы SE(β^1)=s/Sxx\operatorname{SE}(\hat{\beta}_1) = s / \sqrt{S_{xx}} вытекают три пути снижения ошибки:

  1. Увеличить nn - больше наблюдений снижают s2s^2 и увеличивают SxxS_{xx}.
  2. Увеличить вариабельность предиктора SxxS_{xx} - если вы управляете планом эксперимента, разнесите значения xx шире.
  3. Уменьшить дисперсию остатков s2s^2 - добавить пропущенные факторы, убрать гетероскедастичность (подробнее - тест Бройша-Пагана).

В наблюдательных исследованиях вариабельность предиктора часто фиксирована данными, поэтому главный рычаг - объём выборки. Обратите внимание на асимметрию: удвоение nn снижает SE примерно в 21,41\sqrt{2} \approx 1{,}41 раза, то есть для двукратного снижения SE нужно четырёхкратное увеличение выборки. Это фундаментальное ограничение статистической точности, которое нельзя обойти без улучшения дизайна исследования.

Гетероскедастичность и робастные ошибки

Классическая формула предполагает Var(εi)=σ2\operatorname{Var}(\varepsilon_i) = \sigma^2 (гомоскедастичность). При нарушении этого условия оценка s2s^2 остаётся несмещённой, но стандартные ошибки становятся некорректными. Решение - робастные ошибки (HC-оценки):

VarHC(β^)=(XX)1(ie^i2xixi)(XX)1\operatorname{Var}_{HC}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}^{\top}\mathbf{X})^{-1} \left(\sum_i \hat{e}_i^2 \mathbf{x}_i \mathbf{x}_i^{\top}\right) (\mathbf{X}^{\top}\mathbf{X})^{-1}

В R это coeftest(model, vcov = vcovHC), в Python - аргумент cov_type='HC3' в statsmodels. Используйте их по умолчанию в кросс-секционных данных.

Существует несколько вариантов HC-оценок: HC0, HC1, HC2 и HC3. На практике рекомендуется HC3, так как она даёт консервативные (завышенные) оценки SE в небольших выборках, что снижает вероятность ложно значимых результатов. При работе с панельными данными применяют кластеризованные стандартные ошибки, где e^i\hat{e}_i заменяются суммами остатков внутри кластеров (напр. по фирмам или регионам). Диагностику гетероскедастичности перед выбором стандартных ошибок удобно провести тестом Уайта - смотрите тест Бройша-Пагана как отправную точку.

Частые ошибки

  • Путают SE и RSS. Остатки e^i\hat{e}_i - не ошибка коэффициента; SE - разброс самой оценки β^\hat{\beta}, а не предсказания.
  • Делят RSS на nn, не на nkn-k. Это смещённая оценка дисперсии; всегда делите на степени свободы nkn - k.
  • Не учитывают гетероскедастичность. Классические SE занижены при растущей дисперсии остатков - t-тест будет слишком оптимистичным.
  • Путают SE(β^)\operatorname{SE}(\hat{\beta}) и SE(y^)\operatorname{SE}(\hat{y}). Ошибка прогноза SE(y^)\operatorname{SE}(\hat{y}) всегда больше: она включает как неточность коэффициентов, так и собственное рассеяние yy.
  • Интерпретируют SE без t. Малая SE сама по себе ничего не говорит - важно отношение β^/SE|\hat{\beta}|/\operatorname{SE}.

FAQ

Почему стандартная ошибка растёт при мультиколлинеарности? При высокой корреляции предикторов матрица (XX)(\mathbf{X}^{\top}\mathbf{X}) плохо обусловлена, её диагональные элементы после инвертирования резко возрастают. В пределе идеальной мультиколлинеарности матрица вырождена и ошибки бесконечны.

Что делать, если выборка маленькая (n < 30)? Формула та же, но tt-распределение с малым числом степеней свободы имеет «тяжёлые хвосты» - критическое значение tα/2t_{\alpha/2} существенно больше 1,96. При nk=5n - k = 5 и α=0,05\alpha = 0{,}05 оно равно 2,57.

Правда ли, что SE всегда убывает с ростом n? В среднем - да, SE убывает как 1/n1/\sqrt{n}. Но если с ростом nn добавляются наблюдения с нетипичными xix_i, SxxS_{xx} растёт непропорционально и SE убывает быстрее.

Коротко

Стандартная ошибка коэффициента регрессии - квадратный корень из дисперсии МНК-оценки. Для наклона парной регрессии она равна s/Sxxs / \sqrt{S_{xx}}, где ss - стандартное отклонение остатков, SxxS_{xx} - сумма квадратов отклонений предиктора. В множественной регрессии используют матричную формулу через (XX)1(\mathbf{X}^{\top}\mathbf{X})^{-1}. SE определяет t-статистику, p-значение и ширину доверительного интервала, поэтому её корректный расчёт - основа любого эконометрического анализа.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также