Стандартная ошибка коэффициента регрессии: формула и расчёт

17 июня 2026Время чтения: 7 минут

#регрессия#эконометрика#МНК#стандартная ошибка#коэффициент регрессии

Стандартная ошибка коэффициента регрессии - ключевая характеристика точности оценки МНК. Она показывает, насколько сильно оценка наклона или свободного члена колебалась бы от выборки к выборке, если бы мы многократно брали разные данные из той же генеральной совокупности. Без неё невозможно построить доверительный интервал или проверить гипотезу о значимости фактора. Рассчитайте ошибку для своих данных с помощью инструмента ниже.

Что такое стандартная ошибка коэффициента МНК

В модели парной регрессии $y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$ оценки $\hat{\beta}_0$ и $\hat{\beta}_1$ получают методом наименьших квадратов. Эти оценки случайны - разные выборки дают разные значения. Стандартная ошибка (SE) измеряет разброс этих оценок и вычисляется через дисперсию остатков и вариабельность предикторов.

Формально $\operatorname{SE}(\hat{\beta}_j)$ - это оценка стандартного отклонения выборочного распределения $\hat{\beta}_j$ . Представьте, что вы 1000 раз берёте случайную выборку одного размера из той же генеральной совокупности и каждый раз оцениваете $\hat{\beta}_1$ . Стандартное отклонение всех этих значений и есть то, что SE пытается оценить по одной наблюдаемой выборке. Теорема Гаусса-Маркова гарантирует, что МНК-оценка будет наилучшей линейной несмещённой оценкой (BLUE) при выполнении классических предположений: нулевое условное математическое ожидание ошибки, гомоскедастичность и отсутствие автокорреляции.

Стандартная ошибка: диаграмма разброса оценок коэффициента при многократной выборке

Вывод формулы для парной регрессии

В парной регрессии оценка наклона через МНК:

$\hat{\beta}_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}}$

Можно показать, что $\hat{\beta}_1 = \sum_i w_i y_i$ , где $w_i = (x_i - \bar{x}) / S_{xx}$ - детерминированные веса. При выполнении условий Гаусса-Маркова:

$\operatorname{Var}(\hat{\beta}_1) = \sigma^2 \sum_i w_i^2 = \frac{\sigma^2}{S_{xx}} = \frac{\sigma^2}{\sum_{i=1}^n (x_i - \bar{x})^2}$

Дисперсия $\sigma^2$ неизвестна и оценивается несмещённо через сумму квадратов остатков:

$s^2 = \frac{\text{RSS}}{n - k} = \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{n - k}$

где $k$ - число оцениваемых параметров. Для парной регрессии $k = 2$ , поэтому знаменатель $n - 2$ .

Итоговая формула стандартной ошибки наклона:

$\operatorname{SE}(\hat{\beta}_1) = \frac{s}{\sqrt{S_{xx}}} = \sqrt{\frac{s^2}{\sum_{i=1}^n (x_i - \bar{x})^2}}$

Формула для свободного члена

Дисперсия константы $\hat{\beta}_0$ выражается через дисперсию наклона:

$\operatorname{Var}(\hat{\beta}_0) = \sigma^2 \left(\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}\right)$

Отсюда оценённая стандартная ошибка:

$\operatorname{SE}(\hat{\beta}_0) = s\sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2}}$

Из формулы видно: чем дальше среднее $\bar{x}$ от нуля, тем больше ошибка оценки константы. Это важно при прогнозировании вне диапазона данных.

Матричная запись для множественной регрессии

В множественной регрессии $\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}$ МНК-оценка:

$\hat{\boldsymbol{\beta}} = (\mathbf{X}^{\top}\mathbf{X})^{-1}\mathbf{X}^{\top}\mathbf{y}$

Ковариационная матрица оценок:

$\operatorname{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{X}^{\top}\mathbf{X})^{-1}$

Стандартная ошибка $j$ -го коэффициента - корень из $j$ -го диагонального элемента:

$\operatorname{SE}(\hat{\beta}_j) = s \sqrt{\left[(\mathbf{X}^{\top}\mathbf{X})^{-1}\right]_{jj}}$

Именно эти числа вы видите в колонке Std. Error в выводе R, Python (statsmodels) или EViews. Отметим, что диагональные элементы $[(\mathbf{X}^{\top}\mathbf{X})^{-1}]_{jj}$ не являются дисперсиями независимо - они связаны через внедиагональные элементы матрицы, которые отражают ковариации между оценками $\hat{\beta}_j$ . Поэтому при интерпретации нескольких коэффициентов одновременно используют F-тест или тест Вальда, а не серию отдельных t-тестов.

Матрица X'X и диагональные элементы ковариационной матрицы коэффициентов

Пример расчёта вручную

Пусть даны 5 наблюдений: $x = (1, 2, 3, 4, 5)$ , $y = (2{,}1;\ 3{,}9;\ 6{,}2;\ 8{,}0;\ 10{,}1)$ .

Шаг 1. Находим $\bar{x} = 3$ , $\bar{y} = 6{,}06$ .

Шаг 2. $S_{xx} = \sum(x_i - 3)^2 = 4 + 1 + 0 + 1 + 4 = 10$ .

Шаг 3. $S_{xy} = \sum(x_i - 3)(y_i - 6{,}06) = (-2)(-3{,}96) + (-1)(-2{,}16) + 0 + 1 \cdot 1{,}94 + 2 \cdot 4{,}04 = 20{,}1$ .

Шаг 4. $\hat{\beta}_1 = 20{,}1 / 10 = 2{,}01$ .

Шаг 5. $\hat{\beta}_0 = 6{,}06 - 2{,}01 \cdot 3 = 0{,}03$ .

Шаг 6. Остатки: $\hat{e}_i = y_i - \hat{y}_i$ . RSS $\approx 0{,}094$ . Значит $s^2 = 0{,}094 / 3 \approx 0{,}031$ .

Шаг 7. $\operatorname{SE}(\hat{\beta}_1) = \sqrt{0{,}031 / 10} \approx 0{,}056$ .

Это очень малая ошибка относительно коэффициента 2,01 - данные хорошо описываются линейной моделью.

Для интерпретации полезно ввести понятие коэффициент вариации оценки: $\operatorname{CV}(\hat{\beta}_1) = \operatorname{SE}(\hat{\beta}_1) / |\hat{\beta}_1| \approx 0{,}056 / 2{,}01 \approx 2{,}8\%$ . Если эта величина мала (меньше 10-15%), коэффициент оценён с хорошей точностью. При высоких значениях стоит расширить выборку или пересмотреть спецификацию модели.

Также вычислим t-статистику для проверки $H_0: \beta_1 = 0$ : $t = 2{,}01 / 0{,}056 \approx 35{,}9$ . При степенях свободы $n - 2 = 3$ и $\alpha = 0{,}05$ критическое значение $t_{0{,}025;3} = 3{,}18$ . Поскольку $35{,}9 \gg 3{,}18$ , гипотеза об отсутствии эффекта отвергается уверенно.

Связь с t-статистикой и p-значением

Отношение оценки к её стандартной ошибке даёт t-статистику:

$t_j = \frac{\hat{\beta}_j}{\operatorname{SE}(\hat{\beta}_j)}$

При верной нулевой гипотезе $H_0: \beta_j = 0$ она имеет распределение Стьюдента с $n - k$ степенями свободы. Если $|t_j| > t_{\alpha/2,\, n-k}$ , коэффициент значимо отличается от нуля на уровне $\alpha$ .

Доверительный интервал строится по той же ошибке (подробнее о его расчёте - в статье о доверительном интервале коэффициента регрессии):

$\hat{\beta}_j \pm t_{\alpha/2,\, n-k} \cdot \operatorname{SE}(\hat{\beta}_j)$

Именно поэтому стандартная ошибка - «валюта» статистического вывода в регрессии: всё, что касается значимости и доверия, проходит через неё.

Что уменьшает стандартную ошибку

Из формулы $\operatorname{SE}(\hat{\beta}_1) = s / \sqrt{S_{xx}}$ вытекают три пути снижения ошибки:

Увеличить $n$ - больше наблюдений снижают $s^2$ и увеличивают $S_{xx}$ .
Увеличить вариабельность предиктора $S_{xx}$ - если вы управляете планом эксперимента, разнесите значения $x$ шире.
Уменьшить дисперсию остатков $s^2$ - добавить пропущенные факторы, убрать гетероскедастичность (подробнее - тест Бройша-Пагана).

В наблюдательных исследованиях вариабельность предиктора часто фиксирована данными, поэтому главный рычаг - объём выборки. Обратите внимание на асимметрию: удвоение $n$ снижает SE примерно в $\sqrt{2} \approx 1{,}41$ раза, то есть для двукратного снижения SE нужно четырёхкратное увеличение выборки. Это фундаментальное ограничение статистической точности, которое нельзя обойти без улучшения дизайна исследования.

Гетероскедастичность и робастные ошибки

Классическая формула предполагает $\operatorname{Var}(\varepsilon_i) = \sigma^2$ (гомоскедастичность). При нарушении этого условия оценка $s^2$ остаётся несмещённой, но стандартные ошибки становятся некорректными. Решение - робастные ошибки (HC-оценки):

$\operatorname{Var}_{HC}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}^{\top}\mathbf{X})^{-1} \left(\sum_i \hat{e}_i^2 \mathbf{x}_i \mathbf{x}_i^{\top}\right) (\mathbf{X}^{\top}\mathbf{X})^{-1}$

В R это coeftest(model, vcov = vcovHC), в Python - аргумент cov_type='HC3' в statsmodels. Используйте их по умолчанию в кросс-секционных данных.

Существует несколько вариантов HC-оценок: HC0, HC1, HC2 и HC3. На практике рекомендуется HC3, так как она даёт консервативные (завышенные) оценки SE в небольших выборках, что снижает вероятность ложно значимых результатов. При работе с панельными данными применяют кластеризованные стандартные ошибки, где $\hat{e}_i$ заменяются суммами остатков внутри кластеров (напр. по фирмам или регионам). Диагностику гетероскедастичности перед выбором стандартных ошибок удобно провести тестом Уайта - смотрите тест Бройша-Пагана как отправную точку.

Частые ошибки

Путают SE и RSS. Остатки $\hat{e}_i$ - не ошибка коэффициента; SE - разброс самой оценки $\hat{\beta}$ , а не предсказания.
Делят RSS на $n$ , не на $n-k$ . Это смещённая оценка дисперсии; всегда делите на степени свободы $n - k$ .
Не учитывают гетероскедастичность. Классические SE занижены при растущей дисперсии остатков - t-тест будет слишком оптимистичным.
Путают $\operatorname{SE}(\hat{\beta})$ и $\operatorname{SE}(\hat{y})$ . Ошибка прогноза $\operatorname{SE}(\hat{y})$ всегда больше: она включает как неточность коэффициентов, так и собственное рассеяние $y$ .
Интерпретируют SE без t. Малая SE сама по себе ничего не говорит - важно отношение $|\hat{\beta}|/\operatorname{SE}$ .

FAQ

Почему стандартная ошибка растёт при мультиколлинеарности? При высокой корреляции предикторов матрица $(\mathbf{X}^{\top}\mathbf{X})$ плохо обусловлена, её диагональные элементы после инвертирования резко возрастают. В пределе идеальной мультиколлинеарности матрица вырождена и ошибки бесконечны.

Что делать, если выборка маленькая (n < 30)? Формула та же, но $t$ -распределение с малым числом степеней свободы имеет «тяжёлые хвосты» - критическое значение $t_{\alpha/2}$ существенно больше 1,96. При $n - k = 5$ и $\alpha = 0{,}05$ оно равно 2,57.

Правда ли, что SE всегда убывает с ростом n? В среднем - да, SE убывает как $1/\sqrt{n}$ . Но если с ростом $n$ добавляются наблюдения с нетипичными $x_i$ , $S_{xx}$ растёт непропорционально и SE убывает быстрее.

Коротко

Стандартная ошибка коэффициента регрессии - квадратный корень из дисперсии МНК-оценки. Для наклона парной регрессии она равна $s / \sqrt{S_{xx}}$ , где $s$ - стандартное отклонение остатков, $S_{xx}$ - сумма квадратов отклонений предиктора. В множественной регрессии используют матричную формулу через $(\mathbf{X}^{\top}\mathbf{X})^{-1}$ . SE определяет t-статистику, p-значение и ширину доверительного интервала, поэтому её корректный расчёт - основа любого эконометрического анализа.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN