EssayAI
Блог
Блог
Математика и алгоритмы

Неравенство Крамера-Рао: нижняя граница дисперсии

28 апреля 2026Время чтения: 7 минут
#неравенство Крамера-Рао#информация Фишера#дисперсия оценки#эффективная оценка#математическая статистика
Неравенство Крамера-Рао: нижняя граница дисперсии

Неравенство Крамера-Рао задаёт фундаментальный предел точности: оно говорит, что дисперсия любой несмещённой оценки параметра не может быть меньше некоторой величины, обратной информации Фишера. Иными словами, как бы умно мы ни строили оценку, по конечной выборке нельзя «выжать» точность сверх той, что заложена в самой статистической модели. Это делает неравенство Крамера-Рао главным инструментом для проверки оптимальности оценок и поиска так называемых эффективных оценок. Ниже разберём строгую формулировку, роль информации Фишера, условия регулярности, понятие эффективности и типовые приёмы вычисления нижней границы.

Что утверждает неравенство Крамера-Рао

Пусть имеется выборка X1,,XnX_1, \dots, X_n из распределения с плотностью (или вероятностной функцией) f(x;θ)f(x; \theta), зависящей от неизвестного скалярного параметра θ\theta. Рассмотрим произвольную несмещённую оценку θ^\hat{\theta}, то есть такую, что E[θ^]=θE[\hat{\theta}] = \theta. Тогда при выполнении условий регулярности справедливо неравенство Крамера-Рао:

D[θ^]1In(θ),D[\hat{\theta}] \ge \frac{1}{I_n(\theta)},

где In(θ)I_n(\theta) - информация Фишера, содержащаяся в выборке объёма nn. Содержательно это означает, что дисперсия несмещённой оценки ограничена снизу обратной величиной информации Фишера, и эта граница неустранима - она определяется только моделью, а не способом построения оценки.

Прежде чем считать границу для конкретной задачи, удобно собрать все элементы (плотность, параметр, вид оценки) в один запрос - для этого ниже есть интерактивный помощник.

Информация Фишера как мера точности модели

Центральный объект неравенства - информация Фишера. Для одного наблюдения она определяется как математическое ожидание квадрата производной логарифма правдоподобия по параметру:

I(θ)=E ⁣[(θlnf(X;θ))2].I(\theta) = E\!\left[\left(\frac{\partial}{\partial \theta} \ln f(X; \theta)\right)^2\right].

При выполнении условий регулярности есть эквивалентная и часто более удобная для вычислений форма через вторую производную:

I(θ)=E ⁣[2θ2lnf(X;θ)].I(\theta) = -E\!\left[\frac{\partial^2}{\partial \theta^2} \ln f(X; \theta)\right].

Функцию θlnf(X;θ)\frac{\partial}{\partial \theta} \ln f(X; \theta) называют функцией вклада (score function); её математическое ожидание равно нулю, а дисперсия как раз и есть информация Фишера. Для выборки из независимых одинаково распределённых наблюдений информация аддитивна:

In(θ)=nI(θ).I_n(\theta) = n \cdot I(\theta).

Поэтому нижняя граница дисперсии в неравенстве Крамера-Рао убывает как 1n\frac{1}{n}: чем больше данных, тем меньше предельная дисперсия и тем точнее в принципе может быть оценка.

Условия регулярности

Неравенство Крамера-Рао выполняется не всегда, а только при определённых условиях регулярности модели:

  • Носитель распределения не зависит от параметра. Множество значений xx, где f(x;θ)>0f(x;\theta) > 0, должно быть одним и тем же при всех θ\theta. Это ключевое условие; именно из-за него неравенство неприменимо, например, к равномерному распределению U(0,θ)U(0, \theta).
  • Дифференцируемость и возможность дифференцировать под знаком интеграла. Логарифм правдоподобия гладко зависит от θ\theta, а операции интегрирования и дифференцирования можно менять местами.
  • Конечность и положительность информации Фишера. Должно выполняться 0<I(θ)<0 < I(\theta) < \infty, иначе граница вырождается.

Если хотя бы одно условие нарушено, нижняя граница из неравенства может не достигаться или вовсе оказаться неверной. Поэтому первым делом всегда проверяют, что носитель не зависит от θ\theta.

Нижняя граница для смещённых оценок

Классическая формулировка относится к несмещённым оценкам, но неравенство обобщается и на смещённые. Пусть оценка имеет смещение b(θ)=E[θ^]θb(\theta) = E[\hat{\theta}] - \theta, и обозначим g(θ)=E[θ^]=θ+b(θ)g(\theta) = E[\hat{\theta}] = \theta + b(\theta). Тогда нижняя граница дисперсии записывается так:

D[θ^](g(θ))2In(θ)=(1+b(θ))2In(θ).D[\hat{\theta}] \ge \frac{\bigl(g'(\theta)\bigr)^2}{I_n(\theta)} = \frac{\bigl(1 + b'(\theta)\bigr)^2}{I_n(\theta)}.

Для несмещённой оценки b(θ)0b(\theta) \equiv 0, поэтому g(θ)=1g'(\theta) = 1, и формула превращается в классическую D[θ^]1In(θ)D[\hat{\theta}] \ge \frac{1}{I_n(\theta)}. Обобщённая версия полезна, когда сравнивают слегка смещённые оценки с меньшей дисперсией - иногда они оказываются точнее по среднеквадратичной ошибке, чем любая несмещённая.

Эффективная оценка и достижение границы

Несмещённую оценку называют эффективной, если её дисперсия в точности равна нижней границе Крамера-Рао:

D[θ^]=1In(θ).D[\hat{\theta}] = \frac{1}{I_n(\theta)}.

Эффективная оценка - это оптимальная оценка в классе несмещённых: меньшей дисперсии достичь невозможно. Граница достигается тогда и только тогда, когда функция вклада линейно выражается через оценку:

θlnL(θ)=In(θ)(θ^θ),\frac{\partial}{\partial \theta} \ln L(\theta) = I_n(\theta)\,(\hat{\theta} - \theta),

где L(θ)L(\theta) - функция правдоподобия выборки. Это условие выполняется именно для экспоненциального семейства распределений, и в таких моделях оценка максимального правдоподобия часто оказывается эффективной. Отношение нижней границы к фактической дисперсии называют эффективностью оценки; для эффективной оценки оно равно единице. Эффективность тесно связана и с другими асимптотическими свойствами - например, состоятельностью оценки: оценки максимального правдоподобия при условиях регулярности и состоятельны, и асимптотически эффективны.

Пример: вычисление границы для распределения Пуассона

Рассмотрим выборку X1,,XnX_1, \dots, X_n из распределения Пуассона с параметром λ\lambda. Логарифм вероятностной функции одного наблюдения:

lnf(x;λ)=λ+xlnλln(x!).\ln f(x; \lambda) = -\lambda + x \ln \lambda - \ln(x!).

Вторая производная по λ\lambda равна xλ2-\frac{x}{\lambda^2}, поэтому информация Фишера одного наблюдения:

I(λ)=E ⁣[Xλ2]=E[X]λ2=λλ2=1λ.I(\lambda) = -E\!\left[-\frac{X}{\lambda^2}\right] = \frac{E[X]}{\lambda^2} = \frac{\lambda}{\lambda^2} = \frac{1}{\lambda}.

Для всей выборки In(λ)=nλI_n(\lambda) = \frac{n}{\lambda}, и неравенство Крамера-Рао даёт нижнюю границу:

D[λ^]λn.D[\hat{\lambda}] \ge \frac{\lambda}{n}.

Оценка λ^=Xˉ\hat{\lambda} = \bar{X} (выборочное среднее) несмещённая, а её дисперсия равна D[X]n=λn\frac{D[X]}{n} = \frac{\lambda}{n} - ровно граница. Значит, Xˉ\bar{X} является эффективной оценкой параметра λ\lambda. Аналогично для распределения Бернулли Xˉ\bar{X} эффективно оценивает вероятность успеха pp с границей p(1p)n\frac{p(1-p)}{n}.

Многомерный случай и матрица Фишера

Когда параметр векторный, θ=(θ1,,θk)\boldsymbol{\theta} = (\theta_1, \dots, \theta_k), информация Фишера становится матрицей In(θ)\mathbf{I}_n(\boldsymbol{\theta}) с элементами

[I(θ)]ij=E ⁣[2θiθjlnf(X;θ)].[\mathbf{I}(\boldsymbol{\theta})]_{ij} = -E\!\left[\frac{\partial^2}{\partial \theta_i \, \partial \theta_j} \ln f(X; \boldsymbol{\theta})\right].

Неравенство Крамера-Рао тогда формулируется для ковариационной матрицы несмещённой оценки θ^\hat{\boldsymbol{\theta}}: разность Cov(θ^)In1(θ)\mathrm{Cov}(\hat{\boldsymbol{\theta}}) - \mathbf{I}_n^{-1}(\boldsymbol{\theta}) неотрицательно определена. В частности, для каждой компоненты дисперсия ограничена снизу соответствующим диагональным элементом обратной матрицы Фишера, D[θ^i][In1]iiD[\hat{\theta}_i] \ge [\mathbf{I}_n^{-1}]_{ii}. Это и есть рабочая форма границы в задачах с несколькими параметрами, например при одновременной оценке среднего и дисперсии нормального распределения.

Частые ошибки

  • Применяют неравенство к нерегулярным моделям. Для U(0,θ)U(0,\theta) носитель зависит от параметра, условия регулярности нарушены, и граница неверна - там оценка может иметь дисперсию меньше «наивной» границы.
  • Путают информацию Фишера выборки и одного наблюдения. В границу подставляют In(θ)=nI(θ)I_n(\theta) = n\,I(\theta), а не I(θ)I(\theta); иначе теряется множитель nn.
  • Считают, что граница всегда достижима. Эффективная (достигающая границы) оценка существует не во всякой модели; вне экспоненциального семейства точное равенство часто недостижимо при конечном nn.
  • Игнорируют смещение. Для смещённой оценки нужно использовать обобщённую форму с множителем (g(θ))2\bigl(g'(\theta)\bigr)^2, иначе вывод об «нарушении» границы ошибочен.
  • Забывают про знак во второй форме. Информация через вторую производную идёт со знаком минус: I(θ)=E[2lnf/θ2]I(\theta) = -E[\partial^2 \ln f / \partial\theta^2].

FAQ

Может ли дисперсия несмещённой оценки быть меньше границы Крамера-Рао? Нет, если выполнены условия регулярности - в этом и состоит смысл неравенства. Если же модель нерегулярна (например, носитель зависит от параметра), граница неприменима, и дисперсия может оказаться меньше формальной «оценки снизу».

Как понять, что оценка эффективна? Нужно вычислить её дисперсию и нижнюю границу 1/In(θ)1/I_n(\theta). Если они совпадают при всех значениях параметра, оценка эффективна. Эквивалентно - проверить, что функция вклада линейно выражается через оценку.

Связано ли неравенство Крамера-Рао с методом максимального правдоподобия? Да. При условиях регулярности оценки максимального правдоподобия асимптотически эффективны: их дисперсия стремится к границе Крамера-Рао при росте выборки. Для экспоненциального семейства они часто эффективны и при конечном nn.

Коротко

Неравенство Крамера-Рао утверждает, что дисперсия несмещённой оценки не меньше обратной информации Фишера: D[θ^]1/In(θ)D[\hat{\theta}] \ge 1/I_n(\theta). Информация Фишера I(θ)=E[2lnf/θ2]I(\theta) = -E[\partial^2 \ln f / \partial\theta^2] измеряет «количество знания» о параметре в данных и аддитивна по наблюдениям, поэтому граница убывает как 1/n1/n. Неравенство работает только при условиях регулярности, главное из которых - независимость носителя от параметра. Оценка, достигающая границы, называется эффективной; такие оценки существуют прежде всего в экспоненциальном семействе, где их обычно даёт метод максимального правдоподобия. Для смещённых оценок и векторного параметра есть обобщённые формы через множитель (g(θ))2(g'(\theta))^2 и обратную матрицу Фишера.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также