Достаточная статистика: что это и критерий факторизации

Достаточная статистика - это функция от выборки, которая сохраняет всю информацию о неизвестном параметре, содержащуюся в исходных данных. Если такая статистика известна, то остаток выборки уже ничего не добавляет к знанию о параметре: условное распределение выборки при фиксированном значении статистики от параметра не зависит. Это одно из центральных понятий математической статистики - оно лежит в основе сжатия данных без потери информации, теоремы Рао-Блэкуэлла и построения эффективных оценок. Ниже разберём строгое определение достаточной статистики, удобный на практике критерий факторизации Неймана-Фишера, связь с функцией правдоподобия и типовые примеры.
Что такое достаточная статистика
Пусть имеется выборка из распределения с плотностью (или вероятностью) , зависящего от неизвестного параметра . Статистикой называют любую функцию от выборки , не зависящую от - например, сумму, среднее или максимум наблюдений.
Идея достаточности проста: мы хотим заменить громоздкую выборку из чисел одним (или несколькими) числами так, чтобы при этом не потерять ничего, что говорит о параметре. Если по значению можно восстановить ровно столько же сведений о , сколько даёт вся выборка, то называют достаточной статистикой. Чтобы быстро проверить конкретную статистику на достаточность по критерию факторизации, ниже есть интерактивный помощник.
Достаточная статистика: строгое определение
Статистика называется достаточной для параметра , если условное распределение выборки при фиксированном значении не зависит от :
Содержательно это и есть формализация «отсутствия потери информации»: как только мы зафиксировали значение , параметр уже никак не влияет на то, какой именно набор наблюдений мы получили. Поэтому для любых статистических выводов о достаточно знать одно лишь значение , а не всю выборку.
Проверять достаточность прямо по определению неудобно: нужно выписывать условное распределение и доказывать его независимость от . На практике почти всегда пользуются эквивалентным критерием факторизации.
Критерий факторизации Неймана-Фишера
Главный рабочий инструмент - теорема факторизации Неймана-Фишера. Статистика достаточна для тогда и только тогда, когда совместная плотность (функция правдоподобия) представима в виде произведения двух множителей:
Здесь первый множитель зависит от данных только через значение статистики и от параметра , а второй множитель не зависит от вовсе (он может произвольно зависеть от выборки). Если такое разложение найдено - статистика достаточна; если функция правдоподобия принципиально не факторизуется в таком виде - нет.
Критерий удобен тем, что не требует вычислять условные распределения: достаточно записать совместную плотность и попытаться выделить в ней множитель, который «трогает» данные исключительно через . Именно поэтому в задачах на достаточность почти всегда отправной точкой служит функция правдоподобия.
Полезно помнить, что разложение в критерии не единственно: множители и определены с точностью до постоянного множителя, и часть «безобидных» сомножителей, не зависящих от , можно по желанию переносить в . Это не меняет вывода о достаточности - важна лишь принципиальная возможность отделить зависимость от данных, идущую через , от зависимости от . Если же в плотности параметр цепляется к данным способом, не сводимым к одной статистике (например, через несколько разных функций выборки), то такая достаточной не будет, и факторизация просто не получится.
Связь с функцией правдоподобия
Функция правдоподобия - это совместная плотность выборки, рассматриваемая как функция параметра при фиксированных данных. Критерий факторизации говорит, что достаточная статистика - это ровно та величина, через которую данные входят в правдоподобие.
Отсюда следствие: оценка максимального правдоподобия всегда является функцией достаточной статистики, ведь максимум ищется по тем же множителям , а множитель на положение максимума не влияет. Это связывает достаточность с теорией эффективных оценок: по теореме Рао-Блэкуэлла усреднение любой несмещённой оценки по достаточной статистике не ухудшает её, а уменьшает дисперсию. Достаточность тесно соприкасается и с информацией Фишера - она задаёт нижнюю границу точности через неравенство Крамера-Рао, и оценка на основе достаточной статистики имеет шанс эту границу достичь.
С достаточностью связана и важная для практики идея состоятельности: оценки, построенные на достаточной статистике, при росте объёма выборки сходятся к истинному значению параметра. Подробнее это свойство разобрано в материале про состоятельную оценку параметра - там показано, как асимптотическая несмещённость и убывание дисперсии вместе дают сходимость по вероятности.
Минимальная достаточная статистика
Достаточных статистик у одной модели много: сама выборка всегда достаточна (тривиально), а любая взаимно однозначная функция от достаточной статистики тоже достаточна. Интерес представляет максимально «сжатая» версия.
Достаточная статистика называется минимальной, если она является функцией от любой другой достаточной статистики. Минимальная статистика обеспечивает наибольшее возможное сжатие данных без потери информации о параметре. Практический критерий минимальности (Лемана-Шеффе): минимальна, если отношение правдоподобий
не зависит от в точности тогда, когда . Для большинства распространённых распределений (нормальное, пуассоновское, экспоненциальное) минимальная достаточная статистика - это набор выборочных сумм соответствующих степеней.
Примеры достаточных статистик
Рассмотрим выборку из распределения Бернулли с параметром . Функция правдоподобия равна , то есть данные входят только через сумму . По критерию факторизации - достаточная статистика для .
Для пуассоновского распределения с параметром правдоподобие пропорционально , и снова достаточной статистикой служит сумма . Для нормального распределения с двумя неизвестными параметрами достаточной является пара
через которую полностью восстанавливаются выборочное среднее и выборочная дисперсия. Эти примеры - частные случаи общего факта: для экспоненциального семейства распределений достаточной статистикой всегда служит набор сумм естественных статистик.
Частые ошибки
- Путают статистику и её значение. Достаточность - свойство функции как случайной величины, а не конкретного числа, полученного на одной выборке.
- Считают достаточной любую сжимающую статистику. Среднее, максимум или медиана не обязаны быть достаточными - сжатие данных без потери информации гарантирует только факторизация правдоподобия.
- Забывают про множитель . В критерии факторизации может как угодно зависеть от выборки; важно лишь, чтобы он не зависел от , а касался данных только через .
- Смешивают достаточность и минимальность. Сама выборка всегда достаточна, но почти никогда не минимальна; минимальная статистика - это максимально сжатая достаточная.
- Думают, что достаточная статистика единственна. Любая биекция от достаточной статистики тоже достаточна, поэтому говорить о «той самой» статистике можно лишь с точностью до взаимно однозначного преобразования.
FAQ
Чем достаточная статистика отличается от любой другой? Достаточная статистика сохраняет всю информацию о параметре: условное распределение выборки при её фиксированном значении не зависит от . Произвольная статистика этим свойством не обладает - она может «выбросить» часть сведений о параметре.
Как проще всего проверить статистику на достаточность? Записать функцию правдоподобия и применить критерий факторизации Неймана-Фишера: если плотность раскладывается в произведение , где не зависит от , то достаточна.
Зачем нужна достаточная статистика на практике? Она позволяет сжать выборку до нескольких чисел без потери информации, лежит в основе оценок максимального правдоподобия и теоремы Рао-Блэкуэлла, по которой усреднение оценки по достаточной статистике уменьшает её дисперсию.
Коротко
Достаточная статистика - функция от выборки , при фиксированном значении которой условное распределение данных не зависит от параметра , то есть она сохраняет всю информацию о . На практике достаточность проверяют не по определению, а по критерию факторизации Неймана-Фишера: правдоподобие должно раскладываться в произведение . Достаточная статистика связана с функцией правдоподобия (через неё данные входят в ), порождает оценки максимального правдоподобия и, по теореме Рао-Блэкуэлла, эффективные оценки. Максимально сжатую версию называют минимальной достаточной статистикой; для экспоненциальных семейств это набор выборочных сумм.
Читайте также

Метод моментов: оценивание параметров распределения
Метод моментов оценивание параметров: суть приёма, приравнивание выборочных и теоретических моментов, пошаговый алгоритм, примеры для нормального, показательного и равномерного распределений, свойства и ошибки.

Неравенство Крамера-Рао: нижняя граница дисперсии
Неравенство Крамера-Рао: строгая формулировка нижней границы дисперсии несмещённой оценки, информация Фишера, условия регулярности, эффективные оценки и примеры вычисления границы.

Состоятельная оценка параметра: определение и проверка
Состоятельная оценка параметра: строгое определение через сходимость по вероятности, разница со смещённостью, достаточные условия, закон больших чисел и примеры проверки оценок на состоятельность.