Апостериорная вероятность гипотезы: формула Байеса

Апостериорная вероятность гипотезы - это пересчитанная вероятность причины после того, как мы увидели её следствие. До опыта у нас есть набор взаимоисключающих гипотез и их априорные вероятности; формула Байеса берёт результат наблюдения и превращает эти исходные веры в новые, уже учитывающие данные. Ниже разберём, из чего собрана формула, и сразу дадим калькулятор, в котором видно, как одно наблюдение перераспределяет вероятности между гипотезами.
Что такое апостериорная вероятность гипотезы
Пусть событие может произойти только вместе с одной из несовместных гипотез , которые образуют полную группу: . Числа - это априорные вероятности гипотез, наше знание до опыта. Условные вероятности говорят, насколько каждая гипотеза «ожидает» событие .
Когда событие наступило, нас интересует обратный вопрос: какова теперь вероятность каждой гипотезы? Эта пересчитанная величина и называется апостериорной вероятностью гипотезы. Приставка «апостериори» (от лат. a posteriori - «из последующего») подчёркивает, что число получено уже после наблюдения, в отличие от «априори» - «из предшествующего».

Ключевая идея: наблюдение не отменяет гипотезы, а перевешивает их. Гипотеза, которая лучше объясняет случившееся (выше ), получает прибавку к вероятности, а та, при которой событие маловероятно, - теряет вес.
Формула Байеса для гипотез
Сама формула апостериорной вероятности выводится из двух более простых фактов. Первый - теорема умножения вероятностей: совместная вероятность гипотезы и события равна , и она же равна . Второй - формула полной вероятности, которая собирает вероятность самого события по всем гипотезам:
Приравняв два выражения для совместной вероятности и выразив искомое, получаем формулу Байеса:
В числителе - вклад одной гипотезы в событие, в знаменателе - суммарный вклад всех гипотез, то есть полная вероятность . Поэтому апостериорная вероятность гипотезы - это доля «её» части в общем объёме события. Формула полной вероятности здесь не вспомогательный шаг, а знаменатель: без неё дробь не нормируется. Подробнее о том, как раскрывается событие через несовместные исходы, - в разборе условной вероятности с примером.
Сумма всех апостериорных вероятностей по полной группе гипотез всегда равна единице. Это удобная проверка: если после расчёта они не складываются в 1, где-то потеряна гипотеза или перепутан множитель.
Разбор множителей: априорная и правдоподобие
В формуле Байеса полезно различать два сомножителя в числителе, потому что они отвечают за разное.
- Априорная вероятность - это исходный вес гипотезы, наше знание до данных. Иногда она задаётся условием (доли цехов, распределение урн), иногда берётся из равноправия гипотез: если выбор «наугад», то .
- Правдоподобие - насколько хорошо гипотеза объясняет наблюдение. Это не вероятность гипотезы и не апостериорная вероятность: правдоподобия по разным гипотезам в сумму не складываются, ведь они условны при разных условиях.
Апостериорная вероятность пропорциональна произведению этих двух чисел: . Знаменатель лишь приводит набор произведений к сумме, равной единице. Поэтому формулу часто читают как «апостериорное ∝ априорное × правдоподобие».

Из этого следует неинтуитивный, но важный вывод: редкая гипотеза с высоким правдоподобием может проиграть частой гипотезе с умеренным правдоподобием - и наоборот. Именно поэтому в задачах на болезни и тесты результат часто удивляет: при редкой болезни даже точный тест даёт невысокую апостериорную вероятность.
Запись через отношение шансов
Когда гипотез всего две, формулу удобно переписать в виде отношения шансов - так нагляднее видно, во сколько раз наблюдение меняет соотношение вер. Поделим апостериорную вероятность одной гипотезы на другую:
Знаменатель сократился, потому что он общий для обеих гипотез. Левая часть - апостериорные шансы, первый множитель справа - априорные шансы, второй - отношение правдоподобий (его называют байесовским фактором). Формула читается просто: «апостериорные шансы равны априорным, умноженным на байесовский фактор». Если фактор больше единицы, наблюдение сдвигает веру в пользу первой гипотезы; если меньше - в пользу второй. Эта запись особенно удобна, когда саму полную вероятность считать не хочется: достаточно сравнить, насколько по-разному гипотезы объясняют одно и то же событие.
Пошаговый пример: три источника детали
Пусть деталь попадает к нам от одного из трёх поставщиков. Первый даёт всей продукции, второй , третий . Доля брака у них разная: , , , где - «деталь бракованная». Взятая наугад деталь оказалась бракованной. От какого поставщика она вероятнее всего?
Шаг 1 - совместные вероятности (числители):
Шаг 2 - полная вероятность брака (знаменатель):
Шаг 3 - апостериорные вероятности гипотез:
Хотя априори первый поставщик был самым крупным (50%), после обнаружения брака наиболее вероятным источником стал третий: его высокая доля брака перевесила небольшую исходную долю. Сумма - проверка сошлась. Поиграйте этими числами в калькуляторе выше: видно, что увеличение доли брака у источника поднимает его апостериорную вероятность даже при малой априорной доле.
Где встречается апостериорная вероятность
Формула Байеса работает везде, где есть конкурирующие объяснения наблюдаемого факта.
- Медицинская диагностика: гипотезы «болен / здоров», событие - положительный тест. Апостериорная вероятность болезни сильно зависит от её распространённости (априорной вероятности).
- Контроль качества: какой из цехов вероятнее всего выпустил бракованную партию.
- Машинное обучение: наивный байесовский классификатор присваивает объекту класс с наибольшей апостериорной вероятностью.
- Проверка версий и экспертиза: какая из взаимоисключающих причин вероятнее при имеющихся уликах.
Во всех случаях гипотезы должны образовывать полную группу несовместных событий - иначе знаменатель не равен и нормировка ломается. Если гипотез всего две (например, «выполняется » и «не выполняется»), формула сводится к частному случаю, близкому к разбору статистических гипотез: нулевой и альтернативной.
Частые ошибки
- Путают и . Это разные условные вероятности: апостериорная вероятность гипотезы и правдоподобие наблюдения. Их перестановка - самая частая ошибка во всей теме.
- Берут неполную группу гипотез. Если или гипотезы пересекаются, формула полной вероятности в знаменателе неверна, и апостериорные вероятности не складываются в единицу.
- Складывают правдоподобия. по разным гипотезам в сумму не объединяются - складываются только совместные вероятности .
- Забывают про априорную вероятность. Сравнивают гипотезы только по правдоподобию и игнорируют исходные доли - тогда редкая, но «точная» гипотеза кажется вероятнее, чем она есть.
- Округляют слишком рано. Промежуточные произведения малы; при раннем округлении знаменатель смещается и итог уезжает на проценты.
FAQ
Чем апостериорная вероятность отличается от априорной? Априорная вероятность - это вес гипотезы до опыта, апостериорная - после того как наблюдено событие . Формула Байеса - это правило перехода от первой ко второй: она домножает априорную вероятность на правдоподобие и нормирует результат.
Что считать гипотезами, а что событием? Гипотезы - взаимоисключающие причины или состояния, образующие полную группу (источник детали, наличие болезни, выбранная урна). Событие - наблюдаемое следствие (брак, положительный тест, вынутый шар). Считаем вероятность причины по наблюдённому следствию.
Можно ли применять формулу повторно? Да. Апостериорная вероятность после первого наблюдения становится априорной для следующего. Так байесовское обновление накапливает данные: каждое новое наблюдение последовательно уточняет вероятности гипотез.
Коротко
Апостериорная вероятность гипотезы - это вероятность причины, пересчитанная после наблюдения события. По формуле Байеса она равна произведению априорной вероятности на правдоподобие , делённому на полную вероятность события . Главное - не путать с , брать полную группу несовместных гипотез и помнить, что сумма всех апостериорных вероятностей равна единице.
Читайте также

Парадокс Монти Холла: почему выгодно менять дверь
Парадокс Монти Холла с тремя дверями простыми словами: почему смена выбора даёт вероятность выигрыша 2/3, разбор через перебор исходов и формулу Байеса, частые ошибки и FAQ.

Условная вероятность: определение и пример с разбором
Что такое условная вероятность простыми словами: строгое определение через формулу, понятный пример с разбором по шагам, связь с независимостью событий и формулой Байеса.

Формула Байеса: пример решения с разбором по шагам
Формула Байеса: пример решения задачи о медицинском тесте и о двух урнах. Как пересчитать вероятность гипотезы после нового факта, формула полной вероятности и типичные ошибки.