Формула Байеса: пример решения с разбором по шагам

Формула Байеса отвечает на один практический вопрос: как изменить веру в гипотезу, когда поступил новый факт. До эксперимента у каждой гипотезы есть своя априорная вероятность; после того как событие произошло, эти вероятности нужно пересчитать. Самый частый сюжет в задачах - медицинский тест, который иногда ошибается, или две урны с разным составом шаров. Разберём формулу Байеса на конкретном примере решения, выведем её из определения условной вероятности и покажем, где студенты чаще всего ошибаются с числами.
Чтобы не считать дроби вручную, ниже стоит калькулятор: задайте долю носителей и точность теста ползунками, и он сразу покажет апостериорную вероятность болезни при положительном результате вместе с деревом исходов.
Что такое формула Байеса
Пусть событие уже произошло (например, тест дал положительный результат), а нас интересует одна из взаимоисключающих гипотез , которые могли к этому привести. Формула Байеса пересчитывает вероятность гипотезы при условии, что наступило :
Здесь - априорная вероятность гипотезы (что мы думали до наблюдения), - правдоподобие (насколько вероятно событие , если верна гипотеза ), а - апостериорная вероятность (пересчитанная вера после наблюдения). Знаменатель - полная вероятность события , он играет роль нормировки, чтобы сумма апостериорных вероятностей по всем гипотезам равнялась единице.
Откуда берётся формула: вывод за две строки
Формула Байеса не постулат, а прямое следствие определения условной вероятности. По определению условная вероятность события при условии равна
Вероятность пересечения можно расписать двумя симметричными способами - через и через :
Приравняв правые части и поделив на , получаем формулу Байеса. Никакой магии: это просто два взгляда на одну и ту же совместную вероятность. Свойства самих вероятностей при этом остаются обычными - подробнее о них в материале про функцию распределения случайной величины.
Формула полной вероятности в знаменателе
Чтобы посчитать , используют формулу полной вероятности. Если гипотезы образуют полную группу (несовместны и покрывают всё пространство исходов), то
Это сумма по всем путям, которыми событие может наступить. В задаче с тестом таких путей ровно два: «болен и тест положителен» плюс «здоров и тест ошибочно положителен». Подставив эту сумму в знаменатель формулы Байеса, получаем рабочую формулу:

Пример решения: тест на болезнь
Классическая задача. Болезнью страдает населения. Тест выявляет болезнь у больного с вероятностью (чувствительность), но у здорового даёт ложноположительный результат в случаев. Человек получил положительный результат. Какова вероятность, что он действительно болен?
Обозначим гипотезы: - человек болен, - здоров. Событие - тест положителен.
Шаг 1. Априорные вероятности.
Шаг 2. Правдоподобия (точность теста).
Шаг 3. Полная вероятность положительного теста.
Шаг 4. Формула Байеса.
Ответ: около . Несмотря на «точный» тест, вероятность болезни после положительного результата меньше одной шестой. Причина - редкость болезни: здоровых так много, что даже ложных срабатываний дают больше положительных тестов, чем все настоящие больные вместе взятые. Это контринтуитивно, и именно поэтому задача так любима экзаменаторами.
Прикидка без формулы: возьмите 10 000 человек. Больны 100, тест поймает 99 из них. Здоровы 9 900, тест ошибётся у 495. Положительных всего 99 + 495 = 594, из них настоящих больных 99. Доля 99/594 ≈ 0,167 - тот же ответ, но нагляднее.
Второй пример: задача о двух урнах
В первой урне 6 белых и 4 чёрных шара, во второй - 3 белых и 7 чёрных. Наугад выбирают урну (равновероятно) и достают шар. Он оказался белым. Какова вероятность, что шар взяли из первой урны?
Гипотезы: - выбрана первая урна, - вторая; . Событие - вынут белый шар.
Полная вероятность белого шара:
Апостериорная вероятность первой урны:
Белый шар сместил веру с равных к в пользу первой урны - логично, ведь белых там вдвое больше. Эта же схема пересчёта работает в любой задаче «выбрали источник, наблюдаем результат, ищем источник».

Шансы и байесовский коэффициент
Иногда удобнее считать не вероятности, а шансы (отношение вероятностей гипотез). Тогда формула Байеса принимает особенно компактный вид:
Множитель называют байесовским коэффициентом (likelihood ratio): он показывает, во сколько раз наблюдение поддерживает первую гипотезу против второй. В примере с тестом шансы до составляли , коэффициент , шансы после , то есть - снова тот же результат. В этой форме видно главное: сильное наблюдение сдвигает шансы, но не может перебить очень малую априорную вероятность за один шаг.
Частые ошибки
- Путают и . Чувствительность теста - это не вероятность болезни при положительном тесте. Перестановка условия и события (prosecutor's fallacy) - главная ошибка в байесовских задачах.
- Забывают про знаменатель. Считают только числитель и думают, что это уже ответ. Без деления на полную вероятность числа не нормированы и в сумму не дают единицу.
- Игнорируют редкость гипотезы. Малая априорная вероятность радикально снижает апостериорную, даже при высокой точности теста. «Тест точный на 99%» само по себе ничего не значит без базовой частоты.
- Берут неполную группу гипотез. Формула полной вероятности работает, только если гипотезы несовместны и покрывают всё. Пропустишь вариант - знаменатель занижен, ответ завышен.
- Округляют слишком рано. Промежуточные произведения вроде лучше держать точными до финального деления, иначе накапливается ошибка.
FAQ
Чем отличаются априорная и апостериорная вероятности? Априорная - вера в гипотезу до наблюдения, апостериорная - пересчитанная вера после того, как событие наступило. Формула Байеса - это и есть правило перехода от первой ко второй.
Когда применяют формулу Байеса, а когда формулу полной вероятности? Формула полной вероятности считает вперёд, когда известны гипотезы и их вклад. Формула Байеса идёт обратно: по наступившему восстанавливает вероятность гипотезы. Полная вероятность обычно стоит внутри байесовской формулы как знаменатель. Похожая логика подсчёта по всем исходам встречается и в схеме Бернулли.
Почему при точном тесте вероятность болезни всё равно низкая? Из-за редкости болезни. Здоровых людей в сотню раз больше, поэтому небольшой процент ложных срабатываний у них перевешивает все верные срабатывания у немногих больных. Это эффект базовой частоты, а не дефект формулы.
Коротко
Формула Байеса пересчитывает вероятность гипотезы после наблюдения события : апостериорная вероятность равна произведению априорной на правдоподобие, делённому на полную вероятность . Полная вероятность в знаменателе суммирует все пути наступления по полной группе гипотез. В примере с тестом на редкую болезнь положительный результат даёт всего около вероятности болезни, в задаче о двух урнах белый шар сдвигает веру к в пользу более «белой» урны. Главные ошибки - перестановка условия и события, потеря знаменателя и недооценка базовой частоты. В форме шансов формула становится умножением шансов до наблюдения на байесовский коэффициент.
Читайте также

Апостериорная вероятность гипотезы: формула Байеса
Что такое апостериорная вероятность гипотезы и как её считать по формуле Байеса: разбор множителей, связь с полной вероятностью, пошаговый пример и типичные ошибки.

Парадокс Монти Холла: почему выгодно менять дверь
Парадокс Монти Холла с тремя дверями простыми словами: почему смена выбора даёт вероятность выигрыша 2/3, разбор через перебор исходов и формулу Байеса, частые ошибки и FAQ.

Условная вероятность: определение и пример с разбором
Что такое условная вероятность простыми словами: строгое определение через формулу, понятный пример с разбором по шагам, связь с независимостью событий и формулой Байеса.