EssayAI
Блог
Блог
Математика и алгоритмы

Формула Байеса: пример решения с разбором по шагам

19 июня 2026Время чтения: 8 минут
#формула байеса#условная вероятность#апостериорная вероятность#полная вероятность#теория вероятностей
Формула Байеса: пример решения с разбором по шагам

Формула Байеса отвечает на один практический вопрос: как изменить веру в гипотезу, когда поступил новый факт. До эксперимента у каждой гипотезы есть своя априорная вероятность; после того как событие произошло, эти вероятности нужно пересчитать. Самый частый сюжет в задачах - медицинский тест, который иногда ошибается, или две урны с разным составом шаров. Разберём формулу Байеса на конкретном примере решения, выведем её из определения условной вероятности и покажем, где студенты чаще всего ошибаются с числами.

Чтобы не считать дроби вручную, ниже стоит калькулятор: задайте долю носителей и точность теста ползунками, и он сразу покажет апостериорную вероятность болезни при положительном результате вместе с деревом исходов.

Что такое формула Байеса

Пусть событие AA уже произошло (например, тест дал положительный результат), а нас интересует одна из взаимоисключающих гипотез HiH_i, которые могли к этому привести. Формула Байеса пересчитывает вероятность гипотезы HiH_i при условии, что наступило AA:

P(HiA)=P(Hi)P(AHi)P(A).P(H_i \mid A) = \frac{P(H_i)\,P(A \mid H_i)}{P(A)}.

Здесь P(Hi)P(H_i) - априорная вероятность гипотезы (что мы думали до наблюдения), P(AHi)P(A \mid H_i) - правдоподобие (насколько вероятно событие AA, если верна гипотеза HiH_i), а P(HiA)P(H_i \mid A) - апостериорная вероятность (пересчитанная вера после наблюдения). Знаменатель P(A)P(A) - полная вероятность события AA, он играет роль нормировки, чтобы сумма апостериорных вероятностей по всем гипотезам равнялась единице.

Откуда берётся формула: вывод за две строки

Формула Байеса не постулат, а прямое следствие определения условной вероятности. По определению условная вероятность события BB при условии AA равна

P(BA)=P(AB)P(A).P(B \mid A) = \frac{P(A \cap B)}{P(A)}.

Вероятность пересечения можно расписать двумя симметричными способами - через AA и через BB:

P(AHi)=P(A)P(HiA)=P(Hi)P(AHi).P(A \cap H_i) = P(A)\,P(H_i \mid A) = P(H_i)\,P(A \mid H_i).

Приравняв правые части и поделив на P(A)P(A), получаем формулу Байеса. Никакой магии: это просто два взгляда на одну и ту же совместную вероятность. Свойства самих вероятностей при этом остаются обычными - подробнее о них в материале про функцию распределения случайной величины.

Формула полной вероятности в знаменателе

Чтобы посчитать P(A)P(A), используют формулу полной вероятности. Если гипотезы H1,,HnH_1, \dots, H_n образуют полную группу (несовместны и покрывают всё пространство исходов), то

P(A)=k=1nP(Hk)P(AHk).P(A) = \sum_{k=1}^{n} P(H_k)\,P(A \mid H_k).

Это сумма по всем путям, которыми событие AA может наступить. В задаче с тестом таких путей ровно два: «болен и тест положителен» плюс «здоров и тест ошибочно положителен». Подставив эту сумму в знаменатель формулы Байеса, получаем рабочую формулу:

P(HiA)=P(Hi)P(AHi)kP(Hk)P(AHk).P(H_i \mid A) = \frac{P(H_i)\,P(A \mid H_i)}{\sum_{k} P(H_k)\,P(A \mid H_k)}.
Дерево исходов теста на болезнь: ветви болен и здоров, под каждой положительный и отрицательный результат, апостериорная вероятность как доля красной ветви
Дерево исходов теста на болезнь: ветви болен и здоров, под каждой положительный и отрицательный результат, апостериорная вероятность как доля красной ветви

Пример решения: тест на болезнь

Классическая задача. Болезнью страдает 1%1\% населения. Тест выявляет болезнь у больного с вероятностью 99%99\% (чувствительность), но у здорового даёт ложноположительный результат в 5%5\% случаев. Человек получил положительный результат. Какова вероятность, что он действительно болен?

Обозначим гипотезы: H1H_1 - человек болен, H2H_2 - здоров. Событие AA - тест положителен.

Шаг 1. Априорные вероятности.

P(H1)=0,01,P(H2)=0,99.P(H_1) = 0{,}01, \qquad P(H_2) = 0{,}99.

Шаг 2. Правдоподобия (точность теста).

P(AH1)=0,99,P(AH2)=0,05.P(A \mid H_1) = 0{,}99, \qquad P(A \mid H_2) = 0{,}05.

Шаг 3. Полная вероятность положительного теста.

P(A)=0,010,99+0,990,05=0,0099+0,0495=0,0594.P(A) = 0{,}01 \cdot 0{,}99 + 0{,}99 \cdot 0{,}05 = 0{,}0099 + 0{,}0495 = 0{,}0594.

Шаг 4. Формула Байеса.

P(H1A)=0,010,990,0594=0,00990,05940,167.P(H_1 \mid A) = \frac{0{,}01 \cdot 0{,}99}{0{,}0594} = \frac{0{,}0099}{0{,}0594} \approx 0{,}167.

Ответ: около 16,7%16{,}7\%. Несмотря на «точный» тест, вероятность болезни после положительного результата меньше одной шестой. Причина - редкость болезни: здоровых так много, что даже 5%5\% ложных срабатываний дают больше положительных тестов, чем все настоящие больные вместе взятые. Это контринтуитивно, и именно поэтому задача так любима экзаменаторами.

Прикидка без формулы: возьмите 10 000 человек. Больны 100, тест поймает 99 из них. Здоровы 9 900, тест ошибётся у 495. Положительных всего 99 + 495 = 594, из них настоящих больных 99. Доля 99/594 ≈ 0,167 - тот же ответ, но нагляднее.

Второй пример: задача о двух урнах

В первой урне 6 белых и 4 чёрных шара, во второй - 3 белых и 7 чёрных. Наугад выбирают урну (равновероятно) и достают шар. Он оказался белым. Какова вероятность, что шар взяли из первой урны?

Гипотезы: H1H_1 - выбрана первая урна, H2H_2 - вторая; P(H1)=P(H2)=0,5P(H_1) = P(H_2) = 0{,}5. Событие AA - вынут белый шар.

P(AH1)=610=0,6,P(AH2)=310=0,3.P(A \mid H_1) = \frac{6}{10} = 0{,}6, \qquad P(A \mid H_2) = \frac{3}{10} = 0{,}3.

Полная вероятность белого шара:

P(A)=0,50,6+0,50,3=0,45.P(A) = 0{,}5 \cdot 0{,}6 + 0{,}5 \cdot 0{,}3 = 0{,}45.

Апостериорная вероятность первой урны:

P(H1A)=0,50,60,45=0,30,450,667.P(H_1 \mid A) = \frac{0{,}5 \cdot 0{,}6}{0{,}45} = \frac{0{,}3}{0{,}45} \approx 0{,}667.

Белый шар сместил веру с равных 50%50\% к 66,7%66{,}7\% в пользу первой урны - логично, ведь белых там вдвое больше. Эта же схема пересчёта работает в любой задаче «выбрали источник, наблюдаем результат, ищем источник».

Сравнение априорной и апостериорной вероятностей: левая шкала равные доли гипотез, правая шкала после наблюдения, стрелка пересчёта
Сравнение априорной и апостериорной вероятностей: левая шкала равные доли гипотез, правая шкала после наблюдения, стрелка пересчёта

Шансы и байесовский коэффициент

Иногда удобнее считать не вероятности, а шансы (отношение вероятностей гипотез). Тогда формула Байеса принимает особенно компактный вид:

P(H1A)P(H2A)шансы после=P(H1)P(H2)шансы доP(AH1)P(AH2)коэффициент.\underbrace{\frac{P(H_1 \mid A)}{P(H_2 \mid A)}}_{\text{шансы после}} = \underbrace{\frac{P(H_1)}{P(H_2)}}_{\text{шансы до}} \cdot \underbrace{\frac{P(A \mid H_1)}{P(A \mid H_2)}}_{\text{коэффициент}}.

Множитель P(AH1)P(AH2)\dfrac{P(A \mid H_1)}{P(A \mid H_2)} называют байесовским коэффициентом (likelihood ratio): он показывает, во сколько раз наблюдение поддерживает первую гипотезу против второй. В примере с тестом шансы до составляли 1:991{:}99, коэффициент 0,99/0,0519,80{,}99/0{,}05 \approx 19{,}8, шансы после 19,8:991:5\approx 19{,}8{:}99 \approx 1{:}5, то есть P(H1A)1/6P(H_1 \mid A) \approx 1/6 - снова тот же результат. В этой форме видно главное: сильное наблюдение сдвигает шансы, но не может перебить очень малую априорную вероятность за один шаг.

Частые ошибки

  • Путают P(AH)P(A \mid H) и P(HA)P(H \mid A). Чувствительность теста P(AH1)=0,99P(A \mid H_1) = 0{,}99 - это не вероятность болезни при положительном тесте. Перестановка условия и события (prosecutor's fallacy) - главная ошибка в байесовских задачах.
  • Забывают про знаменатель. Считают только числитель P(Hi)P(AHi)P(H_i)\,P(A \mid H_i) и думают, что это уже ответ. Без деления на полную вероятность P(A)P(A) числа не нормированы и в сумму не дают единицу.
  • Игнорируют редкость гипотезы. Малая априорная вероятность P(H1)=0,01P(H_1) = 0{,}01 радикально снижает апостериорную, даже при высокой точности теста. «Тест точный на 99%» само по себе ничего не значит без базовой частоты.
  • Берут неполную группу гипотез. Формула полной вероятности работает, только если гипотезы несовместны и покрывают всё. Пропустишь вариант - знаменатель занижен, ответ завышен.
  • Округляют слишком рано. Промежуточные произведения вроде 0,00990{,}0099 лучше держать точными до финального деления, иначе накапливается ошибка.

FAQ

Чем отличаются априорная и апостериорная вероятности? Априорная P(Hi)P(H_i) - вера в гипотезу до наблюдения, апостериорная P(HiA)P(H_i \mid A) - пересчитанная вера после того, как событие AA наступило. Формула Байеса - это и есть правило перехода от первой ко второй.

Когда применяют формулу Байеса, а когда формулу полной вероятности? Формула полной вероятности считает P(A)P(A) вперёд, когда известны гипотезы и их вклад. Формула Байеса идёт обратно: по наступившему AA восстанавливает вероятность гипотезы. Полная вероятность обычно стоит внутри байесовской формулы как знаменатель. Похожая логика подсчёта по всем исходам встречается и в схеме Бернулли.

Почему при точном тесте вероятность болезни всё равно низкая? Из-за редкости болезни. Здоровых людей в сотню раз больше, поэтому небольшой процент ложных срабатываний у них перевешивает все верные срабатывания у немногих больных. Это эффект базовой частоты, а не дефект формулы.

Коротко

Формула Байеса пересчитывает вероятность гипотезы HiH_i после наблюдения события AA: апостериорная вероятность равна произведению априорной на правдоподобие, делённому на полную вероятность P(A)P(A). Полная вероятность в знаменателе суммирует все пути наступления AA по полной группе гипотез. В примере с тестом на редкую болезнь положительный результат даёт всего около 16,7%16{,}7\% вероятности болезни, в задаче о двух урнах белый шар сдвигает веру к 66,7%66{,}7\% в пользу более «белой» урны. Главные ошибки - перестановка условия и события, потеря знаменателя и недооценка базовой частоты. В форме шансов формула становится умножением шансов до наблюдения на байесовский коэффициент.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также