Формула Шеннона: количество информации в битах

11 июня 2026Время чтения: 8 минут

#формула шеннона#количество информации#энтропия#бит#теория информации

Формула Шеннона отвечает на вопрос, который кажется странным до первого знакомства с теорией информации: как измерить информацию числом? Клод Шеннон в 1948 году предложил связать количество информации не с содержанием сообщения, а с его неожиданностью. Чем менее вероятен исход, тем больше информации несёт сообщение о том, что он наступил, а единицей измерения становится бит - ответ на один вопрос «да или нет». В этой статье разберём, как из этой идеи получаются формулы $I = \log_2 N$ и $I = -\log_2 p$ , чем количество информации одного события отличается от энтропии источника $H = -\sum_i p_i \log_2 p_i$ , и где студенты чаще всего ошибаются в задачах. Чтобы сразу почувствовать связь вероятности и битов, покрути калькулятор ниже: он переводит число исходов и вероятность в количество информации и показывает кривую энтропии.

Что такое бит и количество информации

Бит - это количество информации, которое снимает неопределённость выбора из двух равновероятных вариантов. Подбросили монету, узнали результат - получили ровно 1 бит. Если вариантов больше, и все они равновероятны, информация одного сообщения вычисляется через двоичный логарифм числа исходов:

$I = \log_2 N,$

где $N$ - количество равновероятных исходов. Для монеты $N = 2$ и $I = \log_2 2 = 1$ бит. Для игрального кубика $N = 6$ и $I = \log_2 6 \approx 2{,}58$ бита. Логарифм здесь не случаен: он отражает, сколько раз нужно вдвое сузить множество вариантов, чтобы остался один. Каждый такой вопрос «да или нет» и есть один бит.

Множество из N равновероятных исходов делится пополам вопросами «да или нет»; счётчик битов растёт на единицу с каждым делением, пока не останется один исход. Число вопросов равно log2 N - это и есть количество информации

Именно поэтому количество информации измеряют в битах, а не в буквах или килобайтах: бит привязан к снятию неопределённости, а не к длине текста. Длинное сообщение из предсказуемых символов может нести меньше информации, чем одно неожиданное слово.

Формула Шеннона для одного события

Когда исходы неравновероятны, формула $I = \log_2 N$ не годится - нужно учитывать вероятность конкретного события. Шеннон обобщил измерение информации так:

$I = -\log_2 p,$

где $p$ - вероятность наступившего события. Знак минус появляется потому, что вероятность меньше единицы, а её логарифм отрицателен; информация же должна быть положительной. Для равновероятного случая $p = 1/N$ эта формула совпадает с предыдущей: $-\log_2(1/N) = \log_2 N$ . Так две формулы оказываются одной и той же идеей, записанной по-разному.

Ключевая интуиция: редкое событие несёт больше информации. Сообщение «завтра в Сахаре выпал снег» удивляет сильнее и несёт больше бит, чем «завтра в Сахаре было солнечно». Если $p = 0{,}5$ , то $I = 1$ бит; если $p = 0{,}01$ , то $I = -\log_2 0{,}01 \approx 6{,}64$ бита.

Количество информации события растёт с уменьшением его вероятности: для p = 1/2 это 1 бит, для p = 1/32 уже 5 бит

На графике видно: при уменьшении вероятности вдвое количество информации растёт ровно на 1 бит. Это прямое следствие свойства логарифма - каждое деление шанса пополам добавляет один двоичный вопрос.

Энтропия источника: среднее количество информации

Часто нас интересует не одно событие, а источник, который выдаёт символы с разными вероятностями. Тогда считают среднее количество информации на один символ - это и есть энтропия Шеннона:

$H = -\sum_{i=1}^{N} p_i \log_2 p_i,$

где $p_i$ - вероятность $i$ -го символа. Энтропия - это усреднённое по всем исходам количество информации $-\log_2 p_i$ , взвешенное на их вероятности. Измеряется она в битах на символ и показывает, сколько в среднем бит нужно, чтобы закодировать один символ источника без потерь.

Для двоичного источника с двумя символами вероятности $p$ и $1 - p$ , и формула упрощается:

$H(p) = -p \log_2 p - (1 - p) \log_2 (1 - p).$

Эта функция достигает максимума $H = 1$ бит при $p = 0{,}5$ - когда оба символа равновероятны и неопределённость максимальна. Если же один символ почти всегда выпадает ( $p \to 0$ или $p \to 1$ ), энтропия стремится к нулю: предсказуемый источник почти не несёт информации.

Вероятность p ползёт от 0 к 1, и точка скользит по кривой бинарной энтропии H(p). В центре, при равных шансах, H достигает максимума 1 бит; у краёв, где источник предсказуем, энтропия падает к нулю

Чем количество информации отличается от энтропии

Это главная путаница темы. Количество информации $I = -\log_2 p$ относится к одному конкретному исходу - сколько бит мы узнали, увидев именно это событие. Энтропия $H$ относится к источнику в целом - сколько бит он выдаёт в среднем за символ. Энтропия равна математическому ожиданию количества информации: $H = \langle I \rangle = \sum_i p_i \cdot (-\log_2 p_i)$ .

Поэтому для одного редкого события $I$ может быть большим (6-7 бит), а энтропия источника при этом маленькой: редкое событие даёт много информации, но случается так нечасто, что почти не влияет на среднее. В калькуляторе выше левая шкала показывает информацию отдельного события, а правая кривая - энтропию двоичного источника; сравните, как они ведут себя при движении ползунка вероятности.

Пример решения типовой задачи

Разберём стандартную формулировку: в коробке 32 одинаковых на вид шара, пронумерованных от 1 до 32. Наугад вынимают один шар. Сколько информации несёт сообщение о его номере?

Исходы равновероятны, их число $N = 32$ , поэтому работает формула $I = \log_2 N$ :

$I = \log_2 32 = \log_2 2^5 = 5\ \text{бит}.$

Проверим через вероятность одного исхода: $p = 1/32 = 0{,}03125$ , тогда

$I = -\log_2 0{,}03125 = -\log_2 2^{-5} = 5\ \text{бит}.$

Оба пути дают одинаковый ответ - это и есть проверка согласованности. Содержательно 5 бит означают, что номер шара можно угадать за пять вопросов «да или нет», каждый раз деля диапазон пополам: «номер больше 16?», «больше 8 в оставшейся половине?» и так далее. Если бы шаров было неравновероятное число исходов, пришлось бы считать энтропию по полной формуле Шеннона, усредняя $-\log_2 p_i$ по всем вероятностям.

Частые ошибки

Логарифм не по основанию 2. Если считать $\ln p$ или $\lg p$ , ответ получится в натах или дитах, а не в битах. Для битов нужен именно $\log_2$ ; при отсутствии его на калькуляторе используйте $\log_2 x = \ln x / \ln 2$ .
Забыли знак минус в $I = -\log_2 p$ . Вероятность меньше единицы даёт отрицательный логарифм, поэтому минус обязателен - количество информации всегда положительно.
Путают количество информации и энтропию. $I = -\log_2 p$ - это бит одного события, $H = -\sum p_i \log_2 p_i$ - среднее на символ. Для задачи про один исход энтропию считать не нужно.
Подставляют вероятности, не дающие в сумме единицу. В формуле энтропии все $p_i$ должны суммироваться в 1. Если сумма иная, распределение задано неверно и результат бессмысленен.
Считают, что больше символов всегда больше информации. Информацию задаёт неопределённость, а не длина: предсказуемый поток символов несёт мало бит, даже если он длинный.

FAQ

Сколько информации в битах несёт сообщение о результате броска монеты? Монета даёт два равновероятных исхода, поэтому $I = \log_2 2 = 1$ бит. Это и есть определение бита - снятие неопределённости выбора из двух равных вариантов.

Почему в формуле количества информации стоит логарифм по основанию 2? Основание 2 задаёт единицу измерения - бит, ответ на один вопрос «да или нет». Логарифм отражает, сколько раз нужно вдвое сузить множество вариантов, чтобы остался один; для $N$ равновероятных исходов это $\log_2 N$ .

Чем формула Шеннона отличается от формулы Хартли? Формула Хартли $I = \log_2 N$ работает только для равновероятных исходов. Формула Шеннона $I = -\log_2 p$ и энтропия $H = -\sum p_i \log_2 p_i$ обобщают её на случай разных вероятностей; при равных $p_i = 1/N$ обе формулы совпадают.

Коротко

Формула Шеннона измеряет количество информации через неожиданность события: для $N$ равновероятных исходов $I = \log_2 N$ , а для события с вероятностью $p$ - $I = -\log_2 p$ бит. Среднее количество информации источника задаёт энтропия $H = -\sum_i p_i \log_2 p_i$ , которая для двоичного источника достигает максимума 1 бит при равных шансах. Важно различать информацию одного события и энтропию источника: первая - это бит конкретного исхода, вторая - среднее по всем символам.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Формула Шеннона: количество информации в битах

Что такое бит и количество информации

Формула Шеннона для одного события

Энтропия источника: среднее количество информации

Чем количество информации отличается от энтропии

Пример решения типовой задачи

Частые ошибки

FAQ

Коротко

Читайте также

Правило Трутона: энтропия испарения и формула

Изменение энтропии при плавлении льда

Изменение энтропии при изобарном процессе: формула