Глубина кодирования звука: разрядность и качество

11 июня 2026Время чтения: 7 минут

#глубина кодирования#bit depth#шум квантования#SNR#динамический диапазон

Когда звук переводят в цифровой формат, каждый отсчёт амплитуды записывают двоичным числом. Чем больше битов в этом числе, тем точнее аппроксимируется оригинальный аналоговый сигнал и тем меньше шум, возникающий при округлении. Именно эта точность - глубина кодирования (bit depth) - определяет, насколько правдиво цифровая запись передаёт тихие инструменты, паузы между нотами и динамические контрасты. Ниже разберём формулы, которые связывают разрядность с отношением сигнал/шум и динамическим диапазоном, а потом разберём практические стандарты от телефонного звука до студийного Hi-Res. Калькулятор ниже покажет эти значения сразу для выбранной разрядности.

Что такое квантование и откуда берётся шум

В процессе аналого-цифрового преобразования амплитуда сигнала в каждый момент времени округляется до ближайшего дискретного уровня. Если разрядность составляет $N$ бит, число доступных уровней равно:

$L = 2^N.$

При $N = 8$ это 256 уровней, при $N = 16$ - уже 65536, при $N = 24$ - более 16 миллионов. Погрешность округления называется шумом квантования: в каждом отсчёте она случайна в пределах $\pm\frac{1}{2}\,\text{LSB}$ , где LSB (Least Significant Bit) - величина одного шага квантования. Среднеквадратическое значение этого шума:

$e_{\mathrm{rms}} = \frac{\Delta}{{\sqrt{12}}},$

где $\Delta = \frac{A_{\max}}{2^N - 1}$ - шаг квантования, $A_{\max}$ - полная шкала сигнала.

Анимация: одна и та же синусоида квантуется сначала при 4 битах (16 ступеней), затем при 8 (256). Видно, как ступенька уменьшается и форма кривой становится плавнее - шум квантования сходит к нулю

Чем больше уровней, тем мельче ступенька и тем меньше шум. Именно поэтому удвоение числа уровней (добавление одного бита) всегда даёт одинаковый выигрыш в качестве - следствие логарифмической природы формулы.

Формула SNR и динамического диапазона

Для синусоиды с амплитудой на всю шкалу отношение сигнал/шум квантования выводится строго:

$\mathrm{SNR} = 6{,}02 \cdot N + 1{,}76 \;\text{дБ},$

где $N$ - число бит. Каждый добавленный бит улучшает SNR ровно на 6,02 дБ (точнее $20\log_{10}2 \approx 6{,}0206$ дБ). Динамический диапазон - разница между максимальным и минимальным неискажённым уровнями - оценивается несколько проще:

$\mathrm{DR} = 20\log_{10}(2^N) = N \cdot 20\log_{10}2 \approx 6{,}02 \cdot N \;\text{дБ}.$

Разница между SNR и DR составляет 1,76 дБ и объясняется тем, что синусоида использует полный размах шкалы эффективнее, чем равномерно распределённый сигнал.

Зависимость SNR и динамического диапазона от разрядности: каждый бит прибавляет ровно 6 дБ, прямые линии пересекают пороги AM-радио, CD и Hi-Res

Из этой формулы сразу понятно: разрядность 8 бит даёт SNR около 50 дБ - слышимый шум на фоне тихих фрагментов. Стандарт CD (16 бит) обеспечивает SNR около 98 дБ - для большинства жанров более чем достаточно. При 24 битах SNR превышает 146 дБ, то есть шум квантования лежит ниже порога слышимости человека даже с запасом.

Практические стандарты разрядности

Разные области применения фиксировали разрядность под свои требования задолго до того, как Hi-Res стал доступен рядовому слушателю.

8 бит (SNR около 50 дБ). Характерен для ранней компьютерной музыки, телефонной передачи (G.711, 8 кГц / 8 бит) и ретро-звуков. Шум слышим, особенно в паузах и тихих фрагментах.

16 бит (SNR около 98 дБ). Стандарт компакт-диска (44100 Гц / 16 бит) с 1982 года. Охватывает весь слышимый динамический диапазон большинства музыкальных жанров - от тихого сонатного пиано до оркестрового фортиссимо. Именно поэтому CD-качество принято как эталон потребительского аудио.

24 бит (SNR около 146 дБ). Студийный стандарт записи и сведения. Запас выше порога слышимости (~140 дБ) позволяет применять многоканальное сведение, эффекты и компрессию без накопления ошибок округления. Потребительские Hi-Res-форматы (FLAC 24/96, ALAC 24/192) используют 24 бита для воспроизведения.

32 бит с плавающей запятой. Внутренний формат цифровых аудиостанций (DAW). Диапазон представимых значений несравнимо шире целочисленных форматов: сигнал можно ненадолго вывести за 0 дБ без клиппинга, что критично при работе с пиками. SNR теоретически превышает 190 дБ.

Размер файла и компромисс

Увеличение разрядности улучшает качество, но напрямую увеличивает объём данных. Для несжатого WAV размер в мегабайтах за минуту:

$S = \frac{f_s \cdot N \cdot C \cdot 60}{8 \cdot 1024 \cdot 1024} \;\text{Мбайт/мин},$

где $f_s$ - частота дискретизации (Гц), $N$ - разрядность (бит), $C$ - число каналов. Стереозапись CD (44100 Гц, 16 бит, 2 канала) занимает около 10,1 Мбайт/мин, тогда как 24/96 стерео - уже около 32,9 Мбайт/мин. Для потоковой передачи и длинных записей это существенно.

Именно поэтому большинство потоковых платформ передаёт сжатый звук (MP3, AAC, Opus) с битрейтом 128-320 кбит/с вместо несжатого PCM. Компрессоры с потерями убирают психоакустически незначимые частоты, а не понижают разрядность напрямую - это важное различие.

Шум квантования на практике: диссер и дизеринг

Теоретическая формула SNR = 6.02N + 1.76 дБ справедлива для случайного сигнала, равномерно заполняющего шкалу. На практике при тихих тональных сигналах (например, затухающий рояль) шум квантования перестаёт быть случайным и приобретает тональный характер - слышится как призвуки и «гранулярность».

Решение - дизеринг (dithering): к сигналу намеренно добавляется небольшой псевдослучайный шум перед квантованием. Он рандомизирует ошибку округления, превращая слышимые тональные артефакты в равномерный широкополосный шум, психоакустически менее заметный. При правильном дизеринге CD-качество воспроизводит сигналы значительно ниже уровня одного LSB, что объясняет, почему 16-бит в правильно спроектированной системе звучит субъективно лучше, чем следует из грубой формулы.

Особый вид дизеринга - шейпинг шума (noise shaping): спектр добавляемого шума формируется так, чтобы энергия переносилась в частотные области, где слух наименее чувствителен (выше 10-14 кГц). Это позволяет достичь субъективного SNR, эквивалентного 20+ битам, при физической разрядности 16 бит.

Частые ошибки

Путать разрядность и частоту дискретизации. Разрядность определяет точность амплитуды (сколько уровней), частота - точность по времени (как часто берутся отсчёты). Формула SNR = 6.02N + 1.76 дБ не зависит от частоты дискретизации.
Считать, что 24 бит всегда лучше 16 бит для слушателя. При воспроизведении через потребительскую аппаратуру разница SNR между 16 и 24 битами (98 против 146 дБ) не воспринимается: динамика реального помещения редко превышает 70-80 дБ.
Игнорировать дизеринг при конвертации. Понижение разрядности без дизеринга создаёт тональные артефакты; правильная конвертация 24 -> 16 бит с noise shaping даёт незаметный на слух результат.
Применять формулу SNR к клиппированному сигналу. Если амплитуда превышает полную шкалу, возникает гармонический клиппинг, и формула перестаёт работать: SNR резко падает.
Считать LSB = 1/N. На самом деле $\Delta = A_{\max} / (2^N - 1)$ , что при $N = 16$ равно $1/65535$ , а не $1/16$ .

FAQ

Почему каждый бит улучшает SNR ровно на 6 дБ? Добавление одного бита удваивает число уровней квантования, то есть вдвое уменьшает LSB и шаг $\Delta$ . Поскольку SNR пропорционален $(\Delta)^{-2}$ , а дБ - логарифмическая шкала, каждое удвоение числа уровней даёт прирост $20\log_{10}(2) \approx 6{,}02$ дБ.

Чем 24/96 отличается от 24/48 для слушателя? Разрядность 24 бит в обоих случаях одинакова, значит SNR и динамический диапазон идентичны. Разница - в частоте дискретизации: 96 кГц воспроизводит частоты до 48 кГц (выше предела слуха), 48 кГц - до 24 кГц. Для воспроизведения разница практически неслышима, но при обработке (эффекты, изменение высоты тона) бОльшая частота даёт вычислительный запас.

Почему потоковые сервисы используют сжатие вместо понижения разрядности? Алгоритмы с потерями (AAC, Opus) анализируют психоакустическую маскировку: убирают частоты, которые всё равно не слышны на фоне более громких соседних. Это даёт значительно лучшее качество при заданном объёме данных, чем простое понижение разрядности, которое равномерно ухудшает весь спектр.

Коротко

Глубина кодирования звука ( $N$ бит) определяет число уровней квантования $2^N$ и качество через формулу $\mathrm{SNR} = 6{,}02 \cdot N + 1{,}76$ дБ: каждый добавленный бит даёт ровно 6 дБ выигрыша. Стандарт CD (16 бит) обеспечивает SNR около 98 дБ и перекрывает динамику реального прослушивания; 24 бита используются в студийной работе для запаса. Размер несжатого WAV растёт линейно с разрядностью, поэтому для распространения применяется сжатие. Правильный дизеринг при конвертации позволяет сохранить субъективное качество без тональных артефактов квантования.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Глубина кодирования звука: разрядность и качество

Что такое квантование и откуда берётся шум

Формула SNR и динамического диапазона

Практические стандарты разрядности

Размер файла и компромисс

Шум квантования на практике: диссер и дизеринг

Частые ошибки

FAQ

Коротко

Читайте также

Абстрактный класс и интерфейс: в чём отличие

Алгоритм AdaBoost: как слабые классификаторы дают сильный

Алгоритм CatBoost: бустинг с обработкой категорий