Кодирование звука: частота дискретизации и теорема Найквиста

11 июня 2026Время чтения: 7 минут

#кодирование звука#частота дискретизации#теорема Найквиста#алиасинг#разрядность

Звук в природе - это непрерывная волна давления воздуха. Чтобы сохранить её в памяти компьютера, нужно превратить непрерывный сигнал в последовательность чисел. Этот процесс называется аналого-цифровым преобразованием, и его ключевой параметр - частота дискретизации. От неё зависит и качество записи, и размер файла, и то, возникнут ли искажения при воспроизведении. Покрутите калькулятор ниже - он покажет, как меняются все характеристики при разных стандартах записи, а дальше разберём каждый параметр строго.

Что такое дискретизация звука

Дискретизация (или сэмплирование) - это измерение амплитуды звукового сигнала через равные промежутки времени. Каждое такое измерение называется отсчётом или сэмплом. Частота дискретизации $f_s$ показывает, сколько отсчётов снимается за одну секунду:

$f_s = \frac{N}{t},$

где $N$ - количество отсчётов, $t$ - время в секундах. Единица измерения - герц (Гц) или килогерц (кГц).

Аналоговый сигнал (пунктир) и дискретные отсчёты (точки): чем выше частота дискретизации, тем плотнее точки и точнее восстановление волны

При воспроизведении цифровое устройство «соединяет» отсчёты обратно в непрерывную кривую с помощью фильтра восстановления. Чем чаще сделаны измерения, тем точнее кривая воспроизводит оригинальный сигнал.

Теорема Найквиста-Шеннона

Центральное утверждение теории дискретизации сформулировал Гарри Найквист в 1928 году, а Клод Шеннон строго доказал его в 1949-м:

Для точного восстановления сигнала частота дискретизации должна быть не менее чем вдвое больше максимальной частоты сигнала.

Формально:

$f_s \geq 2 \cdot f_{\max},$

где $f_{\max}$ - наибольшая частота, присутствующая в сигнале. Величина $f_s / 2$ называется частотой Найквиста - это верхняя граница спектра, которую способна корректно воспроизвести цифровая система с данной $f_s$ .

Условие строгое: равенство $f_s = 2 f_{\max}$ теоретически достаточно, но на практике всегда берут запас - именно поэтому стандарт CD-Audio использует $f_s = 44100$ Гц при максимальной слышимой частоте 20000 Гц. Коэффициент запаса примерно 1,1 оставляет место для работы аналогового антиалиасингового фильтра, который обрезает частоты выше 20 кГц до начала преобразования.

Спектр сигнала и граница Найквиста: полоса сигнала 0-fmax должна укладываться левее fs/2

На схеме видно, что при $f_s = 44100$ Гц частота Найквиста 22050 Гц полностью перекрывает слышимый диапазон 20 кГц с запасом около 2 кГц.

Алиасинг: что происходит при нарушении условия

Если частота сигнала превышает частоту Найквиста, возникает алиасинг - высокочастотные компоненты «складываются» обратно в низкочастотную область и воспринимаются как ложный тон другой высоты. Название происходит от английского «alias» (псевдоним): высокая частота «притворяется» низкой. Частота «призрака» вычисляется по формуле:

$f_{\text{alias}} = |f_{\text{сигнал}} - n \cdot f_s|,$

где $n$ - ближайшее целое. Например, если $f_s = 8000$ Гц и в сигнале есть тон $f = 5000$ Гц:

$f_{\text{alias}} = |5000 - 1 \cdot 8000| = 3000 \text{ Гц}.$

Вместо 5 кГц слушатель услышит призрак на 3 кГц - совершенно другой звук. Именно поэтому перед аналого-цифровым преобразованием ставится антиалиасинговый фильтр нижних частот, который обрезает все частоты выше $f_s / 2$ .

Визуально алиасинг хорошо виден на графике дискретизации: если точки отсчётов попадают в фазу слишком редко, ломаная через них описывает другую, более медленную волну. В аудиотехнике бороться с алиасингом помогает оверсэмплинг - аналого-цифровое преобразование делается на кратно большей частоте (например, 176400 Гц вместо 44100), а затем сигнал прореживается цифровым фильтром. Цифровой фильтр гораздо точнее аналогового: он режет частоты почти идеально, без паразитных эффектов в полосе пропускания.

Разрядность: точность квантования

Помимо частоты дискретизации, качество цифрового звука определяет разрядность - количество бит, отводимых под один отсчёт. Она задаёт число уровней квантования:

$L = 2^b,$

где $b$ - число бит. При $b = 16$ уровней $L = 65536$ ; при $b = 8$ - только $256$ . Ошибка квантования (разница между истинной амплитудой и ближайшим уровнем) воспринимается как шум. Чем больше уровней, тем мельче «ступеньки» и тише шум квантования.

Динамический диапазон цифровой системы в децибелах приближённо равен $6b$ : для 16-битной записи это около 96 дБ - достаточно для большинства музыкальных задач, поскольку реальный динамический диапазон оркестровой музыки редко превышает 80 дБ. Hi-Res форматы используют 24 бита, что даёт 144 дБ динамического диапазона - больше, чем способно воспринять ухо (порог болевого ощущения около 130 дБ).

На практике разрядность 8 бит слышно как характерный «хрустящий» шум в паузах - это и есть шум квантования из 256 ступенек. Переход на 16 бит убирает его полностью. Разница между 16 и 24 битами воспринимается только на профессиональном мониторинге в студийных условиях; для конечного слушателя она незначима.

Дискретизация и квантование: аналоговый сигнал разбивается по времени (fs) и по амплитуде (2^b уровней)

Стандарты и размер файла

Зная $f_s$ , разрядность $b$ и число каналов $c$ , несложно посчитать объём несжатой записи (формат WAV/PCM):

$V_{\text{байт/с}} = \frac{f_s \cdot b \cdot c}{8}, \qquad V_{\text{Мбайт/мин}} = \frac{f_s \cdot b \cdot c \cdot 60}{8 \cdot 1024^2}.$

Основные стандарты дискретизации:

Стандарт	$f_s$ , Гц	Разрядность	Применение
Телефония	8000	8	Речь, VoIP
FM-радио	32000	16	Широковещание
CD-Audio	44100	16	Музыка (стерео ~10 Мбайт/мин)
DVD/видео	48000	16/24	Видеопроизводство
Hi-Res	96000/192000	24	Студийная запись

Стандарт CD - стерео 44100 Гц, 16 бит - занимает около 10,1 Мбайт в минуту. Именно поэтому на CD-диск помещается 74-80 минут музыки: ёмкость диска около 700 Мбайт делится на 10 Мбайт/мин.

Частые ошибки

Путаница частоты дискретизации и частоты сигнала. Это разные вещи: $f_s$ - параметр АЦП-системы, $f_{\max}$ - свойство записываемого звука. Условие Найквиста связывает их через неравенство, а не равенство.
Применение условия Найквиста без запаса. Теоретически хватает $f_s = 2 f_{\max}$ , но на практике нужен запас 10-20% под антиалиасинговый фильтр. Поэтому CD использует 44100, а не 40000 Гц.
Неправильный расчёт размера файла. Формула даёт байты в секунду; нужно разделить $f_s \cdot b \cdot c$ на 8, а не на 1000. Также часто забывают умножить на число каналов.
Смешение сжатого и несжатого форматов. Формула $V = f_s \cdot b \cdot c / 8$ считает PCM-данные без сжатия (WAV). MP3, AAC, FLAC сжимают с потерями или без - реальный размер будет меньше.
Ошибка при расчёте алиасинга. Частота «призрака» вычисляется через модуль разности с ближайшим кратным $f_s$ , а не просто как $f_s - f_{\text{сигнал}}$ .

FAQ

Почему CD-Audio использует именно 44100 Гц, а не 40000? Диапазон слуха человека ограничен 20 кГц, значит $f_s \geq 40000$ Гц. Значение 44100 выбрано с запасом 10% для антиалиасингового фильтра и закреплено исторически: в 1970-е первые цифровые записи хранились на видеокассетах (VHS/Beta), и 44100 Гц оптимально укладывались в строчную структуру NTSC/PAL.

Что лучше: поднять частоту дискретизации или разрядность? Это разные параметры: $f_s$ определяет верхнюю частоту звука (полосу), разрядность - динамический диапазон (соотношение тихого и громкого). Для улучшения качества сначала поднимают разрядность с 8 до 16 бит - прирост ощутим. Переход от 44100 до 96000 Гц даёт меньше, так как ухо не воспринимает частоты выше 20 кГц.

Как алиасинг проявляется в звуке? Он слышен как дополнительный тон неправильной высоты, иногда как «металлический» призвук или гудение. В современных устройствах этот эффект почти исключён аппаратными антиалиасинговыми фильтрами и оверсэмплингом (работа АЦП на кратной частоте с последующим понижением), но теоретически понять его важно для проектирования систем обработки сигналов.

Коротко

Кодирование звука требует двух ключевых параметров: частоты дискретизации $f_s$ и разрядности $b$ . Теорема Найквиста-Шеннона $f_s \geq 2 f_{\max}$ гарантирует точное восстановление сигнала при условии, что $f_s$ хотя бы вдвое превышает максимальную частоту звука. Разрядность задаёт точность квантования и динамический диапазон $6b$ дБ. Размер несжатого файла считается по формуле $V = f_s \cdot b \cdot c / 8$ байт/с. Нарушение условия Найквиста приводит к алиасингу - появлению ложных тонов, - поэтому реальные стандарты всегда берут $f_s$ с запасом выше минимума.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Кодирование звука: частота дискретизации и теорема Найквиста

Что такое дискретизация звука

Теорема Найквиста-Шеннона

Алиасинг: что происходит при нарушении условия

Разрядность: точность квантования

Стандарты и размер файла

Частые ошибки

FAQ

Коротко

Читайте также

Дополнительный код: представление отрицательных чисел

Абстрактный класс и интерфейс: в чём отличие

Алгоритм AdaBoost: как слабые классификаторы дают сильный