EssayAI
Блог
Блог
Математика и алгоритмы

Кодирование звука: частота дискретизации и теорема Найквиста

11 июня 2026Время чтения: 7 минут
#кодирование звука#частота дискретизации#теорема Найквиста#алиасинг#разрядность

Звук в природе - это непрерывная волна давления воздуха. Чтобы сохранить её в памяти компьютера, нужно превратить непрерывный сигнал в последовательность чисел. Этот процесс называется аналого-цифровым преобразованием, и его ключевой параметр - частота дискретизации. От неё зависит и качество записи, и размер файла, и то, возникнут ли искажения при воспроизведении. Покрутите калькулятор ниже - он покажет, как меняются все характеристики при разных стандартах записи, а дальше разберём каждый параметр строго.

Что такое дискретизация звука

Дискретизация (или сэмплирование) - это измерение амплитуды звукового сигнала через равные промежутки времени. Каждое такое измерение называется отсчётом или сэмплом. Частота дискретизации fsf_s показывает, сколько отсчётов снимается за одну секунду:

fs=Nt,f_s = \frac{N}{t},

где NN - количество отсчётов, tt - время в секундах. Единица измерения - герц (Гц) или килогерц (кГц).

Аналоговый сигнал (пунктир) и дискретные отсчёты (точки): чем выше частота дискретизации, тем плотнее точки и точнее восстановление волны

При воспроизведении цифровое устройство «соединяет» отсчёты обратно в непрерывную кривую с помощью фильтра восстановления. Чем чаще сделаны измерения, тем точнее кривая воспроизводит оригинальный сигнал.

Теорема Найквиста-Шеннона

Центральное утверждение теории дискретизации сформулировал Гарри Найквист в 1928 году, а Клод Шеннон строго доказал его в 1949-м:

Для точного восстановления сигнала частота дискретизации должна быть не менее чем вдвое больше максимальной частоты сигнала.

Формально:

fs2fmax,f_s \geq 2 \cdot f_{\max},

где fmaxf_{\max} - наибольшая частота, присутствующая в сигнале. Величина fs/2f_s / 2 называется частотой Найквиста - это верхняя граница спектра, которую способна корректно воспроизвести цифровая система с данной fsf_s.

Условие строгое: равенство fs=2fmaxf_s = 2 f_{\max} теоретически достаточно, но на практике всегда берут запас - именно поэтому стандарт CD-Audio использует fs=44100f_s = 44100 Гц при максимальной слышимой частоте 20000 Гц. Коэффициент запаса примерно 1,1 оставляет место для работы аналогового антиалиасингового фильтра, который обрезает частоты выше 20 кГц до начала преобразования.

Спектр сигнала и граница Найквиста: полоса сигнала 0-fmax должна укладываться левее fs/2
Спектр сигнала и граница Найквиста: полоса сигнала 0-fmax должна укладываться левее fs/2

На схеме видно, что при fs=44100f_s = 44100 Гц частота Найквиста 22050 Гц полностью перекрывает слышимый диапазон 20 кГц с запасом около 2 кГц.

Алиасинг: что происходит при нарушении условия

Если частота сигнала превышает частоту Найквиста, возникает алиасинг - высокочастотные компоненты «складываются» обратно в низкочастотную область и воспринимаются как ложный тон другой высоты. Название происходит от английского «alias» (псевдоним): высокая частота «притворяется» низкой. Частота «призрака» вычисляется по формуле:

falias=fсигналnfs,f_{\text{alias}} = |f_{\text{сигнал}} - n \cdot f_s|,

где nn - ближайшее целое. Например, если fs=8000f_s = 8000 Гц и в сигнале есть тон f=5000f = 5000 Гц:

falias=500018000=3000 Гц.f_{\text{alias}} = |5000 - 1 \cdot 8000| = 3000 \text{ Гц}.

Вместо 5 кГц слушатель услышит призрак на 3 кГц - совершенно другой звук. Именно поэтому перед аналого-цифровым преобразованием ставится антиалиасинговый фильтр нижних частот, который обрезает все частоты выше fs/2f_s / 2.

Визуально алиасинг хорошо виден на графике дискретизации: если точки отсчётов попадают в фазу слишком редко, ломаная через них описывает другую, более медленную волну. В аудиотехнике бороться с алиасингом помогает оверсэмплинг - аналого-цифровое преобразование делается на кратно большей частоте (например, 176400 Гц вместо 44100), а затем сигнал прореживается цифровым фильтром. Цифровой фильтр гораздо точнее аналогового: он режет частоты почти идеально, без паразитных эффектов в полосе пропускания.

Разрядность: точность квантования

Помимо частоты дискретизации, качество цифрового звука определяет разрядность - количество бит, отводимых под один отсчёт. Она задаёт число уровней квантования:

L=2b,L = 2^b,

где bb - число бит. При b=16b = 16 уровней L=65536L = 65536; при b=8b = 8 - только 256256. Ошибка квантования (разница между истинной амплитудой и ближайшим уровнем) воспринимается как шум. Чем больше уровней, тем мельче «ступеньки» и тише шум квантования.

Динамический диапазон цифровой системы в децибелах приближённо равен 6b6b: для 16-битной записи это около 96 дБ - достаточно для большинства музыкальных задач, поскольку реальный динамический диапазон оркестровой музыки редко превышает 80 дБ. Hi-Res форматы используют 24 бита, что даёт 144 дБ динамического диапазона - больше, чем способно воспринять ухо (порог болевого ощущения около 130 дБ).

На практике разрядность 8 бит слышно как характерный «хрустящий» шум в паузах - это и есть шум квантования из 256 ступенек. Переход на 16 бит убирает его полностью. Разница между 16 и 24 битами воспринимается только на профессиональном мониторинге в студийных условиях; для конечного слушателя она незначима.

Дискретизация и квантование: аналоговый сигнал разбивается по времени (fs) и по амплитуде (2^b уровней)
Дискретизация и квантование: аналоговый сигнал разбивается по времени (fs) и по амплитуде (2^b уровней)

Стандарты и размер файла

Зная fsf_s, разрядность bb и число каналов cc, несложно посчитать объём несжатой записи (формат WAV/PCM):

Vбайт/с=fsbc8,VМбайт/мин=fsbc60810242.V_{\text{байт/с}} = \frac{f_s \cdot b \cdot c}{8}, \qquad V_{\text{Мбайт/мин}} = \frac{f_s \cdot b \cdot c \cdot 60}{8 \cdot 1024^2}.

Основные стандарты дискретизации:

Стандартfsf_s, ГцРазрядностьПрименение
Телефония80008Речь, VoIP
FM-радио3200016Широковещание
CD-Audio4410016Музыка (стерео ~10 Мбайт/мин)
DVD/видео4800016/24Видеопроизводство
Hi-Res96000/19200024Студийная запись

Стандарт CD - стерео 44100 Гц, 16 бит - занимает около 10,1 Мбайт в минуту. Именно поэтому на CD-диск помещается 74-80 минут музыки: ёмкость диска около 700 Мбайт делится на 10 Мбайт/мин.

Частые ошибки

  • Путаница частоты дискретизации и частоты сигнала. Это разные вещи: fsf_s - параметр АЦП-системы, fmaxf_{\max} - свойство записываемого звука. Условие Найквиста связывает их через неравенство, а не равенство.
  • Применение условия Найквиста без запаса. Теоретически хватает fs=2fmaxf_s = 2 f_{\max}, но на практике нужен запас 10-20% под антиалиасинговый фильтр. Поэтому CD использует 44100, а не 40000 Гц.
  • Неправильный расчёт размера файла. Формула даёт байты в секунду; нужно разделить fsbcf_s \cdot b \cdot c на 8, а не на 1000. Также часто забывают умножить на число каналов.
  • Смешение сжатого и несжатого форматов. Формула V=fsbc/8V = f_s \cdot b \cdot c / 8 считает PCM-данные без сжатия (WAV). MP3, AAC, FLAC сжимают с потерями или без - реальный размер будет меньше.
  • Ошибка при расчёте алиасинга. Частота «призрака» вычисляется через модуль разности с ближайшим кратным fsf_s, а не просто как fsfсигналf_s - f_{\text{сигнал}}.

FAQ

Почему CD-Audio использует именно 44100 Гц, а не 40000? Диапазон слуха человека ограничен 20 кГц, значит fs40000f_s \geq 40000 Гц. Значение 44100 выбрано с запасом 10% для антиалиасингового фильтра и закреплено исторически: в 1970-е первые цифровые записи хранились на видеокассетах (VHS/Beta), и 44100 Гц оптимально укладывались в строчную структуру NTSC/PAL.

Что лучше: поднять частоту дискретизации или разрядность? Это разные параметры: fsf_s определяет верхнюю частоту звука (полосу), разрядность - динамический диапазон (соотношение тихого и громкого). Для улучшения качества сначала поднимают разрядность с 8 до 16 бит - прирост ощутим. Переход от 44100 до 96000 Гц даёт меньше, так как ухо не воспринимает частоты выше 20 кГц.

Как алиасинг проявляется в звуке? Он слышен как дополнительный тон неправильной высоты, иногда как «металлический» призвук или гудение. В современных устройствах этот эффект почти исключён аппаратными антиалиасинговыми фильтрами и оверсэмплингом (работа АЦП на кратной частоте с последующим понижением), но теоретически понять его важно для проектирования систем обработки сигналов.

Коротко

Кодирование звука требует двух ключевых параметров: частоты дискретизации fsf_s и разрядности bb. Теорема Найквиста-Шеннона fs2fmaxf_s \geq 2 f_{\max} гарантирует точное восстановление сигнала при условии, что fsf_s хотя бы вдвое превышает максимальную частоту звука. Разрядность задаёт точность квантования и динамический диапазон 6b6b дБ. Размер несжатого файла считается по формуле V=fsbc/8V = f_s \cdot b \cdot c / 8 байт/с. Нарушение условия Найквиста приводит к алиасингу - появлению ложных тонов, - поэтому реальные стандарты всегда берут fsf_s с запасом выше минимума.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также