CNN: архитектура свёрточной нейронной сети

11 июня 2026Время чтения: 9 минут

#нейронная сеть#CNN#свёртка#глубокое обучение#компьютерное зрение

Свёрточные нейронные сети (CNN) стали стандартом в задачах компьютерного зрения: распознавание изображений, детекция объектов, сегментация. В основе их эффективности лежат два ключевых принципа - разделение весов (один фильтр проходит по всему изображению) и локальная связность (нейрон «видит» только небольшой патч входа). Вместе они резко сокращают число параметров по сравнению с полносвязной сетью и делают признаки инвариантными к сдвигу объекта. Прежде чем разбирать математику, подвигайте ползунки в калькуляторе ниже: вы сразу увидите, как меняется размер карты признаков от слоя к слою и сколько параметров накапливается в архитектуре.

Операция свёртки и формула размера карты признаков

Сердце CNN - свёрточный слой (convolutional layer). Фильтр (ядро) размера $f \times f$ скользит по входной карте шириной $W$ пикселей с шагом $s$ и паддингом $p$ . Выходной размер по каждой оси:

\text{out} = \left\lfloor \frac{W - f + 2p}{s} \right\rfloor + 1.

Например, вход $28 \times 28$ , фильтр $5 \times 5$ , $p = 0$ , $s = 1$ : $\lfloor (28 - 5) / 1 \rfloor + 1 = 24$ . Карта признаков после свёртки - $24 \times 24$ . Добавьте паддинг $p = 2$ - и размер сохранится: $(28 - 5 + 4) / 1 + 1 = 28$ . Это называют «same padding» - он популярен, когда нельзя терять пространственное разрешение.

Фильтр 3x3 скользит по входному изображению: жёлтый патч совпадает с ядром, синий пиксель - результат поэлементного перемножения и суммирования. При stride=2 фильтр делает вдвое меньше шагов, карта признаков сужается вдвое

Один фильтр порождает одну двумерную карту признаков. Если в слое $C$ фильтров, на выходе $C$ карт - трёхмерный тензор $(\text{out}, \text{out}, C)$ . Параметров в одном свёрточном слое (без учёта входных каналов $C_{in}$ ):

\text{params} = f \times f \times C_{in} \times C_{out} + C_{out},

где последнее слагаемое - смещения (bias). При $f = 5$ , $C_{in} = 1$ , $C_{out} = 16$ : $25 \cdot 16 + 16 = 416$ параметров. Это ничтожно по сравнению с полносвязным слоем, который при входе $784$ и $16$ нейронах потребовал бы $784 \cdot 16 + 16 = 12\,560$ параметров.

Пулинговые слои и рецептивное поле

После свёртки обычно ставят слой субдискретизации (pooling). Самый распространённый - MaxPooling: окно $2 \times 2$ со сдвигом $s = 2$ берёт максимум из четырёх пикселей, уменьшая карту вдвое по каждой оси:

\text{out}_\text{pool} = \left\lfloor \frac{W}{2} \right\rfloor.

Пулинг решает три задачи: уменьшает число вычислений, подавляет незначительные флуктуации и увеличивает рецептивное поле - область входного изображения, на которую «смотрит» один нейрон в глубоких слоях. После двух свёрток $3 \times 3$ рецептивное поле равно $5 \times 5$ ; с каждым пулингом оно удваивается, позволяя глубоким фильтрам реагировать на крупные структуры (контуры, части объектов).

Рецептивное поле CNN: чем глубже слой, тем большую область входного изображения покрывает один нейрон - схема для трёх свёрточных слоёв подряд

AveragePooling - альтернатива MaxPooling: берёт среднее, а не максимум. Он мягче и применяется, например, в финальном Global Average Pooling (GAP), заменяющем полносвязные слои в современных архитектурах типа ResNet - вход $H \times W \times C$ сворачивается до вектора $1 \times 1 \times C$ .

Классическая архитектура LeNet-5

LeNet-5 (Лекун, 1998) - первая успешная CNN для распознавания цифр MNIST. Её архитектура задала канон: чередующиеся свёрточные и пулинговые слои сужают пространственные размеры, но наращивают глубину (число каналов), затем полносвязные слои отображают признаки в классы.

Последовательность слоёв:

Вход $28 \times 28 \times 1$ (градации серого)
Conv1: 6 фильтров $5 \times 5$ , $p = 0$ → $24 \times 24 \times 6$
AvgPool1: $2 \times 2$ → $12 \times 12 \times 6$
Conv2: 16 фильтров $5 \times 5$ , $p = 0$ → $8 \times 8 \times 16$
AvgPool2: $2 \times 2$ → $4 \times 4 \times 16 = 256$ чисел
FC1: 256 → 120, FC2: 120 → 84, FC3: 84 → 10 (классов)

Всего около 60 тысяч параметров - по меркам 1998 года немного, а точность на MNIST - 99,2%. Современные архитектуры (AlexNet, VGG, ResNet) сохраняют ту же логику, лишь масштабируя глубину и ширину.

Нелинейность, функция активации и батч-нормализация

После каждой свёртки применяется функция активации. Исторически использовали $\tanh$ и sigmoid, но сейчас стандарт - ReLU:

\text{ReLU}(x) = \max(0,\, x).

ReLU не насыщается при больших значениях (нет исчезающего градиента в положительной области), вычислительно тривиальна и на практике сходится быстрее. Её вариации - Leaky ReLU, ELU, GELU - решают проблему «мёртвых нейронов» (нейрон с постоянным нулевым выходом).

Батч-нормализация (BatchNorm) вставляется между свёрткой и активацией. Она нормирует активации по мини-батчу, ускоряет обучение и позволяет использовать большие шаги обучения без взрыва градиентов. Де-факто обязательный элемент глубоких CNN с 2015 года.

VGG, ResNet и современные тенденции

VGG (2014) показала, что глубина важнее ширины фильтров: набор из маленьких ядер $3 \times 3$ эффективнее одного большого - рецептивное поле то же, а параметров меньше. Три слоя Conv $3 \times 3$ дают рецептивное поле $7 \times 7$ , но параметров $3 \cdot 9 C^2 = 27 C^2$ против $49 C^2$ у одного ядра $7 \times 7$ .

ResNet (2015) ввела остаточные соединения (skip connections): выход блока - сумма входа и преобразования входа. Это позволяет обучать сети глубиной сотни слоёв без деградации:

y = F(x, W) + x.

Если блок не нужен, он обнуляется, и градиент течёт напрямую через тождественное отображение. EfficientNet (2019) масштабирует глубину, ширину и разрешение одновременно по единой формуле - и достигает рекордной точности при минимальном числе параметров.

Остаточный блок ResNet: входной тензор x складывается с выходом двух свёрточных слоёв F(x). При нулевых весах блок вырождается в тождественное отображение, что позволяет градиенту течь без затухания

Практические тонкости: инициализация и регуляризация

Инициализация весов критична. Случайные малые числа из нормального распределения (по Гауссу) приводят к исчезающему или взрывному градиенту в глубоких сетях. Инициализация He (для ReLU): $W \sim \mathcal{N}(0,\, 2/n_{in})$ , где $n_{in}$ - число входных связей нейрона. Для $\tanh$ /sigmoid - инициализация Xavier: $W \sim \mathcal{N}(0,\, 1/n_{in})$ . Нулевая инициализация полностью запрещена: все нейроны одного слоя получат одинаковые градиенты и навсегда останутся симметричными - это называется «проблемой симметрии».

Dropout (выключение случайных нейронов с вероятностью $p$ во время обучения) - классический регуляризатор. В свёрточных слоях эффективнее Dropout2D: выключается целый канал, а не отдельный нейрон. L2-регуляризация (weight decay) добавляет к функции потерь штраф $\lambda \|W\|^2$ и препятствует переобучению на маленьких датасетах.

Аугментация данных - отдельный мощный инструмент регуляризации. Случайные повороты, отражения, кроп, изменение яркости и контраста «умножают» обучающую выборку без сбора новых данных. Для медицинских изображений типичная аугментация включает упругие деформации, имитирующие анатомическую вариабельность. При обучении с нуля на маленьком датасете (менее 10 000 примеров) аугментация дешевле и эффективнее, чем добавление слоёв. Transfer learning (перенос весов предобученной модели, например ImageNet) ещё эффективнее: первые слои CNN детектируют универсальные признаки - грани, текстуры, - и почти не требуют дообучения.

Частые ошибки

Неучёт паддинга при расчёте размера. Применив формулу без паддинга, получают неверный размер карты - особенно при нескольких слоях подряд. Всегда подставляйте $p$ явно.
Забытый bias в подсчёте параметров. Параметров в свёрточном слое $f^2 \cdot C_{in} \cdot C_{out} + C_{out}$ , а не $f^2 \cdot C_{in} \cdot C_{out}$ . При $C_{out} = 128$ разница - 128 параметров; незначительно для одного слоя, но складывается.
Stride > 1 вместо пулинга. Stride позволяет уменьшать размер без пулинга, но удаляет информацию о локальных максимумах. В задачах классификации это допустимо; в задачах детекции - нет.
Слишком мало фильтров в первом слое. Первый свёрточный слой должен иметь достаточно фильтров, чтобы уловить базовые текстуры (грани, углы). Меньше 8-16 фильтров - информационное узкое место.
Применение Dropout к свёрточным слоям без Dropout2D. Обычный Dropout хуже работает в свёрточных слоях: соседние пиксели коррелированы, и нейросеть легко восстанавливает «выбитый» нейрон по соседям.

FAQ

Чем отличается свёрточный слой от полносвязного? В полносвязном слое каждый нейрон связан со всеми входами - число параметров пропорционально произведению размеров входа и выхода. В свёрточном нейрон видит только локальный патч, а веса фильтра разделяются по всей карте. При входе $224 \times 224$ полносвязный слой с 512 выходами имеет около 25 млн параметров; свёрточный с фильтром $3 \times 3$ и 512 каналами - лишь 4608.

Что происходит с размером карты при stride = 2? Формула та же: $\lfloor (W - f + 2p) / 2 \rfloor + 1$ . При $W = 32$ , $f = 3$ , $p = 1$ : $\lfloor (32 - 3 + 2) / 2 \rfloor + 1 = 16$ . Размер уменьшается примерно вдвое - эффект аналогичен MaxPooling, но без явного пулингового слоя.

Зачем нужна батч-нормализация, если есть Dropout? Это разные механизмы. BatchNorm нормирует распределение активаций и ускоряет сходимость; Dropout - регуляризатор, снижающий переобучение случайным «глушением» нейронов. Современные сети обычно используют оба - BatchNorm после свёртки, Dropout перед полносвязными слоями.

Коротко

Свёрточная нейронная сеть строится из чередующихся свёрточных слоёв (локальные фильтры $f \times f$ со сдвигом $s$ и паддингом $p$ ), пулинговых слоёв (уменьшение карты вдвое) и полносвязного классификатора. Размер карты признаков после свёртки: $\lfloor (W - f + 2p) / s \rfloor + 1$ . Параметров в слое: $f^2 \cdot C_{in} \cdot C_{out} + C_{out}$ . Глубокие слои видят более крупные структуры благодаря накоплению рецептивного поля. Остаточные соединения ResNet и батч-нормализация позволяют обучать сети глубиной сотни слоёв без деградации градиента.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

CNN: архитектура свёрточной нейронной сети

Операция свёртки и формула размера карты признаков

Пулинговые слои и рецептивное поле

Классическая архитектура LeNet-5

Нелинейность, функция активации и батч-нормализация

VGG, ResNet и современные тенденции

Практические тонкости: инициализация и регуляризация

Частые ошибки

FAQ

Коротко

Читайте также

Архитектура VGG: как устроена сеть из блоков 3x3

Преобразование Фурье: ключевые свойства

Абстрактный класс и интерфейс: в чём отличие