Эффект Мак-Гурка: как зрение перестраивает то, что мы слышим

3 февраля 2026Время чтения: 9 минут

#когнитивная наука#психолингвистика#восприятие речи#мультисенсорная интеграция#нейронауки

Эффект Мак-Гурка - устойчивая аудиовизуальная иллюзия, при которой зрительный образ артикуляции вмешивается в распознавание звука и заставляет мозг «слышать» третий, не предъявлявшийся слог. Классическая ситуация: на видео губы беззвучно произносят /ga-ga/, а из колонок одновременно играет /ba-ba/ - большинство взрослых слышат /da-da/. Открыли эффект Гарри Мак-Гурк и Джон Мак-Дональд в 1976 году, опубликовав короткую заметку «Hearing lips and seeing voices» в Nature. С тех пор он стал главным аргументом в пользу того, что восприятие речи - мультисенсорный процесс, а не чисто слуховой.

Оригинальный эксперимент 1976 года

Мак-Гурк и Мак-Дональд изначально готовили запись с асинхронным аудио и видео для другого исследования - речевого развития младенцев. Случайно прокрутив дорожку с рассинхроном, авторы обнаружили, что слышат не то, что записано на аудио. Они переключили эксперимент: показали взрослым испытуемым видео, на котором артикулируется /ga-ga/, наложили звуковую дорожку /ba-ba/ и попросили записать, что они слышат.

Результат оказался ошеломляющим. Около 98% взрослых сообщали, что слышат /da-da/ - слог, которого физически не было ни в аудио, ни в видео. Дети показывали эффект слабее (порядка 60–80% в зависимости от возраста), но он был устойчив и у них. При предъявлении только аудио /ba-ba/ - все слышали /ba-ba/; при предъявлении только видео - большинство правильно «считывало» /ga-ga/ по губам или сообщало о невнятном звуке. Иллюзия рождалась именно в сочетании.

Авторы интерпретировали это как доказательство, что мозг не складывает аудио и видео последовательно («услышал - потом перепроверил губами»), а интегрирует их параллельно на ранних стадиях обработки речевого сигнала.

Что именно происходит: фонетическое слияние

Сам результат /da/ из /ba/ (аудио) + /ga/ (видео) - не случайный, а закономерный фонетический компромисс. В терминах места артикуляции:

/ba/ - губной (билабиальный) согласный, видно по сомкнутым губам.
/ga/ - заднеязычный (велярный), губы открыты, движение скрыто внутри рта.
/da/ - переднеязычный (альвеолярный), промежуточный по месту артикуляции.

Когда аудио сообщает «губной», а видео - «не губной» (губы открыты), мозг разрешает противоречие, выбирая фонему, которая совместима с обоими сигналами. Альвеолярный /da/ - единственный кандидат, не требующий ни закрытых губ, ни видимого заднего смыка. Это fusion response - слияние. Бывает и менее частая combination response: испытуемые сообщают, что слышат /bga/ или /gba/, - мозг не сливает, а склеивает сигналы последовательно, в чём-то напоминая эпентезу - вставку дополнительного звука.

Если хочется быстро прикинуть, как объяснить эффект Мак-Гурка под конкретную задачу - реферат, доклад или практикум - опиши контекст ниже, получишь готовый разбор с механизмом и границами.

Нейрофизиология: верхняя височная борозда

Где именно мозг сшивает аудио и видео в одну фонему - стало понятно к концу 1990-х. Ключевая структура - верхняя височная борозда (superior temporal sulcus, STS), особенно её задний участок (pSTS) в левом полушарии. Это классическая зона мультисенсорной конвергенции: туда приходят проекции и из первичной слуховой коры (A1, верхняя височная извилина), и из зрительных областей, обрабатывающих движение лица (включая часть fusiform face area и MT/V5).

В fMRI-исследованиях Beauchamp et al. (2010) показали, что подавление активности STS транскраниальной магнитной стимуляцией (TMS) снижает выраженность Мак-Гурк-эффекта: испытуемые начинают сообщать о слышимом /ba/ чаще. Это причинно-следственное доказательство роли STS, а не просто корреляция. EEG/MEG-работы фиксируют интеграционный сигнал в STS уже в районе 100–200 мс после стимула - то есть до сознательного отчёта, на этапе ранней перцептивной обработки.

Байесовская модель и принцип максимальной правдоподобности

Современное теоретическое объяснение эффекта Мак-Гурка опирается на байесовский вывод. Мозг рассматривается как машина, оценивающая апостериорную вероятность фонемы $\phi$ при наблюдении аудио-сигнала $A$ и видео-сигнала $V$ :

$P(\phi \mid A, V) \propto P(A \mid \phi) \cdot P(V \mid \phi) \cdot P(\phi)$

При независимости каналов оптимальная оценка - та, что максимизирует произведение правдоподобий. В случае /ba/ (аудио) + /ga/ (видео) ни /ba/, ни /ga/ не дают высокого произведения: для /ba/ зрительное правдоподобие низкое (губы открыты), для /ga/ - низкое слуховое правдоподобие (нет велярного смыка в звуке). Альвеолярный /da/ оказывается оптимумом - компромисс с умеренным правдоподобием по обоим каналам.

Эта модель, развитая в работах Massaro (Fuzzy Logical Model of Perception) и позднее в строгом байесовском варианте у Magnotti & Beauchamp (2017), хорошо предсказывает не только сам факт иллюзии, но и индивидуальные различия: чем выше «вес» зрительного канала у конкретного испытуемого, тем сильнее эффект.

Развитие, аутизм и индивидуальные различия

Чувствительность к аудиовизуальному соответствию артикуляции и звука появляется у младенцев к 4–5 месяцам, но устойчивая иллюзия слияния формируется позже - по мере накопления опыта восприятия речи. Взрослые показывают эффект сильнее детей.

У людей с расстройствами аутистического спектра эффект Мак-Гурка систематически слабее. Мета-анализ Stevenson et al. (2014) фиксирует это устойчиво: при аутизме нарушено окно мультисенсорной интеграции (temporal binding window) - мозг хуже сшивает асинхронные сигналы в один объект. На практике это коррелирует с трудностями понимания речи в шуме: в норме зрительная артикуляция «дотягивает» сигнал, при аутизме этот резерв меньше. У пожилых эффект, наоборот, часто усиливается - ослабленный слух заставляет мозг сильнее опираться на зрительный канал.

Культурные различия: японский кейс

Одно из самых обсуждаемых наблюдений - межкультурные различия в выраженности эффекта. Sekiyama и Tohkura ещё в 1991 году показали, что японские испытуемые демонстрируют эффект Мак-Гурка заметно слабее, чем американские: на тех же стимулах процент fusion-ответов у японцев существенно ниже.

Объяснений несколько, и они не взаимоисключают друг друга.

Социокультурная норма зрительного контакта: в японской культуре прямой взгляд в лицо собеседника, особенно на рот, считается менее уместным, чем в западных. Меньше тренировки - меньше веса зрительного канала.
Фонологическая структура языка: японский имеет более простую слоговую структуру (CV), меньше консонантных кластеров и более узкий инвентарь согласных. Аудио-сигнал менее двусмыслен (нет таких процессов, как диссимиляция, массово порождающих похожие пары), опора на зрение ниже.
Кросс-модальный «вес»: репликации с японскими и китайскими испытуемыми, прожившими годы в США, показывают сдвиг к американскому уровню эффекта - то есть это перцептивно пластичная характеристика, а не врождённая.

Важно: «японцы менее восприимчивы» - не означает «не восприимчивы». Эффект всё равно надёжно регистрируется, просто слабее по средней силе и доле ответов слияния.

Применение: от слуховых аппаратов до VR

Эффект Мак-Гурка - не лабораторный курьёз, а основа для прикладных решений.

Слухопротезирование и кохлеарные импланты. Пользователи протезов сильнее опираются на чтение по губам; реабилитация включает тренировку аудиовизуальной интеграции.
Дубляж и липсинк. Когда губы актёра расходятся с переводом, мозг зрителя пытается «слить» сигналы и слышит искажённые фонемы. В качественном дубляже подбирают слова с похожей видимой артикуляцией (visemes).
VR/AR и аватары. Стандарты Oculus и Apple Vision требуют рассинхрона артикуляции и звука не больше нескольких десятков миллисекунд - иначе разборчивость речи падает.
Обучение иностранному языку. Видео с крупным планом артикуляции даёт лучшее усвоение фонетики L2, особенно для звуков, которых нет в родном языке.

Шире - эффект Мак-Гурка приводится как образцовый случай мультисенсорной интеграции, наряду с эффектом чревовещателя (сдвиг локализации звука к видимому источнику) и иллюзией двойного флэша (Shams).

Частые ошибки

Считать, что эффект Мак-Гурка - про «чтение по губам». Чтение по губам - сознательная стратегия. Эффект Мак-Гурка - автоматическое восприятие, оно работает, даже если испытуемого предупредить и попросить «слушать только звук».
Путать с эффектом чревовещателя. У последнего модальности не сливаются в новый объект, а сдвигается локализация: видимый источник «перетягивает» звук. Это другой механизм мультисенсорной интеграции.
Решать, что у некоторых людей «нет» эффекта. Индивидуальные различия большие, но полное отсутствие - редкость и обычно связано с патологией STS или сенсорным дефицитом.
Использовать эффект как доказательство, что «мозг обманывается». Это не баг, а оптимальная стратегия: при шумном аудио-сигнале интеграция со зрением реально повышает разборчивость речи.
Игнорировать культурный и языковой контекст. Сила эффекта зависит и от языка, и от культурной нормы зрительного контакта.

FAQ

Чем эффект Мак-Гурка отличается от обычного чтения по губам? Чтение по губам - сознательная компенсаторная стратегия, ей учат, она требует усилия. Эффект Мак-Гурка - автоматическая, неосознанная интеграция аудио и видео на этапе ранней перцептивной обработки. Он работает помимо воли и сохраняется, даже если испытуемого предупредили о подвохе. Чтение по губам опирается на эффект Мак-Гурка как на фундамент, но не сводится к нему.

Почему эффект слабее у людей с аутизмом? Считается, что при РАС нарушено окно мультисенсорной интеграции - временной промежуток, в котором мозг считает аудио- и видео-сигналы «одним событием». Это связано с особенностями работы STS и более широких сетей мультимодальной обработки. Практический эффект - те же люди хуже понимают речь в шуме, потому что меньше используют зрительный резерв.

Можно ли «отключить» эффект Мак-Гурка усилием воли? Нет, не полностью. Многочисленные эксперименты показывают, что инструкция «игнорируйте видео и слушайте только звук» снижает иллюзию лишь незначительно. Это аргумент в пользу того, что интеграция происходит до сознательного контроля - на ранних перцептивных стадиях, а не на этапе принятия решения.

Коротко

Эффект Мак-Гурка - мощная иллюзия восприятия речи: при рассогласовании аудио (/ba/) и видимой артикуляции (/ga/) мозг рождает третью фонему (/da/) как фонетический компромисс. Открыт McGurk и MacDonald в 1976 году, нейрофизиологически локализован в верхней височной борозде (STS), теоретически объясняется байесовской моделью максимальной правдоподобности по двум каналам. Эффект сильнее у взрослых, слабее у детей и у людей с расстройствами аутистического спектра, варьирует по культурам и языкам (классический пример - более слабый эффект у японских испытуемых). На практике определяет качество дубляжа, дизайна VR/AR-аватаров, слухопротезирования и методик обучения иностранному языку. Эффект Мак-Гурка - главный аргумент в пользу того, что восприятие речи мультисенсорно по своей природе, а не является чисто слуховым процессом.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN