Критерий сферичности Бартлетта в факторном анализе

Критерий сферичности Бартлетта - это статистический тест, который проверяет, годятся ли исходные данные для факторного анализа: он сравнивает наблюдаемую корреляционную матрицу с единичной и отвечает на вопрос, есть ли между переменными достаточные связи, чтобы их вообще имело смысл сворачивать в общие факторы. Если переменные взаимно некоррелированы (корреляционная матрица близка к единичной, то есть «сферична»), факторов нет и выделять нечего. Ниже разберём, откуда берётся статистика хи-квадрат критерия Бартлетта, как она считается через определитель корреляционной матрицы, сколько у неё степеней свободы и как читать уровень значимости вместе с мерой выборочной адекватности KMO. Калькулятор ниже соберёт ваши параметры (число переменных, объём выборки, определитель матрицы) и сразу прикинет статистику, а строгий разбор оставит для чата.
Зачем нужен критерий сферичности перед факторным анализом
Факторный анализ ищет за множеством наблюдаемых признаков несколько скрытых (латентных) факторов, которые объясняют их совместную изменчивость. Но эта идея работает только тогда, когда переменные действительно связаны между собой: общий фактор «проявляется» именно через корреляции. Если же все признаки взаимно независимы, никакого общего источника нет, и попытка выделить факторы даст бессмысленный результат - алгоритм всё равно что-то «найдёт», но это будет шум.
Геометрический образ, давший название тесту, такой: представьте облако точек в пространстве переменных. Когда переменные некоррелированы и имеют равные дисперсии, облако равномерно «раздуто» во все стороны - это сфера. Корреляция вытягивает облако в эллипсоид, и чем сильнее связи, тем сильнее вытянутость. Критерий сферичности Бартлетта формально проверяет нулевую гипотезу о том, что облако сферическое, то есть корреляционная матрица совпадает с единичной.

Нулевая и альтернативная гипотезы теста
Формально критерий Бартлетта проверяет, равна ли корреляционная матрица единичной матрице :
Нулевая гипотеза утверждает, что все недиагональные элементы корреляционной матрицы равны нулю: переменные попарно некоррелированы. Если эта гипотеза верна, факторный анализ проводить бессмысленно. Альтернатива говорит, что хотя бы часть переменных связана, и тогда выделение факторов оправдано.
Логика здесь обратная привычной: мы хотим отвергнуть нулевую гипотезу. Низкое значение (как правило, ) означает, что корреляционная матрица значимо отличается от единичной - данные подходят для факторного анализа. Высокое значение - тревожный сигнал: связей мало, и от факторного анализа стоит отказаться или хотя бы насторожиться.
Статистика хи-квадрат через определитель корреляционной матрицы
Сердце критерия - определитель корреляционной матрицы . Для единичной матрицы . Чем сильнее переменные скоррелированы, тем ближе к нулю (в пределе линейной зависимости определитель обращается в ноль). То есть определитель работает как мера «сферичности»: значение около 1 говорит о почти некоррелированных переменных, значение около 0 - о сильных связях.
Статистика критерия Бартлетта строится на натуральном логарифме определителя:
где - объём выборки (число наблюдений), - число переменных, - определитель корреляционной матрицы. Множитель - это поправка Бартлетта, уточняющая аппроксимацию хи-квадрат-распределением при конечной выборке.
Разберём знаки. Поскольку , его логарифм , поэтому минус перед скобкой делает всю статистику неотрицательной. Когда (переменные некоррелированы), и - оснований отвергать нет. Когда (сильные связи), и растёт - гипотеза о сферичности отвергается.

Число степеней свободы и решающее правило
Полученную статистику сравнивают с критическим значением хи-квадрат-распределения. Число степеней свободы определяется количеством независимых недиагональных элементов корреляционной матрицы:
Например, для переменных . Это ровно число пар переменных - именно столько корреляций мы одновременно проверяем на равенство нулю.
Решающее правило стандартное для критериев согласия. По статистике и числу степеней свободы находят -значение. Если (обычно ), нулевую гипотезу о сферичности отвергают - корреляционная матрица значимо отличается от единичной, и факторный анализ применять можно. Если , оснований отвергнуть нет: данные ближе к некоррелированным, и факторная модель, скорее всего, не нужна.
Критерий Бартлетта почти всегда «срабатывает» на больших выборках: множитель n−1 раздувает χ². Поэтому значимый результат теста - условие необходимое, но не достаточное. Обязательно смотрите ещё и на меру KMO.
Связка с мерой выборочной адекватности KMO
На практике критерий Бартлетта почти никогда не используют в одиночку - его подают в паре с мерой Кайзера-Мейера-Олкина (KMO). Если критерий Бартлетта отвечает на вопрос «есть ли вообще связи?», то KMO оценивает, насколько эти связи «факторизуемы», сравнивая обычные корреляции с частными.
Мера KMO принимает значения от 0 до 1: чем ближе к 1, тем лучше данные подходят для факторного анализа. Грубая шкала Кайзера такая: ниже 0,5 - неприемлемо, 0,5-0,7 - средне, 0,7-0,8 - хорошо, выше 0,8 - отлично. Здесь полезно вспомнить про частный коэффициент корреляции: KMO как раз построен на сравнении парных и частных корреляций между переменными.
Типичная связка для отчёта выглядит так: тест Бартлетта значим (), KMO - вывод, что выборка адекватна и факторный анализ оправдан. Если же Бартлетт значим, но KMO низок (например 0,45), значимость теста почти наверняка обусловлена большим объёмом выборки, а не реальной факторной структурой.
Критерий Бартлетта и метод главных компонент
Факторный анализ и метод главных компонент часто идут рядом, и проверка Бартлетта одинаково уместна перед обоими: и там, и там мы пытаемся свернуть скоррелированные переменные в меньшее число осей. Если переменные некоррелированы, первые компоненты не будут «собирать» заметно больше дисперсии, чем остальные, - выделять нечего.
Полезно отличать этот критерий от другого, носящего то же имя: критерий Бартлетта на однородность дисперсий (равенство дисперсий в нескольких группах перед дисперсионным анализом) - это совсем другой тест с другой статистикой. Здесь речь идёт именно о критерии сферичности корреляционной матрицы в факторном анализе; не путайте их при чтении вывода статистических пакетов.
Частые ошибки
- Принимать как «хороший» исход. Логика обратная: для факторного анализа нам нужно отвергнуть гипотезу о сферичности. Высокий - это плохо, а не хорошо.
- Опираться только на Бартлетта. На больших тест почти всегда значим. Без меры KMO значимый результат ещё ничего не гарантирует.
- Путать два критерия Бартлетта. Критерий сферичности (корреляционная матрица против единичной) и критерий однородности дисперсий - разные тесты; не переносите выводы одного на другой.
- Считать от ковариационной, а не корреляционной матрицы. В формуле участвует именно корреляционная матрица (с единицами на диагонали), иначе шкала определителя поедет.
- Забывать поправку . На малых выборках без неё аппроксимация хи-квадратом смещена; для и среднего размера разница уже заметна.
FAQ
Что показывает критерий сферичности Бартлетта простыми словами? Он проверяет, есть ли между переменными достаточно корреляций, чтобы запускать факторный анализ. Если переменные почти независимы (корреляционная матрица близка к единичной), общих факторов нет и тест говорит «не годится». Значимый результат () означает, что связи есть и факторный анализ оправдан.
Какое значение критерия Бартлетта считается хорошим? Само значение статистики не интерпретируют в отрыве от степеней свободы - смотрят на -значение. Хороший (для целей факторного анализа) результат - это малое , обычно меньше 0,05, а лучше меньше 0,001. Но обязательно сверяйтесь с KMO: на больших выборках Бартлетт значим почти всегда.
В чём разница между критерием Бартлетта и мерой KMO? Бартлетт - формальный статистический тест: есть связи или нет (гипотеза о единичной матрице). KMO - это индекс от 0 до 1, который оценивает, насколько связи «факторизуемы», сравнивая парные и частные корреляции. Их используют вместе: Бартлетт даёт значимость, KMO - качество факторизуемости.
Коротко
Критерий сферичности Бартлетта проверяет нулевую гипотезу о том, что корреляционная матрица равна единичной, то есть переменные некоррелированы и факторный анализ бессмыслен. Статистика растёт по мере удаления от единицы; её сравнивают с хи-квадрат-распределением при степенях свободы. Малое -значение разрешает факторный анализ, но интерпретировать тест нужно вместе с мерой KMO, потому что на больших выборках он значим почти всегда.
Читайте также

Коэффициент множественной корреляции: формула и расчёт
Коэффициент множественной корреляции: формула через парные коэффициенты и через определители матрицы, связь с R квадрат и регрессией, как считать и интерпретировать значение для двух и более факторов.

Дисперсионный анализ с повторными измерениями: формула F
Дисперсионный анализ с повторными измерениями простыми словами: как раскладывается сумма квадратов, как считать F и степени свободы, чем он отличается от обычного ANOVA и почему мощнее.

Большая пятёрка факторов личности: методология и применение
Большая пятёрка факторов личности: как факторный анализ выявил пять измерений, инструмент NEO PI-R, кросс-культурная валидность и предиктивная сила OCEAN для карьеры и здоровья.