EssayAI
Блог
Блог
Гуманитарные науки

Закон Ципфа: частотность слов в тексте простыми словами

17 июня 2026Время чтения: 7 минут
#закон ципфа#частотность слов#лингвистика#степенной закон#ранг слова
Закон Ципфа: частотность слов в тексте простыми словами

Если взять любой большой текст и пересчитать, сколько раз встречается каждое слово, обнаружится странная закономерность: горстка слов берёт на себя львиную долю всех словоупотреблений, а огромное число слов появляется всего один-два раза. Закон Ципфа формализует это наблюдение: частота слова обратно пропорциональна его рангу в частотном списке. Самое частое слово встречается примерно вдвое чаще второго, втрое чаще третьего и так далее. Ниже разберём формулу, её график, смысл показателя степени и где эта частотность слов работает на практике, а в калькуляторе под текстом можно собрать запрос и проверить распределение на своём материале.

Что утверждает закон Ципфа

Закон Ципфа назван в честь американского лингвиста Джорджа Кингсли Ципфа, который в 1930-1940-х годах изучал распределение частот в естественных языках. Суть проста: если упорядочить все слова текста по убыванию частоты и присвоить им ранги (1 для самого частого, 2 для следующего и т. д.), то частота слова окажется примерно обратно пропорциональной его рангу.

В базовой форме это записывается так:

f(r)=Crsf(r) = \frac{C}{r^{s}}

Здесь f(r)f(r) - частота слова с рангом rr, CC - нормировочная константа (грубо говоря, частота самого частого слова), а ss - показатель степени, близкий к единице для естественных языков. При s=1s = 1 закон вырождается в чистую гиперболу: частота второго слова вдвое меньше первого, третьего - втрое меньше, и так далее.

График закона Ципфа: гипербола частоты слов и убывающие столбцы
График закона Ципфа: гипербола частоты слов и убывающие столбцы

Почему получается гипербола

Если отложить ранг по горизонтальной оси, а частоту - по вертикальной, точки лягут на круто падающую кривую. Первые несколько рангов дают резкий обрыв: служебные слова (в русском это «и», «в», «не», «на», «я») набирают тысячи употреблений, тогда как уже к сотому рангу частота падает на порядок. Дальше кривая выполаживается в длинный «хвост» из редких слов, многие из которых встречаются ровно один раз - такие слова называют гапаксами.

Эта частотность слов означает, что словарь текста устроен крайне неравномерно. Несколько десятков самых частых слов покрывают около половины всего объёма текста, а оставшаяся половина растягивается на тысячи редких единиц. Именно поэтому при изучении языка первые 1000-2000 слов дают непропорционально большой охват реальной речи.

Логарифмический график: прямая линия

Гипербола неудобна для проверки: на обычных осях трудно понять, точно ли данные следуют закону. Поэтому распределение почти всегда строят в двойных логарифмических координатах. Если прологарифмировать обе части формулы, получится:

logf(r)=logCslogr\log f(r) = \log C - s \cdot \log r

Это уравнение прямой с угловым коэффициентом s-s. То есть в координатах «логарифм ранга - логарифм частоты» закон Ципфа превращается в нисходящую прямую линию, а наклон этой прямой и есть показатель ss. Чем круче падает прямая, тем сильнее доминируют частые слова.

Сравнение обычных и логарифмических осей для закона Ципфа
Сравнение обычных и логарифмических осей для закона Ципфа

На практике идеальной прямой почти не бывает: на самом верху (несколько сверхчастых служебных слов) и в самом низу (хвост гапаксов) наблюдаются отклонения. Поэтому исследователи часто используют уточнение - закон Ципфа-Мандельброта, добавляющий сдвиг ранга и дающий более точную подгонку к реальным данным.

Показатель степени s и его смысл

Показатель ss - главный параметр, отличающий один текст или язык от другого. Для большинства естественных языков он лежит около единицы, обычно в диапазоне примерно от 0,9 до 1,2. Но значение зависит от материала:

  • s1s \approx 1 - классический случай, характерный для больших связных текстов на естественном языке.
  • s>1s > 1 - распределение «круче», доминирование частых слов сильнее; так бывает в коротких или стилистически бедных текстах.
  • s<1s < 1 - более «пологое» распределение, словарь богаче и равномернее.

Оценить ss можно по наклону прямой на логарифмическом графике либо подгонкой методом наименьших квадратов. Сравнение показателей у разных авторов, жанров и языков - отдельное направление количественной лингвистики и стилеметрии, родственное анализу семантических полей и лексико-семантических групп.

Где встречается закон Ципфа

Закономерность вышла далеко за пределы лингвистики и оказалась универсальным степенным законом:

  • Корпусная лингвистика и обработка языка. Частотные словари, отбор стоп-слов, оценка богатства лексики и сжатие текстов опираются на ципфовское распределение.
  • Информационный поиск и SEO. Распределение частот ключевых слов в выдаче и на сайтах следует тому же закону; на нём строится взвешивание терминов (например, схема TF-IDF учитывает, что частые слова малоинформативны).
  • Социология и экономика. Размеры городов в стране, доходы, частоты фамилий и обращения к веб-страницам тоже нередко подчиняются ципфоподобному распределению.

Эта универсальность - одна из причин, почему частотность слов так интересна: один и тот же простой закон описывает структуру и языка, и города, и сети. При этом для конкретного текста закон остаётся в первую очередь инструментом описания, а не строгим физическим правилом.

Существует несколько объяснений, почему распределение получается именно таким. Сам Ципф связывал его с «принципом наименьшего усилия»: говорящему выгодно повторять немного коротких слов, а слушающему - чтобы слов было больше и они были однозначнее; компромисс между этими силами и порождает наблюдаемую кривую. Позже математик Бенуа Мандельброт показал, что похожее распределение возникает и в чисто случайных моделях генерации текста, что делает закон ещё универсальнее, но и сложнее для содержательной интерпретации.

Как проверить закон на своём тексте

Чтобы убедиться, что текст подчиняется закону Ципфа, достаточно нескольких шагов. Сначала текст приводят к единому виду (нижний регистр, удаление пунктуации), затем разбивают на слова - токены. После этого считают, сколько раз встречается каждое слово, сортируют по убыванию и нумеруют ранги. Остаётся построить пары «ранг - частота» и нанести их на логарифмический график: если точки выстраиваются вдоль прямой, закон выполняется.

Часто лемматизируют слова, то есть приводят словоформы к начальной форме, чтобы «делать», «делает» и «делал» считались одним словом - для флективных языков вроде русского это заметно меняет частотный список. Решение о лемматизации зависит от задачи: для оценки лексического богатства она нужна, а для анализа стиля важны как раз конкретные словоформы.

Объём выборки тоже влияет на результат: на коротком тексте хвост ещё не сформировался, и оценка показателя ss получается шумной. Надёжная проверка требует хотя бы нескольких тысяч словоупотреблений. Любой из этих этапов можно поручить ИИ-помощнику: попросить его построить частотный список, оценить показатель ss методом наименьших квадратов или объяснить, почему хвост распределения отклоняется от прямой.

Частые ошибки

  • Путать ранг и саму частоту. На оси абсцисс откладывается порядковый номер слова в частотном списке, а не его абсолютная частота - это разные величины.
  • Строить график на обычных осях и ждать прямую. Прямая линия появляется только в двойных логарифмических координатах; на линейных осях это всегда гипербола.
  • Ожидать идеального совпадения. Реальные данные отклоняются на концах распределения, и это норма; для точной подгонки нужен закон Ципфа-Мандельброта.
  • Игнорировать предобработку. Без приведения к нижнему регистру и без лемматизации частотный список искажается, а оценка показателя ss становится недостоверной.
  • Считать закон причинным объяснением. Ципф описывает форму распределения, но сам по себе не говорит, почему язык так устроен.

FAQ

Кто открыл закон Ципфа? Закономерность связывают с именем Джорджа Кингсли Ципфа, который в 1930-1940-х годах систематически изучал частоты слов. Похожие наблюдения ранее делали стенографист Жан-Батист Эступ и физик Феликс Ауэрбах, но устойчивое название закон получил по Ципфу.

Чему равен показатель степени для русского языка? Для больших корпусов русского текста показатель ss близок к единице, обычно в районе 0,9-1,1. Точное значение зависит от жанра, объёма выборки и того, лемматизированы ли слова.

Чем закон Ципфа отличается от закона Ципфа-Мандельброта? Формула Мандельброта добавляет к рангу сдвигающую константу: f(r)=C/(r+b)sf(r) = C / (r + b)^{s}. Это убирает завышение частоты у самых верхних рангов и даёт лучшую подгонку к реальным текстам, особенно в начале распределения.

Коротко

Закон Ципфа утверждает, что частота слова обратно пропорциональна его рангу в частотном списке: f(r)=C/rsf(r) = C / r^{s} с показателем ss около единицы для естественных языков. На обычных осях это гипербола, на двойных логарифмических - прямая с наклоном s-s. Закон описывает резкую неравномерность словаря, лежит в основе частотных словарей, стоп-слов и взвешивания терминов в поиске, а в обобщённой форме Ципфа-Мандельброта точнее подгоняется к реальным данным.

Доверьте текст нейросети EssayAI

Открыть EssayAI

Бесплатно, на русском языке и без VPN

Читайте также