Первый закон Зипфа "ранг - частота". Выбирается любое слово и подсчитывается, сколько раз оно встречается в тексте. Эта величина называется частота вхождения слова. Измеряется частота каждого слова текста. Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Сгруппируем их, взяв только одно значение из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Порядковый номер частоты называется ранг частоты. Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними -- 2 и т.д. Вероятность встретить слово путем случайного выбора, будет равна отношению частоты вхождения этого слова к общему числу слов в тексте. Вероятность = Частота вхождения слова / Число слов. Зипф обнаружил интересную закономерность. Оказывается, если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна! С = (Частота вхождения слова х Ранг частоты) / Число слов. Если немного преобразовать формулу, то можно увидеть, что это функция типа y=k/x и ее график - равносторонняя гипербола. Следовательно, по первому закону Зипфа, если самое распространенное слово встречается в тексте, например, 100 раз, то следующее по частоте слово вряд ли встретится 99 раз. Частота вхождения второго по популярности слова, с высокой долей вероятности, окажется на уровне 50. Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текст мы ни взяли. Так, например, для английских текстов константа Зипфа равна приблизительно 0,1. Русские тексты с точки зрения законов Зипфа не исключение. Для русского языка коэффициент Зипфа получился равным 0,06-0,07. Второй закон Зипфа "количество - частота". Рассматривая первый закон, факта, что разные слова входят в текст с одинаковой частотой не рассматривался. Зипф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой. Если построить график, отложив по одной оси (оси Х) частоту вхождения слова, а по другой (оси Y) -- количество слов в данной частоте, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов! Как и в предыдущем случае, это утверждение верно в пределах одного языка. Однако и межъязыковые различия невелики. На каком бы языке текст ни был написан, форма кривой Зипфа останется неизменной. Могут немного отличаться лишь коэффициенты, отвечающие за наклон кривой (в логарифмическом масштабе, за исключением нескольких начальных точек, график - прямая линия). Законы Зипфа универсальны. В принципе, они применимы не только к текстам. Характеристики популярности узлов в сети Интернет - тоже отвечают законам Зипфа. Не исключено, что в законах отражается "человеческое" происхождение объекта. Что дают законы Зипфа? Как с их помощью извлечь слова, отражающие смысл текста? Если воспользоваться первым законом Зипфа и построить график зависимости ранга от частоты, то исследования показывают, что наиболее значимые слова лежат в средней части диаграммы. Слова, которые попадаются слишком часто, в основном оказываются предлогами, местоимениями, в английском - артиклями и т.п. Редко встречающиеся слова тоже, в большинстве случаев, не имеют решающего смыслового значения. |