Закон Ципфа

Закон Ципфа
Закон Ципфа для русской Википедии

Закон Ципфа (Зипфа) — эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.

Закон носит имя своего первооткрывателя — американского лингвиста Джорджа Ципфа (George Kingsley Zipf) из Гарвардского университета.

Объяснение закона Ципфа, основанное на корреляционных свойствах аддитивных марковских цепей (со ступенчатой функцией памяти) было дано в работе[1].

«Опровержение» закона Ципфа

Американский биолог Ли Вэньтянь попытался[2] опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов также подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста.

В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растет при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.

Несмотря на строгость доказательства, заключительный вывод Ли Вэньтяня представляется недостаточно обоснованным: естественные языки, на материале которых был открыт Ципфом его закон, сильно отличаются от предложенной Ли Вэньтянем модели[источник не указан 303 дня].

Примечания

  1. K. E. Kechedzhy, O.V. Usatenko, V. A. Yampol'skii Rank distributions of words in additive many-step Markov chains and the Zipf law = Arxiv LANL. — 2004.; Phys. Rev. E. – 2005. – V. 72. – P. 046138(1)–046138(6).
  2. Wentian Li Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution = IEEE Transactions on Information Theory. — Santa Fe Institute, 1660 Old Pecos Trail, Suite A, Santa Fe, NM 87501, 1992. — В. 38. — № 6. — С. 1842-1845.

См. также



Wikimedia Foundation. 2010.

Игры ⚽ Нужен реферат?

Полезное


Смотреть что такое "Закон Ципфа" в других словарях:

  • Закон Ципфа — открытая Дж.Ципфом эмпирическая закономерность распределения частоты встречаемости слов в достаточно большом тексте. По закону Ципфа график зависимости упорядоченной по убыванию частоты встречаемости слов имеет вид гиперболической лестницы . См.… …   Финансовый словарь

  • ЗАКОН ЦИПФА-ПАРЕТО — англ. Zipf Pareto law; нем. Zipf Paretosches Gesetz. Закон, согласно к рому существует тенденция к дальнейшему увеличению удельного веса элементов, уже обладающих более высокой частотой распространения. напр., чем выше доход, тем больше шансов к… …   Энциклопедия социологии

  • ЗАКОН ЦИПФА - ПАРЕТО — англ. Zipf Pareto law; нем. Zipf Paretosches Gesetz. Закон, согласно к рому существует тенденция к дальнейшему увеличению удельного веса элементов, уже обладающих более высокой частотой распространения. Напр., чем выше доход, тем больше шансов к… …   Толковый словарь по социологии

  • Закон Ципфа-Мандельброта — См.: в словарной статье лексикографическая статистика …   Словарь лингвистических терминов Т.В. Жеребило

  • Закон Зипфа — Закон Ципфа для русской Википедии Закон Ципфа (Зипфа) эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то… …   Википедия

  • Ципфа закон — Ципфа закон  см. Лингвистическая статистика …   Лингвистический энциклопедический словарь

  • Метод Зипфа — Закон Ципфа для русской Википедии Закон Ципфа (Зипфа) эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то… …   Википедия

  • Квантитативная лингвистика — (англ. quantitative linguistics)  это раздел общей лингвистики и, в частности, математической лингвистики. Квантитативная лингвистика (КЛ) занимается исследованием процесса изучения языка, его изменения и сферы применения, а также… …   Википедия

  • Лингвистическая статистика — (лингвостатистика)  1) в широком смысле: область применения статистических методов в языкознании (см. Количественные методы в языкознании); 2) в узком смысле: изучение некоторых математических проблем, связанных с лингвистическим материалом,… …   Лингвистический энциклопедический словарь

  • Распределение Парето — Плотность вероятности …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»