Московский экономический журнал 5/2017

image_pdfimage_print

УДК 339.13

Bezymyannyj-12

Плотников Андрей Викторович,

кандидат экономических наук

доцент кафедры менеджмента

ФГБОУ ВО «Пермский государственный аграрно-технологический университет имени академика Д.Н. Прянишникова», г. Пермь

Plotnikov A.V. andreiplotnikovwork@gmail.com

АНАЛИЗ ТЕКСТОВЫХ ДОКУМЕНТОВ САЙТА НА ОСНОВЕ ПРИМЕНЕНИЯ ЗАКОНА ЦИПФА

ANALYSIS OF TEXT DOCUMENTS OF THE SITE BASED ON THE APPLICATION OF ZIPF’S LAW

Аннотация

Почти 70 лет назад, лингвистом из Гарварда Джорджем Ципфом был сформулирован эмпирико-математический закон, отражающий для любого естественного языка связи типа «ранг – частота»: слова весьма протяженного текста (в потенциале – языка), если лексикографически упорядочить их по используемости, то у слова ряда с номером n частота будет «почти» обратно пропорциональна рангу, числу n. В частности, второе по частотности слово будет встречаться вдвое реже первого, третье – реже первого и второго и т.д. На основе применения Закона Ципфа проведен анализ web-страниц сайтов на предмет естественности.

Summary

Almost 70 years ago, a linguist from Harvard George Zipf formulated an empirical-mathematical law that reflects for any natural language the connection of the «rank-frequency» type: words of a very long text (in the potential of language), if lexicographically order them according to their use, then the word series with the number n, the frequency will be «almost» inversely proportional to the rank, the number n. In particular, the second most frequent word will occur twice as rarely as the first, the third — less often than the first three times, etc. Based on the application of the Zipf Law, an analysis of the web pages of sites on the subject of naturalness has been carried out.

Ключевые слова: закон Ципфа, контент-маркетинг, интернет-маркетинг, поисковая оптимизация.

Keywords: Zipf’s law, content marketing, Internet-marketing, Search Engine Optimization.

Введение

Из числа критериев оценки качества текста главным является его естественность. Контроль данного признака возможно осуществить с помощью математического метода, который выявил американский лингвист Джордж Ципф [1]. Сейчас у метода много последователей. [2] [3] [4] [5], в том числе и в отечественной науке. [6] [7]

Проверка согласно закону Ципфа – это способ оценки естественности текста, устанавливающие регулярность расположения слов, в каком месте частота слова обратно пропорциональна его месту в тексте.

Закон Ципфа емко и лаконично отражает проверку частотности вхождений в текст слов. Хорошим уровнем естественности считается частотность более 0.5 (вхождения от 50% и выше). Вероятность, что появится в генерируемой последовательности случайных символов слова длины n, уменьшится по мере возрастания n в темпе, аналогичном, росту рангу. Следовательно, произведение частоты слов, их рангов – величина постоянная.

Первый закон Ципфа «ранг — частота»

С = (Частота вхождения слова х Ранг частоты) / Число слов.

Если брать соответствие слова на ранг частоты, в таком случае значение (С) станет неизменной, при этом это верно для документа на каждом языке, внутри любой языковой группы важность станет постоянным.

Screenshot_1

Рисунок 1. Закон Ципфа в действии

Значимые для документа слова, характеризующие его тему, пребывают в середине гиперболы. Слова, применяемые преимущественно многократно, также, как и низкочастотные, не обладают главным смысловым значением.

Второй закон Ципфа «количество — частота»

Частота слова и его количество в тексте также сопряжены друг с другом. В случае если создать диаграмму, где Х — частота слова, Y – число слов этой частоты, форма кривой станет неизменной. Принцип сочинения отличного слова подразумевает, то, что его следует совершить более ясным в присутствие применения меньшего числа текстов. Закон демонстрирует единое свойство для любого языка.[8]

Закон Ципфа применим к интернет-маркетингу, в контексте контент-маркетинга для поисковой оптимизации. В работах авторов L. A. Adamic и B. Huberman [9],  раскрыта значимость закона Ципфа для ранжирования текстовых документов. Китайские ученые [10] показали его универсальность в контексте кросс-языкового применения на примере своего китайского языка.

Рассмотрим закон Ципфа в контексте интернет-маркетинга, а именно в области поисковой оптимизации текстовых документов на сайте. Проверить SEO-документ на натуральность и естественность необходимо в обязательном порядке, в случае если при написании применялись ключевые слова, чтобы он был удобочитаемым и ясным для аудитории читателей. Кроме того, коэффициент естественности текста обладает значимостью при ранжировании веб-сайтов поисковыми системами, которые определяют соответствие текста ключевым запросам, распределяя слова согласно группам значимых, случайных и вспомогательных. Зависимость между частотой встречаемости слова в тексте f, и его местом в частотном словаре (рангом) r, обратно пропорциональная. Чем выше ранг слова (чем дальше оно располагается от начала словаря), тем меньше частота его встречаемости в тексте. Если изобразить визуально, то график такого рода связи — гипербола, которая при малых значениях рангов значительно снижается, далее в области малых значений частоты встречаемости, f, тянется очень далеко, постепенно, но очень незаметно, уменьшаясь по мере роста ранга, r. [11]

В качестве объекта исследования были выбраны посадочные страницы партнёрской программы по продаже курса английского языка, был проанализирован pre-landing-page [12] и основной landing-page [13].

Результаты исследования отображены в таблицах 1, прил.2 и 3.

Таблица 1 — Общие результаты показателей сравнения

Screenshot_2

Т-текста — это насыщенность текста ключевыми словами.[14]

Screenshot_3

Рисунок 1. Распределение слов документа web-страницы (pre-landing-page)

Screenshot_4

Рисунок 2. Разница между распределением по Ципфу (оптимум) и фактическим распределением слов в тексте документа (pre-landing-page)

Screenshot_5

Рисунок 3. Распределение слов документа web-страницы (landing-page)

 

Screenshot_6

Рисунок 4. Разница между распределением по Ципфу (оптимум) и фактическим распределением слов в тексте документа (landing-page)

Важная ремарка, допустим, одна частота первого слова встречается раз на миллион, а второго 2 на миллион, то не имеет значения арифметическая разница частот между ними, поскольку эти слова употребляются настолько редко, что многие носители языка возможно не знают о их существовании. Тем не менее дальняя (шлейф) область примечательна тем, что слово, находящееся в этом месте в тексте, способно легко неоднократно снизить значение собственного ранга. В том числе и малое повышение частоты встречаемости фразы стремительно сдвигает его позицию к началу частотного словаря.

В законе Ципфа критерием популярности слова выступает его позиция в частотном словаре языка, соответственно, наиболее популярное расположено ближе к началу словаря.

С математической точки зрения, график зависимости представляет собой гиперболу с крутым ростом по мере приближения к началу координат и длинным горизонтальным, «шлейфом». Значительная доля слов языка располагается непосредственно в этом «шлейфе». Тут место слова в частотном словаре, если и меняет частоту употребления этого слова в языке, в таком случае на малое количество. И если позиция слова в частотном словаре доходит до участка гиперболы, где по мере приближения к началу координат начинается существенный подъем кривой, ситуация изменяется.[15] После, незначительное изменение частоты встречаемости слова не приводит к существенным переменам его ранга, в таком случае состояние слова в частотном словаре перестает меняться. Следовательно, увеличение популярности слова замедляется.

Список литературы

  1. Zipf G. K. Human behavior and the principle of least effort. 1949.
  2. Bentz C., i Cancho R. F. Zipf’s Law of Abbreviation as a Language Universal. – Universitätsbibliothek Tübingen, 2016.
  3. Newman M. E. J. Power laws, Pareto distributions and Zipf’s law //Contemporary physics. – 2005. – Т. 46. – №. 5. – С. 323-351.
  4. Gabaix X. Zipf’s law for cities: an explanation //The Quarterly journal of economics. – 1999. – Т. 114. – №. 3. – С. 739-767.
  5. Li W. Random texts exhibit Zipf’s-law-like word frequency distribution //IEEE Transactions on information theory. – 1992. – Т. 38. – №. 6. – С. 1842-1845.
  6. Шрейдер Ю. А. О возможности теоретического вывода статистических закономерностей текста (к обоснованию закона Ципфа) //Проблемы передачи информации. – 1967. – Т. 3. – №. 1. – С. 57-63.
  7. Яблонский А. И. Математические модели в исследовании науки. – 1986.
  8. Закон Ципфа https://ru.megaindex.com/support/faq/zakon-zipfa
  9. Adamic L. A., Huberman B. A. Zipf’s law and the Internet // Glottometrics. – 2002. – Т. 3. – №. 1. – С. 143-150.
  10. Kanwal J. et al. Zipf’s Law of Abbreviation and the Principle of Least Effort: Language users optimise a miniature lexicon for efficient communication //Cognition. – 2017. – Т. 165. – С. 45-52.
  11. Закон Ципфа https://ru.megaindex.com/support/faq/zakon-zipfa
  12. PreLanding page http://informatsionniy-vestnik.com/articles/novaya-2-nedelnaya-formula-avtomaticheskogo-izucheniya-inostrannykh-yazykov-r/
  13. Landing page http://posledniye-novosti-mira.com/vy-nachnyote-govorit-na-inostrannom-yazyke-v-techeniye-2-nedel/
  14. Тошнота_текста https://wiki.advego.ru/index.php/Тошнота_текста
  15. Иосиф Ольшаницкий. Где применяется закон Ципфа? http://www.proza.ru/2016/11/05/859

Приложение 1 – Таблица результатов анализа web-страницы (pre-landing)

Screenshot_7

Screenshot_8

Приложение 2 – Таблица результатов анализа web-страницы (pre-landing)

Screenshot_9

Screenshot_10