Московский экономический журнал 2/2021

image_pdfimage_print

DOI 10.24412/2413-046Х-2021-10119

Исследование внутриведомственного взаимодействия органов власти РФ на основе документов стратегического планирования с помощью технологии Text Mining

Research of the intradepartmental authority of the Russian Federation based on strategic planning using Text Mining technology

Ковтун Денис Борисович, ассистент кафедры бизнес-информатики Уральского государственного экономического университета

Kovtun Denis Borisovich, Assistant of the Department of Business Informatics, Ural State University of Economics

Аннотация. Статья представляет собой описание методики построения интеллектуальной модели и анализа неструктурированных данных в виде текса, посредством технологии Text Mining. В качестве примера используются официальные документы Минэкономразвития РФ. Методика, описанная в статье, предполагает использование языка программирования R с оболочкой RStudio. Формат описания методики представлен в виде традиционной технологии «Key-by-Key» (клавиша за клавишей), широко применяемой в сфере ИТ.

Summary. The article is a description of methods for building an intelligent model and analyzing unstructured data in the form of a text using the Text Mining technology. As used by the official documents of the Ministry of Economic Development of the Russian Federation. The technique described in the article is using the R programming language with the RStudio shell. The format of the description of the methodology in the form of the traditional «Turnkey» technology (key by key), widely used in the IT field.

Ключевые слова: text mining, R, цифровая экономика, открытые данные.

Keywords: text mining, R, digital economy, open data.

Введение

Современные тенденции стремительного роста текстовых данных, подталкивают исследователей к изучению методов обработки и интеллектуального анализа текста. Текстовые данные наравне с большими числовыми данными обладают полезной информацией, которая требует извлечения, обработки и анализа.  Использование качественных подходов к анализу текста, включая ручное кодирование, аналитические методы дискурса или обоснованную теорию исчерпали свой потенциал [1]. Ручные процедуры являются трудоемкими и, кажется, достигли своих естественных пределов, когда дело доходит до анализа все больших объемов текстового материала [2, 4]. Следовательно, исследователи начали изучать возможности, которые предлагает компьютерный или автоматический анализ текстовых данных [3, 7]. Аргументов в пользу интеллектуального анализа текста тем больше, чем больше неструктурированных данных и чем они менее доступны для ручных методов анализа контента. Большинство организаций и учреждений собирают и хранят огромные объемы данных в хранилищах данных и облачных платформах, и объем таких данных сохраняет тенденцию к росту.  Большая часть информационных ресурсов представлена в формате неструктурированного текста на естественном языке и доступна в открытых источниках. Такие тексты включают, среди прочего, онлайн-контент из газет и социальных сетей, пресс-релизы компаний, отзывы пользователей об опыте и продуктах, а также научные статьи и дискуссии. В связи с этим, интеллектуальный анализа текста (далее — Text mining) становится приоритетным методом исследований данных. Text Mining – наиболее востребованный способ анализа и обработки неструктурированных данных в виде текста.

Основные задачи в Text mining [11]:

  • Релевантность документа (поиск текстов по заданной теме). Тема может быть узкой: например, научные статьи по хирургии глаза.
  • Именованные сущности. Если документ релевантный, может потребоваться отыскать в нем некоторые факты: например, фамилии ученых или определенную терминологию.
  • Тип документа. Необходимо присвоить документу метку в зависимости от его содержания: например, классифицировать обзоры на товар как «положительные» или «отрицательные».
  • Связи между сущностями. Кроме самих фактов, часто необходимо найти те части документов, где говорится о взаимосвязи фактов: например, поиск связей между медицинскими препаратами и побочными эффектами или поиск связей между именем сотрудника и отрицательными отзывами на его работу.

Отдельные вопросы изучаемой темы были рассмотрены в работах следующих авторов, таких, как Бондаренко М.Ф., Коряк А.С., Рошка С.А., Томич И.В. [9], которые занимались изучением модели представления данных в Интернете. Вопросам обработки текстовых документов и эволюции автоматизированных систем проектирования было уделено внимание Котельниковой Ю.Е. [13]. В работе Чернышовой Г.Ю., Овчинникова А.Н. описано применение методов интеллектуального анализа данных для кластеризации текстовых документов [17].

Большинство исследователей выделяют следующие этапы Text Mining:

  1. сбор данных – сбор данных из баз данных и архивов или извлечение данных с веб-сайтов или социальных сетей,
  2. предварительная обработка данных,
  3. автоматическое реферирование, аннотирование – построение краткого содержания документа по его полному тексту,
  4. категоризация, классификация – отнесение документа или его части к одной или нескольким категориям. Категории могут определять «направленность» текста — тематическую, жанровую, эмоциональную, оценочную,
  5. Кластеризация ­– объединение документов в группы по принципу их схожести,
  6. интеграции выводов и результатов интеллектуального анализа текста в исследование.

Не все этапы являются обязательными при анализе текста, количество этапов зависит от конечных целей исследования, а также от программного обеспечения, с помощью которого производится данная процедура.

В начале второго десятилетия 21 века, крупнейшие мировые разработчики программного обеспечения вступили в борьбу за первенство в разработке ПО для анализа текстовых данных. Среди участников этой гонки такие компании как IBM, SAS, Google, Angoss Software Corporation и многие другие. Стоит отметить, что перечисленные компании преуспели в разработке программного обеспечения для Text Mining, но каждое из разработанных ПО имеет ряд ограничений, к примеру: IBM SPSS, Angoss являются проприетарным ПО и не доступны для свободного доступа, а программы от Google и SAS имеют ограниченный функционал, который не позволяет в полной мере анализировать неструктурированные данные. В связи с этими ограничениями для данной работы автором был выбран язык программирования R с набором пакетов tm, tidytext, tokenizers, tidyverse, которые были разработаны специально для обработки и анализа текстовых данных.

R — это язык и среда для статистических вычислений и графики. Это  проект GNU, который был разработан в Bell Laboratories (ранее AT&T, теперь Lucent Technologies) Джоном Чемберсом и его коллегами.

R доступен как бесплатное программное обеспечение в форме исходного кода. Он компилируется и работает на широком спектре платформ UNIX и подобных систем (включая FreeBSD и Linux), Windows и MacOS. Преимущество R – это его вариативность под любые задачи [12].

Целью данной работы является исследование и оценка координации и сплоченности действий органов власти Российской Федерации на основе документов стратегического планирования РФ от Минэкономразвития с использованием технологии Text Mining.

Обзор документов стратегического развития Российской Федерации от Минэкономразвития РФ

Стратегическое планирование Российской Федерации является приоритетным направлением развития для нашей страны.  Разработку ряда системообразующих документов стратегического планирования, такие как стратегия социально-экономического развития, стратегический прогноз Российской Федерации, основные направления деятельности Правительства Российской Федерации и другие, ведет Минэкономразвития РФ.

На текущий момент разработаны программы сроком от 2024 и до 2030 годов, в которых учтены наиболее важные отрасли, нуждающиеся в государственной поддержке и развитии.

За основу разрабатываемых стратегий, Минэкономразвития РФ использует указ Президента Российской Федерации от 7 мая 2018 г. № 204 «О национальных целях и стратегических задачах развития Российской Федерации на период до 2024 года» [14], Правительство РФ так же действует по заданному курсу, к примеру в документе «Основные направления деятельности Правительства РФ на период до 2024 (утверждены Председателем Правительства РФ 29.09.2018)»  [15] говорится о том, что «Деятельность равительства Российской Федерации в период до 2024 года будет в первую очередь направлена на достижение национальных целей развития Российской Федерации, установленных Указом Президента Российской Федерации от 7 мая 2018 г. № 204 «О национальных целях и стратегических задачах развития Российской Федерации на период до 2024 года»», что указывает на то, что работа всех ведомств направлена на достижение одних  и тех же целей.

Совершенно очевидно, что выделение ключевых слов и их сопоставление занимает колоссальный объем времени и сил, если использовать ручной способ обработки информации. Благодаря внедрению интеллектуальных систем Text Mining, этот процесс происходит несоизмеримо быстрее и несет гораздо больше полезной информации, чем устаревшие методы.

Методика обработки и анализа текстовых данных с применением технологии Text Mining

ВЫГРУЗКА И ПОДГОТОВКА ДАННЫХ ИЗ ИНТЕРНЕТА

Для анализа текстовых данных автор предлагает использовать структуру «аккуратных данных», предложенную и описанную Хэдли Викхэмом [8]. Структура таких данных представляет из себя несколько принципов:

  • Каждая переменная представляет собой столбец,
  • Каждое наблюдение – это строка,
  • Каждый тип объекта наблюдения представляет собой таблицу.

Таким образом, автор определяет аккуратный текстовый формат как таблицу с одним токеном на строку. Токен — это значимая единица текста, такая как слово, которое мы хотим использовать для анализа, а токенизация — это процесс разделения текста на токены. Эта структура с одним маркером на строку отличается от того, как текст часто хранится в привычном виде: в виде строк или в матрице документ-термин. Для аккуратного интеллектуального анализа текста токен, который хранится в каждой строке, чаще всего представляет собой одно слово, но также может быть n-граммой, предложением или абзацем. Пакет tidytext предоставляет функциональные возможности для токенизации и преобразования в формат с одним термином на строку [6].

Первоначальный этап обработки текстовых данных заключается в том, что данные из интернета необходимо доставить в RStudio, обработать и придать им необходимый вид для дальнейшей работы с ними. Для данной операции необходимо воспользоваться стандартными командами в R, которые позволяют загружать текст и преобразовывать его в фрейм данных.

В качестве источника исходных данных используется веб-страница Минэкономразвития РФ, на которой располагаются в свободном доступе указы и проекты стратегического планирования органов власти в Российской Федерации, к примеру указ Президента Российской Федерации от 7 мая 2018 г. № 204 «О национальных целях и стратегических задачах развития Российской Федерации на период до 2024 года» и «Основные направления деятельности Правительства РФ на период до 2024», эти документы  доступны для скачивания в формате pdf (рис.1).

В RStudio предусмотрена возможность конвертации файлов pdf в doc, но к сожалению, данная возможность недоступна для реализации с русскоязычными текстами, поэтому для смены формата документа был использован сайт pdf2go.com, который конвертирует документы с применением метода OCR (распознавание текста).

Следующий этап переноса текста в RStudio осуществляется с помощью пакета readOffice, а точнее с применением команды read_docx. Для установки и подключения любого пакета используется две команды:

  • packages(«packagename»)
  • library(packagename)

Как показано на рисунке 2, после загрузки данных в RStudio формируется два текстовых вектора объемом в 1061 и 231 строку.

 Следующим этапом обработки данных является разделение текста на токены. Достичь этого можно сперва преобразовав текстовый вектор в фрейм данных. Перевод в датафрейм осуществляется с помощью пакета dplyr и команды tibble (рис.3). Tibble — это современный класс фрейма данных в R.

Для соблюдения аккуратной текстовой структуры производится разбиение текста на отдельные токены (процесс, называемый токенизацией), так и преобразовать его в аккуратную структуру данных. Для этого мы используем unnest_tokens() функцию пакета tidytext (рис.4)

После использования unnest_tokens строки были разделены так, чтобы в каждой строке нового фрейма данных было по одному токену (рис. 5);

Также обратите внимание:

  • Остальные столбцы, такие как номер строки, из которой произошло каждое слово, сохраняются.
  • Пунктуация была удалена.
  • По умолчанию unnest_tokens() преобразует токены в нижний регистр, что упрощает их сравнение или объединение с другими наборами данных.

ОЧИСТКА ДАННЫХ С ПРИМЕНЕНИЕМ DPLYR

Теперь, когда данные представлены в формате «одно слово на строку», мы можем управлять ими с помощью инструментов, таких как dplyr. Часто при анализе текста нам нужно удалить стоп-слова; стоп-слова — это слова, которые бесполезны для анализа, обычно это союзы, местоимения, частицы, предлоги и так далее, такие как «а», «о», «об». Удаление стоп-слов (хранящиеся в наборе данных tidytext stop_words) с расширением anti_join(). Библиотека stop_words содержит 3 лексикона, но каждый из них является англоязычным, поэтому для решения задачи, была создана библиотека custom_stop_words (рис.6), которая содержит стоп-слова из русского языка.

Такие слова, как «российской» и «федерации» были удалены, как наиболее часто встречающиеся и не имеют аналитической пользы в данном примере. Результат после данной процедуры представлен на рисунке 7.

ВИЗУАЛИЗАЦИЯ ДАННЫХ С ПРИМЕНЕНИЕМ ПАКЕТА GGPLOT2

Так как датафрейм составлен по структуре аккуратных данных, это позволяет создать визуализацию наиболее распространенных слов с помощью пакета ggplot2, который входит в состав библиотеки tidyverse.

Ggplot2 является мощным инструментом визуализации статистических данных, в конкретном случае он помогает более наглядно представлять выборку информации из неструктурированных данных, к примеру из графика частотности можем заметить, что такие слова как «развитие» и «развития», «году» и «года» учитываются как несвязанные между собой, так как окончание у слов разное. (рис 8).

Подобные слова можно привести к «общему знаменателю», а именно оставив только приставку и корень слова с помощью библиотеки Snowball [5]. Также можно заметить, что слова «будет», «том», «числе» не имеют смысловой нагрузки в контексте данной выборки, что позволяет включить их в список custom_stop_words, который был создан ранее, для их удаления и очистки датафрейма.

После преобразования и дополнения списка стоп-слов данных при помощи перечисленных выше пакетов, визуализация наиболее распространенных слов представляет наиболее репрезентативную графику (рис. 9).

Конечные цели Text Mining каждого отдельно взятого исследования могут отличаться. Наиболее частые задачи, решаемые при анализе текста, были перечислены в введении.  Автор предлагает провести сравнение двух документов по частоте слов, чтобы проследить корреляцию между ними.

Был рассчитан новый датафрейм (рис.10), содержащий в себе пропорциональное соотношение появления слов в указе Президента Российской Федерации от 7 мая 2018 г. и в документе «Основные направления деятельности Правительства РФ на период до 2024». Пропорции в столбцах Правительство и Президент были рассчитаны по формуле

На рисунке 11 представлен график соотношений слов в указе Президента РФ и в основных направлениях деятельности Правительства РФ.

Слова находящиеся рядом с линией регрессии одинаково часто употребляются в обоих документах, можно с уверенностью говорить о том, что и Президент и Правительство одинаково часто говорят о бюджете, развитии, услугах, безопасности – эти слова являются ключевыми в обоих документах. Так же есть и различия в риторике, к примеру Президент чаще упоминает в указе автодорожные службы, воспитание, Байкал, а Правительство делает акцент на бизнесе, атомной промышленности, возрастных категориях граждан.

Выводы

В результате проведенного анализа с помощью технологии Text Mining, на основе документов стратегического развития Минэкономразвития РФ, были сделаны следующие выводы:

  1. Координация действий органов власти, направленных на стратегическое планирование, находится на высоком уровне, чему свидетельствует множество совпадающих ключевых слов, найденых и исследованных в документах.
  2. Найдены различия в риторике Президента и Правительства РФ, что может свидетельствовать о задачах, которые требуют действий от различных органов власти с учетом разницы полномочий.

Технология Text mining позволяет не только количественно, но и качественно оценить текстовые данные в их неструктурированном виде, что дает возможность сопоставления любых текстов друг с другом. Такое исследование помогает находить ключевые слова, на основе которых выявляется взаимосвязь текстов и их различия.

Список литературы

  1. Duriau VJ, Reger RK, Pfarrer MD. A Content Analysis of the Content Analysis Literature in Organization Studies: Research Themes, Data Sources, and Methodological Refinements. Organizational Research Methods. 2007;10(1):5-34. doi:10.1177/1094428106289252
  2. Jamiy FE, Daif A, Azouazi M, Marzak A. The potential and challenges of Big data-Recommendation systems next level application. arXiv preprint arXiv:1501.03424. 2015 Jan 14.
  3. Janasik N, Honkela T, Bruun H. Text Mining in Qualitative Research: Application of an Unsupervised Learning Method. Organizational Research Methods. 2009;12(3):436-460. doi:10.1177/1094428108317202
  4. Kobayashi VB, Mol ST, Berkers HA, Kismihók G, Den Hartog DN. Text Classification for Organizational Researchers: A Tutorial. Organizational Research Methods. 2018;21(3):766-799. doi:10.1177/1094428117719322
  5. Snowball Stemmers Based on the C ‘libstemmer’ UTF-8 Library // https://cran.r-project.org/ URL: https://cran.r-project.org/web/packages/SnowballC/SnowballC.pdf (дата обращения: 10.02.2020).Text Mining with R: A Tidy Approach // https://www.tidytextmining.com URL:https://www.tidytextmining.com/tidytext.html (дата обращения: 10.02.2020).
  6. Wiedemann G. Opening up to big data: Computer-assisted analysis of textual data in social sciences. Historical Social Research/Historische Sozialforschung. 2013 Jan 1:332-57.
  7. Wickham, Hadley. 2007. “Reshaping Data with the reshape Package.” Journal of Statistical Software 21 (12): 1–20. http://www.jstatsoft.org/v21/i12/.
  8. Бондаренко М.Ф., Коряк А.С., Рошка С.А., Томич И.В. Модели пред-ставления данных в World Wide Web // Радиоэлектроника и информатика. 2005. №2.
  9. Зелинская С.А. Text mining: особенности технологии и возможности использования в условиях технического университета // Знание. 2019. №10-1(74).
  10. Интернет-ресурс: www.waveaccess.ru URL: https://www.waveaccess.ru/blog/2019/december/25/интеллектуальный-анализ-текста-что-это-и-зачем-он-нужен.aspx (дата обращения: 12.02.2020).
  11. Интернет-ресурс: https://www.r-project.org URL: https://www.r-project.org (дата обращения: 11.02.2020).
  12. Котельникова Ю.Е. Обработка текстовых документов и эволюция ав-томатизированных систем проектирования // Приборостроение. 2010. №6.
  13. О национальных целях и стратегических задачах развития Российской Федерации на период до 2024 года // http://www.kremlin.ru/ URL:http://www.kremlin.ru/acts/bank/43027/page/1 (дата обращения: 11.02.2020).
  14. Основные направления деятельности Правительства РФ на период до 2024 // http://government.ru/ URL: http://static.government.ru/media/files/ne0vGNJUk9SQjlGNNsXlX2d2CpCho9qS.pdf (дата обращения: 11.02.2020).
  15. Соколова, И. С. Практическое применение искусственного интеллекта в условиях цифровой экономики / И. С. Соколова, А. А. Гальдин // Модели, системы, сети в экономике, технике, природе и обществе. – 2018. – № 2 (26). – C. 71–79.
  16. Чернышова Г.Ю., Овчинников А.Н. Применение методов интеллектуального анализа данных для кластеризации текстовых документов // Информационная безопасность регионов. 2015. №4 (21).