Московский экономический журнал 4/2017 | Московский Экономический Журнал

УДК 339.133.017

Плотников Андрей Викторович,

кандидат экономических наук

доцент кафедры менеджмента

ФГБОУ ВО «Пермский государственный аграрно-технологический университет имени академика Д.Н. Прянишникова», г. Пермь

Plotnikov A.V. plotnikov-av@mail.ru

ОПТИМИЗАЦИЯ ПОСАДОЧНЫХ СТРАНИЦ НА ОСНОВЕ КЛАСТЕРИЗАЦИИ ЗАПРОСОВ

OPTIMIZATION OF LANTING PAGES BASED ON THE CLUSTERING OF QUERIES

Аннотация

В работе рассмотрено понятие кластеризации запросов как объединение схожих по интенту (смыслу, намерениям занятого поиском) запросов, независимо от их семантической релевантности. Представлены методы группировки запросов или soft- / hard-кластеризации. Визуально представлены hard-кластеризации с порогом 2 и 5. Показана на основе кластеризации с порогом 2 определено 93 группы, из них 58 групп, содержащих два и более запроса и 35 групп, содержащих 1 запрос. Методом hard-кластеризации с порогом 5 сформировано 167 групп, из них 96 групп, содержащих два и более запроса; 71 группа, содержащих 1 запрос.

Summary

The paper considers the concept of query clustering is considered as an association of queries similar in meaning (meaning, intentions, occupied by the search), regardless of their semantic relevance. Methods for grouping queries or soft / hard-clustering are presented. Visually presented are hard-clustering with thresholds 2 and 5. Based on clustering with threshold 2, 93 groups are defined, of which 58 groups containing two or more requests and 35 groups containing 1 query are shown. Using the hard-clustering method with threshold 5, 167 groups were formed, of which 96 groups containing two or more requests; 71 group containing 1 query.

Ключевые слова: семантическое ядро, кластеризация запросов, классификация запросов

Keywords: semantic core, query clustering, query classification

Введение

Тема статьи относится к поисковому маркетингу, а именно к поисковой оптимизации (англ. Search Engine Optimization, SEO) [1], [2], [3].

Вопросы кластеризации раскрываются в работах А.А. Афонина и М.Г. Крейнес [4], И.А. Минакова [5], М.С. Глущенко, О.Ф. Серовой, Т.О. Фалеевой [6], Ю.А. Кравченко [7], H.J. Zeng [8], Z. Michalewicz и A. Jankowski [9].

Важно не только подобрать релевантные запросы страниц, но и четко идентифицировать совместимость. В Яндекс нет единого аналитического способа ранжирования под всевозможные запросы, поэтому их классифицируют по каждому типу запроса в соответствии со своими взаимоисключающими условиями Топ-10.

В группах запросов практически всегда среди ряда других присутствуют коммерческие и геозависимые запросы. Если по разным типам запросов в поисковой выдаче Топ-10 появляются идентичные адреса, то возможно продвижение страницы по одному запросу, а если общих адресов нет, то продвижение таких запросов разных типов, вероятно, невозможно.

Кластеризация – это автогруппировка запросов, необходимая для:

объединения запросов, схожих по интенту (смыслу, намерениям занятого поиском), независимо от их семантической релевантности (в частности, запросам «приготовить сыр в домашних условиях», «сыр рецепт» соответствует общий интент, запросы выражают одно пользовательское намерение);
проверки совместимости, одновременного продвижения запросов (например, можно ли настроить SEO оптимизацию по запросам некоторой страницы или потребуется раздельное продвижение по ним).[10]

Из всех развитых методов формирования единых запросов обе проблемы эффективно решаются «Топ-кластеризацией», а именно, сравнением запросов для одинаковых URL Топ-10.

Объединение запросов согласно интенту

Различные по контенту, но с одинаковым поисковым образом и результатом называются запросы, имеющие одинаковый интент. Например, запросы «сыр dorblu», «сыр дорблю», «сыр дор блю» будут продвигаться на одной странице.

Менее очевидным ситуация будет для запросов:

«филадельфия» – «сливочный сыр»;
«дор блю» – «сыр с благородной плесенью».

Синтаксически приведенные пары совсем не похожи, семантически «почти» не похожи, фактически же их можно объединить по интенту. Традиционный поиск совпадающих (очень близких) по интенту запросов базируется на синонимах. Например, Яндекс-словаре синонимов – он есть, но с серьезными минусами, например, отсутствием релевантных систем автоматизации.

Второй вариант – взять синоним из подсветки Яндекса. Способ с проблемами, критическими неоднозначностями:

с синонимами Яндекс подсвечивает посторонние слова, в частности, в подсветку для ключевого словосочетания «мобильные телефоны» попадет (вместе с «законным» синонимом «сотовые») слово «москва» с подсвечиванием по иным причинам (впрочем, пути обхода здесь реальны);
синонимы Яндекс – не взаимообратны, в частности, «сотовые телефоны» — синонимично «мобильные телефоны», но обратной связи нет («мобильные телефоны» — не синонимично «сотовые телефоны»).

Запросы «ювелирное изделие», «драгоценность» с идентичным интентом но не будут синонимами в Яндекс-поиске.

Решать вышеуказанные проблемы можно, проведя кластеризацию Топ-URL. Попадание в Топ URL одинаковых запросов говорит об идентичности интента.

Методы группировки запросов или soft- / hard-кластеризация

Soft-кластеризация реализуется следующей процедурой – по формируемой группе запросов сравниваем адреса в результатах поисковой выдачи на первой странице. Если каждый запрос соответствует только одному исследуемому по URL запросу, то это группа запросов соответствует soft-кластеризации.

Hard-кластеризация объединит все запросы из группы с общими адресами в Топ-10 результатах поисковой выдачи.

На основе Soft-кластеризации генерируется группа запросов с большим размером, соответственно из-за своей размерности могут появляться ошибки идентификации потенциала совместного продвижения.

Итак, имеются следующие критерии кластеризации группы:

«по полноте» — запросы с идентичным «интентом»;
«по совместимости» — группе с достаточно совместимыми запросами.

Ключевым индикатором кластеризации может служить минимальное количество группообразующих URL (значение «порога кластеризации»). Порог высок, а значит, группы – релевантны, закономерно, что группы уменьшаются по объему. Экспериментально установлено: минимальный порог проведения hard-кластеризации – три адреса, soft-кластеризации – четыре. При меньших значениях порога – в группы попадут нерелевантные друг другу запросы.

Рисунок 1. soft- (слева), hard- (справа) кластеризация

У soft-кластеризации высокая полнота, но недостаточная точность (точнее, приемлема лишь с порога равного 5).

Если маркетолог занят трафик-продвижением и важно вывести большее количество запросов, то приемлема soft-кластеризация. Но если далее проводить контентный анализ с использованием лишь hard-кластеризации, то можно достигнуть получения более качественных результатов.

Результаты исследования

Из общей генеральной совокупности (791 запрос в поисковой системе Google) взяли выборку – 438 запросов с имеющейся статистикой по количеству запросов (от 10 до 3600 запросов с маской «домашний сыр»).

Цель: провести кластеризацию запросов из поисковой системы Google по московскому региону с разбивкой запросов на группы на основе схожести Топ-10 Яндекса.

Таким образом, на основе кластеризации запросов можно определить какие запросы можно группировать и продвигать на одной странице сайта, а какие лучше размещать на разных страницах.

Обработано запросов: 438 с порогом кластеризации 2. Сформировано групп: 93 (из них групп, содержащих два и более запроса: 58, содержащих 1 запрос: 35)

На рис. 3. Визуально представлена кластеризация (hard) запросов с порогом равным пяти. Обработано запросов: 438 с порогом кластеризации: 5. Сформировано 167 групп, из них 96 групп содержат два и более запроса; 71 группа содержит один запрос.

Рисунок 2. Кластеризация (hard) запросов с порогом равный двум.

Рисунок 3. Кластеризация (hard) запросов с порогом равный пяти.

Заключение

В качестве выводов можно сказать, что ускоряется процесс разбора больших семантических ядер. Появляются классификации запросов, распределяемые по страницам для одновременного их продвижения. Кластеризацию следует всегда использовать для достижения целей поисковой оптимизации сайта. Для трафик-продвижения целесообразно использовать оба метода кластеризации, но, если необходимо «позиционное» продвижение – подойдёт лишь hard-кластеризация. Визуально представленные hard-кластеризации с порогом 2 и 5 показали разницу, где первая кластеризация с порогом 2 определила 93 группы (из них групп, содержащих два и более запроса: 58, содержащих 1 запрос: 35), методом hard-кластеризации с порогом 5 сформировано 167 групп, из них 96 групп, содержащих два и более запроса; 71 группа, содержащих 1 запрос.

Литература

Iredale S., Heinze A. Ethics and professional intimacy within the search engine optimisation (SEO) industry //IFIP international conference on human choice and computers. – Springer International Publishing, 2016. – С. 106-115.
Baye M. R., De los Santos B., Wildenbeest M. R. Search engine optimization: what drives organic traffic to retail sites? //Journal of Economics & Management Strategy. – 2016. – Т. 25. – №. 1. – С. 6-31.
Singhal R., Srivastava S. R. Enhancing the page ranking for search engine optimization based on weightage of in-linked web pages //Recent Advances and Innovations in Engineering (ICRAIE), 2016 International Conference on. – IEEE, 2016. – С. 1-5.
Афонин А. А., Крейнес М. Г. Кластеризация текстовых коллекций: помощь при содержательном поиске и аналитический инструмент //В сб. науч. ст.» Интернет-порталы: содержание и технологии». Выпуск. – 2006. – Т. 4. – С. 510-537.
Минаков И. А. Кластеризация неструктурированной информации, представленной в виде текстов на естественном языке //Вестник Самарского государственного технического университета. Серия: Технические науки. – 2006. – №. 40. – С. 15-22.
Глущенко М. С., Серова О. Ф., Фалеева Т. О. Специфика подбора и аналитики поисковых запросов пользователей сети Интернет в рамках SEO-продвижения //Интеграция наук. – 2017. – №. 5. – С. 177-182.
Кравченко Ю. А. Задачи семантического поиска, классификации, структуризации и интеграции информации в контексте проблем управления знаниями //Известия Южного федерального университета. Технические науки. – 2016. – №. 7 (180).
Zeng H. J. et al. Learning to cluster web search results //Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. – ACM, 2004. – С. 210-217.
Michalewicz Z., Jankowski A. System and method for analysis and clustering of documents for search engine : заяв. пат. 09/920,732 США. – 2001.
Чекушин А. Азбука кластеризации https://www.searchengines.ru/azbuka_klasterizats.html