Московский экономический журнал 6/2021

image_pdfimage_print

УДК 330.43

DOI 10.24412/2413-046Х-2021-10352 

СОВРЕМЕННЫЕ ПОДХОДЫ К ОЦЕНИВАНИЮ ЭФФЕКТИВНОСТИ ИГРОКОВ ХОККЕЙНОЙ КОМАНДЫ

MODERN APPROACHES TO EVALUATING THE EFFECTIVENESS
OF HOCKEY TEAM PLAYERS

Лебедева Людмила Николаевна, кандидат физико-математических наук, доцент, Санкт-Петербургский государственный экономический университет, Санкт-Петербург

Шмаков Николай Николаевич, аналитик, Ассоциация «Хоккейный клуб «Авангард», г. Омск

Lebedeva L.N., PhD in Mathematics, Associate Professor, Saint Petersburg State University of Economics, St.Peterburg

Shmakov N.N., Data-analyst, Hockey club «Avangard», Omsk

Аннотация. В работе рассмотрены современные подходы к оцениванию эффективности игроков хоккейного клуба. Задача оценивания игроков на основе данных об игровой активности с применением методов анализа данных особенно актуальна в условиях введения ограничений на зарплатные бюджеты клубов Континентальной хоккейной лиги. На основе анализа методов спортивной аналитики, применяемых в хоккее, предложен метод оценивания, базирующийся на показателе ожидаемых голов. Обоснован набор признаков, используемый для получения оценок вероятностей, применяемых для вычисления результирующего показателя, выбран метод для получения оценок. Предложенный подход апробирован на реальном наборе данных, доказана несмещенность полученных оценок вероятностей. На основе предложенного подхода построен рейтинг игроков хоккейного клуба. Предложенный метод оценивания позволит повысить обоснованность принимаемых решений при определении системы вознаграждений, условий контрактов и трансфера игроков.

Summary. The paper considers modern approaches to evaluating the effectiveness of hockey club players. The task of evaluating players based on data on game activity using data analysis methods is especially relevant in the context of the introduction of restrictions on the salary budgets of Continental Hockey League clubs. Based on the consideration of sports analytics methods used in hockey, an evaluation method based on the indicator of expected goals is proposed. The set of features used to obtain probability estimates used to calculate the resulting indicator is justified, the method for obtaining estimates is chosen. The proposed approach is tested on a real data set, the unbiased nature of the obtained probability estimates is proved. Based on the proposed approach, the rating of hockey club players is built. The proposed assessment method will improve the efficiency of decisions made in determining the terms of contracts and players transfers.

Ключевые слова: модель, эффективность, оценивание, игрок, хоккей, ожидаемые голы, вероятность, признак, алгоритм, CatBoost.

Keywords: model, efficiency, evaluation, hockey player, expected goals, probability, feature, algorithm, CatBoost.

Хоккей с шайбой – популярный и зрелищный вид спорта, которым интересуется огромное количество болельщиков. Но большой спорт сегодня – это бизнес, в котором обращаются огромные финансовые потоки.  Структурированность и объемы финансовых потоков этого бизнеса зависят от вида спорта. Хоккей в нашей стране занимает особое место. В подготовке спортсменов и тренеров, в разработке игровых стратегий в СССР были достигнуты значительные успехи и накоплен большой опыт, который унаследовал хоккей современной России. Но управление профессиональным спортом предъявляет жесткие требования к системе менеджмента, которая по сравнению с советской изменилась кардинально. На национальном уровне можно выделить два важных управленческих решения: это создание в 2008 году Континентальной хоккейной лиги (дале – КХЛ) и введение в 2020 году ограничений как сверху, так и снизу на зарплатные бюджеты клубов. В контексте проводимого исследования наиболее важным оказалось именно последнее решение. Данное решение было направлено на преодоление расслоения команд по причине различных объемов доступного финансирования – богатые клубы имели возможность за счет более высоких зарплат и выгодных контрактов переманивать игроков, усиливая свою команду и ослабляя конкурентов. Лимитирование зарплатных бюджетов потребовало более взвешенных и обоснованных решений при определении системы вознаграждений, условий контрактов и переходов игроков. Для руководства ведущих хоккейных клубов сегодня особенно актуальна задача максимизации эффективности команды при выполнении бюджетного ограничения. Потребовались новые подходы к оцениванию эффективности игроков по накопленной игровой статистике с применением методов анализа данных. Проведем анализ возможных подходов и их результатов их применения.

Первым видом спорта, в котором стали успешно применяться методы анализа данных для оценивания эффективности игроков, стал бейсбол. Отчасти это объясняется тем, что бейсбол может быть дискретно разделен, и эффект от взаимодействия между членами команды не очень высок. Успешное применение методов прогнозной аналитики в бейсболе изменило этот вид спорта [2].

Такого же успеха пытаются достичь и в других видах спорта.

Перенести на командные виды спорта, в которых результат в значительной степени зависит от эффективного взаимодействия игроков, методы позволившие получить хорошие результаты в бейсболе не удастся. Для футбола и хоккея стали разрабатывать подходы, учитывающие командную специфику этих видов спорта. Долгое время основным показателем для оценки игроков являлся показатель, получивший название «плюс-минус». Он до сих пор вычисляется во всех лигах из-за своей простоты. Показатель плюс-минус в хоккее вычисляется для каждого игрока во время его нахождения на площадке в равных составах по следующей формуле:

где Y – результат броска; X – факторы, влияющие на результат броска.

Учитывать следует только те броски, для которых оценка вероятности превышает некоторое пороговое значение.  Переходя к интегральному показателю, введение такого порога можно избежать, что позволит корректно оценивать все выполненные броски. С учетом этого от показателя (1) можно перейти к показателю ожидаемых голов:

– ожидаемое количество забитых голов командой в равных составах при нахождении игрока p в равных составах;

– ожидаемое количество пропущенных голов командой в равных составах при нахождении игрока p на площадке;

m, n – количество бросков собственной команды и команды-соперника;

b – метка нахождения игрока  на площадке в момент броска.

Показатель ожидаемых голов устраняет низкую информативность и зависимость от случайности показателя плюс-минус.

Созданная или допущенная опасность при этом учитывается для всех игроков команды, находящихся в момент броска на площадке, без учета их влияния на игровую ситуацию. Модификация показателя ожидаемых голов с целью нивелирования данного недостатка была произведена в футболе, поскольку именно в этом виде спорта этот недостаток особенно ощутим. В хоккее в организации атаки и обороны принимает участие все звено, поэтому присвоение равной ответственности за итоговых результат всему звену не будет считаться существенной ошибкой. В футболе же вовлеченность игрока в атаку или оборону определяется положением мяча, типом атаки и игровой схемой, которая имеет большую вариативность из-за большего числа полевых игроков. Для определения справедливой цены трансфера и суммы заработной платы футболистам, агентам и менеджерам потребовался инструмент, который бы смог справедливо разделить созданную опасность в атаке на игроков, которые ее сформировали. Такой показатель был назван ожидаемые угрозы. В модели Каруна Синдха [5] футбольное поле было разбито на 192 квадрата, для каждого из которых была вычислена вероятность забить гол и сделать передачу в другие квадраты. Эти значения определяют опасность зоны, под которой понимается вероятность забить гол за следующие 5 действий на поле, если при начальном действии мяч находится в данной зоне, поэтому эта величина оценивает позицию игрока не только с точки зрения опасности для прямого удара (как показатель ожидаемых голов), но и возможности создать опасность в последующем владении мячом. Для вычисления этой вероятности используется следующая формула:

где xT(x,y) – ожидаемая опасность зоны (x,y), то есть вероятность забить гол за следующие пять действий на поле, если в начальный момент мяч находится в этой зоне;

s(x,y) – вероятность нанести удар из выбранной зоны;

g(x,y) – вероятность забить гол из выбранной зоны;

m(x,y) – вероятность сделать передачу из выбранной зоны;

T(x,y)(z,w) – вероятность перехода мяча из зоны (x,y) в зону (z,w);

V(z,w) – опасность выбранной зоны.

На первом этапе оценивания применяется только модель ожидаемых голов, так как опасность может быть создана только одним действием – ударом по воротам, то есть позиция оценивается так, что удар по воротам – единственный способ создания опасности. На второй итерации новое значение ожидаемой угрозы будет учитывать значение ожидаемых угроз из других зон, полученных из первой итерации, тоже самое повторяется и для остальных итераций. Так для каждой зоны определяется ее потенциальная опасность, после чего опасность передачи вычисляется как разница между значениями опасности зоны начала и приема передачи. Сегодня аналогичные модели применяются в футбольные аналитике. Имеются случаи, когда игроки заказывают о себе исследование о собственном влияния на игру команде и роли в ней, результаты которых используются при переговорах о новом контракте [1].

Хоккей является более сложным видом спорта, поэтому внедрение такой модели сталкивается со значительными проблемами. Во-первых, опасность зоны в хоккее определяется динамическими факторами: скоростями и координатами всех игроков на льду во время технико-тактического действия. Во-вторых, хоккей насыщен физический борьбой – игроки, находящиеся в самой опасной зоне, часто испытывают на себе существенные физическое давление, что не позволяет нанести им акцентированный бросок или делает его менее качественным. Поэтому в модели ожидаемых угроз в хоккее необходимо учитывать как статические, так и динамические условия и характеристики зон.

Попытка реализации модели ожидаемых угроз в хоккее проведена в статье «Оценка индивидуального вклада событий в хоккее» [3]. Главным недостатком этой модели является цена данных, необходимых для ее построения и корректной работы. Данные, которые содержат не только события, но и соответствующие координаты всех игроков, являются очень дорогими, что существенно ограничивает область применения таких моделей.

С учетом данного фактора, на основе проведенного анализа было принято решение для оценивания эффективности игроков использовать показатель ожидаемых голов. Для оценки показателя (3) можно использовать различные подходы. Они отличаются используемыми данными и алгоритмами для решения задачи бинарной классификации.

Предложенная в данной работе модель ожидаемых голов отличаются от других по следующим параметрам:

  • для построения модели использована выборка большого объема – 120 тысяч бросков, выполненных в 1153 матчах в 4 ведущих лигах мира;
  • модель не оценивает броски по пустым воротам (в рейтинге игрока они также не учитываются);
  • при построении используется алгоритм градиентного бустинга CatBoost, который качественно работает с разнородным признаковым пространством;
  • для отбора признаков в модель использован жадный алгоритм включения признаков, который на каждой итерации добавляет признак, дающий наибольший прирост метрики.

В используемом признаковом пространстве содержатся разнородные данные: от угла, скорости и дистанции броска до типа броска и состава на льду, то есть пространство может быть охарактеризовано как разнородное. Именно поэтому для ее решения использован метод градиентного бустинга и алгоритм CatBoost, который позволяет качественно взаимодействовать с категориальными признаки без бинарной кодировки для каждой категории.  Некоторые категории были объединены, признаки, содержащие дублирующие информацию, были удалены. После предобработки и очистки каждый бросок описывался тринадцатью признаками.

Градиентный бустинг значительно слабее подвержен переобучению в отличии от других моделей, однако для получения наиболее качественной модели необходимо удалить незначимые признаки. Для этого был использован алгоритм жадного включения признаков в модель. В качестве функционала качества была использована метрика AUC-ROC, которая обычно применяется в задаче с дисбалансом классов (в используемой выборке 4.6% имеют класс «1», то есть являются голами). Каждый признак проверяется алгоритмом на включение на основании среднего прироста метрики на пяти промежутках. На каждой итерации добавляет один признак, который дает наибольший прирост. Добавление происходит до тех пор, пока максимальный прирост от включения признака остается положительным. Таким образом было отобрано семь признаков.

На основе отобранных признаков и признака-результата была построена модель ожидаемых голов, которая для каждого броска выдает прогнозируемую метку класса (гол или не гол) и вероятности меток класса. Полученное значение метрики AUC-ROC равно 0.8233. Алгоритм отобрал следующие признаки, отсортированные по очередности добавление (важности):

  • дистанция броска;
  • угол броска ;
  • был ли пас через центральную линию;
  • скорость броска;
  • тип состава на льду;
  • в одно касание ли бросок;
  • пройденная дистанция бросавшего игрока с шайбой.

Поскольку рейтинг игроков строится на выходных вероятностях, необходимо проверить соответствие предсказанных вероятностей фактическим (историческим) и провести калибровку в случае значительного расхождения.

Для модели ожидаемых голов ошибка калибровки на тестовой выборке при ее делении на 100 промежутков (330 наблюдений в каждом) составила 0.007, то есть в среднем модель ошибается на 0.7% при разбиении на 100 промежутков. Стандартное отклонение по промежуткам равно 0.001. Разброс предсказанных значений для 100 промежутков относительно исторических данных представлен на рисунке 1.

Идеальный случай калибровки – это биссектриса, визуально отклонения от нее незначительны, что подтверждает низкое значение ошибки калибровки. Следовательно, оценки вероятностей не смещены, и модель ожидаемых голов может использоваться для рейтинговая хоккеистов.

Таким образом, построена модель ожидаемых голов, на основе которой возможно корректное рейтингование игроков хоккейной команды. Модель базируется на несмещенных оценках вероятностей броска быть голом, полученных на основе значимых признаков. Возможно уточнение оценок при добавлении признаков об экранировании вратаря – степени его закрытости игроками атаки и обороны, а также позиционных данных. Введение в модель этих признаков позволит повысить точность показателя ожидаемых голов и построить показатель ожидаемых угроз, однако, это потребует значительных затрат, связанных с получением соответствующих данных.

Литература

  1. Алфимов М. Де Брюйне образцово выбил контракт без агента – продвинутой статистикой доказал, что ему недоплачивают / М. Алфимов. – Текст: электронный. // sports.ru: [сайт]. – 2021. – 29 апр. – URL: https://www.sports.ru/tribuna/blogs/konigsbergen/2915652.html (дата обращения: 26.05.2021).
  2. Льюис М. MoneyBall. Как математика изменила самую популярную спортивную лигу в мире / М. Льюис — М: Манн, Иванов, Фербер – 2014.
  3. Douglas E. V-ICE / E. Douglas, S. Clement, N. Wan, I. Greengross. – Valuing Individual Contributing Events (V-ICE) in Hockey – 2021.
  4. Shea S. Hockey Analytics: A Game-Changing Perspective / S. Shea, C. Backer – United States: CreateSpace Independent Publishing Platform, 2017. – 186 p.
  5. Singh K. Introducing Expected Threat / K. Singh. – Текст: электронный. // karun.in/blog: [сайт]. – 2019. – 15 фев. – URL: https://karun.in/blog/expected-threat.html (дата обращения: 28.03.2021).
  6. Vollman R. Stat Shot: The Ultimate Guide to Hockey Analytics / Vollman R. – United States: ECW Press, 2016. – 352 p.