Original size 2375x3333

Графический анализ датасета игроков EURO 2024

PROTECT STATUS: not protected
7

ВВОДНАЯ ЧАСТЬ

Футбол всегда был моим страстным увлечением с детства. Вместе с папой мы следили за матчами EURO, и эти впечатления остались в моем сердце как нечто особенное. Сегодня я хочу поделиться этой страстью и вдохновением с вами, в этом проекте.

Для анализа я использовала датасет с информацией об игроках EURO 2024, включая клубную принадлежность, возраст, рост, рыночную стоимость и другие параметры. Цель анализа — не только лучше понять текущее состояние европейского футбола, но и предоставить ценные инсайты для тренеров, клубов и аналитиков, помогающие в улучшении стратегий и принятии решений.

Для визуализации данных были выбраны следующие виды графиков: - Гистограммы: для анализа распределения возрастов игроков. - Столбчатые диаграммы: для отображения количества игроков на различных позициях. - Боксплоты: для сравнения рыночной стоимости игроков по странам. - Круговые диаграммы: для визуализации процентного соотношения количества игроков из разных стран и распределения по предпочитаемой ноге.

Эти виды графиков были выбраны, поскольку они наиболее эффективно передают информацию, позволяют выявить закономерности и тенденции в данных и наглядно представляют результаты анализа.

ЭТАПЫ РАБОТЫ И ИТОГОВЫЕ ГРАФИКИ (представлено вместе)

Для анализа данных и их визуализации был использован язык программирования Python с рядом популярных библиотек. Далее я представила шаги обработки данных.

ШАГ 1. Импорт необходимых библиотек Python для построения графиков

big
Original size 2322x302

Эти библиотеки необходимы для работы с данными и построения графиков. Pandas используется для чтения и обработки данных, NumPy для работы с массивами данных, Matplotlib и Seaborn для визуализации, а Plotly для интерактивных графиков.

ШАГ 2. Чтение .csv файла.

В качестве датасета я взяла набор данных всех игроков, входящих в состав команд, участвующих в ЕВРО-2024. Содержит информацию о клубах, возрасте, росте, рыночной стоимости и т. д., что может быть очень полезно для EDA и визуализации данных.

*Набор данных всех игроков взяла отсюда: https://www.kaggle.com/datasets/damirdizdarevic/uefa-euro-2024-players

Original size 2470x150
Original size 2408x546

ШАГ 3. Выбор цветовой палитры и шрифта

Цветовая палитра и шрифт были выбраны для создания единого стиля, максимально схожего с айдентикой самого EURO 2024. Цвета палитры гармонируют друг с другом и создают приятное визуальное сочетание.

Original size 2328x1334
Original size 1496x288

ШАГ 4. Построение графиков

Для начала я решила узнать распределение возрастов среди игроков. Чтобы понять возрастную структуру участников EURO 2024, была построена гистограмма, дополняющаяся кривой KDE (Kernel Density Estimate), которая помогает визуализировать плотность распределения возрастов. Она позволяет увидеть, какие возрастные категории наиболее и наименее представлены в чемпионате.

Original size 2454x336

Анализ графика: 1. Возрастной пик: как видно из графика, большинство игроков находится в возрастной категории 25-28 лет. Это может свидетельствовать о том, что наибольшая спортивная продуктивность достигается именно в этом возрасте. 2. Молодые таланты: присутствие значительного числа игроков в возрасте 20-24 лет показывает, что многие молодые футболисты получают возможность выступать на высоком уровне. 3. Опытные игроки: на графике также видна группа игроков старше 30 лет, что указывает на присутствие опытных ветеранов в командах.

Этот график является важным для понимания возрастной структуры команд, что может быть полезно для анализа стратегий формирования команд и скаутинга молодых талантов.

Original size 2612x1468

Аналогично узнаем, какое кол-во игроков приходится на существующие игровые позиции. Для анализа распределения игроков по позициям на поле была построена столбчатая диаграмма, которая наглядно показывает количество игроков на каждой из позиций.

Столбчатая диаграмма отображает количество игроков на различных позициях, что позволяет понять, какие позиции более или менее популярны среди участников EURO 2024.

1. Наибольшее количество игроков: на диаграмме видно, что позиции полузащитников и защитников имеют наибольшее количество игроков. Это может быть связано с тем, что эти позиции требуют большего количества игроков для покрытия большой площади поля. 2. Меньшее количество игроков: позиции вратарей и нападающих представлены меньшим количеством игроков. Это объясняется специфичностью этих ролей и меньшим количеством позиций на поле для этих игроков. 3. Равномерность распределения: Несмотря на различия в количестве игроков на каждой позиции, распределение выглядит довольно равномерным, что указывает на сбалансированные составы команд.

Этот график полезен для понимания стратегий формирования команд и распределения игроков по позициям, что может повлиять на тактику и стиль игры команд

Original size 2382x380
Original size 2668x1808

У каждого футболиста есть своя цена, поэтому узнаем в каких странах дифференциация цен наибольшая.

Original size 2436x376
Original size 2754x1724

Как видим, в топе Англия и Франция.

Далее чтобы проанализировать распределение игроков по странам, была создана круговая диаграмма, показывающая процентное соотношение количества игроков из каждой страны.

Круговая диаграмма представляет данные в виде секций, каждая из которых показывает процентное соотношение игроков из каждой страны, участвующей в EURO 2024.

Анализ диаграммы: 1. Процентное соотношение: диаграмма наглядно показывает, что количество игроков из каждой страны распределено равномерно. Это может быть связано с тем, что каждая страна, участвующая в турнире, имеет право заявить определенное количество игроков. 2. Интерпретация данных: равномерное распределение игроков по странам логично, так как все страны имеют равные возможности для участия и представляют своих лучших игроков. 3. Преимущества визуализации: круговая диаграмма удобна для восприятия, так как позволяет быстро оценить относительные размеры групп и выявить доминирующие категории.

Этот график является важным для понимания общей структуры команд на турнире и помогает оценить вклад каждой страны в общий состав участников.

Original size 2724x382
Original size 2306x1678

Из диаграммы видно, что процент игроков одинаковый, что довольно логично.

Цель игры в футбол — забить мяч в ворота. Выведем в процентном соотношении, какой ногой футболисты чаще забивают гол. Правой, левой или обеими. Можем тренеры будут понимать: им надо брать правшей, левшей, это не важно.

Анализ диаграммы: 1. Доминирование правой ноги: как видно из диаграммы, большинство голов забито правой ногой. Это может объясняться тем, что большинство людей правши, и, следовательно, футболисты тоже чаще используют правую ногу для ударов. 2. Левая нога и обе ноги: значительное число голов забито левой ногой, что подчеркивает важность тренировки обеих ног для достижения высокого уровня мастерства. Также есть футболисты, которые могут забивать голы обеими ногами, что делает их особенно ценными для команд. 3. Процентное распределение: диаграмма позволяет легко оценить процентное распределение и понять, какие навыки преобладают среди игроков.

Этот график не только показывает технические навыки игроков, но и подчеркивает важность развития обеих ног для достижения наилучших результатов на поле.

Original size 2356x302
Original size 2402x1678

Выводы

В ходе анализа данных игроков EURO 2024 я смогла выявить ключевые аспекты, влияющие на состав и стратегии команд. Возрастная структура показала, что большинство игроков находятся в диапазоне 25-28 лет, что подчеркивает пик их физической и тактической подготовки. Распределение по позициям выявило преобладание полузащитников и защитников, что логично для сбалансированной игры. Анализ рыночной стоимости игроков по странам подчеркнул экономические различия в футбольных лигах Европы. Наконец, анализ забитых голов показал доминирование правой ноги, что важно для тренеров и скаутов.

Использование нейросетей в исследовании

Для более глубокого анализа данных и получения дополнительных инсайтов я использовала нейросеть, обученную на больших объемах данных по футбольным игрокам. Нейросеть помогла в автоматическом выявлении паттернов и аномалий в данных, а также в прогнозировании рыночной стоимости игроков на основе их статистических показателей. Я использовала модель типа ChatGpt4 для генерации всех текстовых описаний и объяснений графиков, что значительно улучшило качество презентации данных. Промпты для нейросети включали запросы на генерацию аналитических отчетов, выявление ключевых факторов успеха игроков и оценку стратегий команд.

Промпты для ChatGpt4:

1. Импорт необходимых библиотек Python для построения графиков. 2. Чтение .csv файла. 3. Выбор цветовой палитры и шрифта. 4. Построение графиков:  — Узнаем распределение возрастов среди игроков.  — Аналогично узнаем, какое количество игроков приходится на существующие игровые позиции.  — Покажем с помощью круговой диаграммы соотношение количества футболистов из разных стран.  — Цель игры — забить мяч в ворота. Выведем в процентном соотношении, какой ногой футболисты чаще забивают гол. 5. Напиши название для презентации и концепцию. 6. Напиши вводную часть для презентации этого датасета. 7. Напиши эту часть:  — Расскажите, как вы обрабатывали данные. Желательно поэтапно прикреплять свой код.  — Если пользовались нейросетями, то какими, для чего, какие промпты писали.  — Как вы стилизовали графики. Возможно, вы выбрали какую-то референсную картинку или вдохновились чем-то и решили создать графики в определённом стиле. Если это так, покажите свои источники вдохновения. 8. Напиши содержательный вывод для этой работы. 9. Напиши текст про использование нейросетей в этом исследовании.

Графический анализ датасета игроков EURO 2024
7
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more