Original size 1038x1536

Визуализация данных о пингвинах

PROTECT STATUS: not protected

Выбор данных

Для того чтобы найти интересные данные для визуализации, я обратилась к сайту Kaggle. Среди множества вариантов моё внимание сразу привлёк датасет про пингвинов — ведь они такие забавные и милые. Мне стало интересно узнать о них больше с научной точки зрения: чем отличаются разные виды, связан ли их рацион с массой тела, какие факторы в целом влияют на их здоровье?

Анализируемые данные были собраны на архипелаге Палмера, расположенном вблизи Антарктиды. Датасет содержит информацию о трёх видах пингвинов (Adelie, Gentoo и Chinstrap) и охватывает следующие показатели:  — Биометрические данные: длину и глубину клюва, длину ласт, массу тела.  — Вид, пол и информацию о жизненной стадии.  — Геолокацию и год, когда проводились наблюдения.  — Особенности питания и информацию о состоянии здоровья пингвинов.

Для того, чтобы можно было более точно и грамотно работать с кодом, я использовала DeepSeek. Обращалась к нему, когда мне нужно было исправить ошибки в коде. Для создания визуализаций я выбрала следующие типы графиков:  — Столбчатую диаграмму (countplot), отображающую распределение видов пингвинов по разным островам.  — Круговые графики (pie chart) для визуализации распределения пингвинов по полу и возрасту.  — Гистограммы (histogram), отображающие распределение числовых значений для каждого вида пингвинов.  — Ящик с усами (boxplot) для визуализации распределения массы тела пингвинов на каждом острове.  — Диаграмму рассеяния (scatter plot), показывающую зависимость между длиной и глубиной клюва у пингвинов разных видов.  — Составную столбчатую диаграмму (stacked bar chart), чтобы показать, как тип питания влияет на состояние здоровья пингвинов.

Загрузка данных

Для начала я подключила свой Google Drive к Google Colab, чтобы Colab мог работать с данными, хранящимися в облаке.

big
Original size 1899x153

Далее я импортировала библиотеки pandas, matplotlib.pyplot, и seaborn для анализа и визуализации данных. Затем подгрузила CSV-файл с данными о пингвинах из моего Google Drive и вывела первые несколько строк, чтобы убедиться, что данные загрузились правильно.

big
Original size 1899x321
big
Original size 3711x744

Стиль

Для того, чтобы в дальнейшем можно было стилизовать графики, я сгенерировала арктический пейзаж в Recraft AI и с помощью Adobe Color извлекла цветовую палитру.

/промт: Antarctica landscape. Blue sky with light pink clouds. Light snowfall.

Original size 1820x1024
Original size 3640x586

Теперь можно перейти к стилизации графиков. Я изменяю цвета (используя созданную палитру), шрифты и размеры текста, чтобы визуализации стали более понятными и приятными для восприятия.

Original size 1899x825

Визуализации

/01 визуализация

Мне было интересно посмотреть, какие виды пингвинов (Adelie, Chinstrap, Gentoo) обитают на каждом острове (Biscoe, Dream, Torgensen) и каково их количество. Для начала я задала размеры диаграммы и цветовую палитру (эта часть кода будет немного видоизменяться при построении следующих визуализаций, так как количество оттенков в каждой из них индивидуально, также как и необходимые размеры самого графика).

Далее я перешла к созданию столбчатой диаграммы, в которой:  — По оси X расположены названия островов.  — По оси Y отложено количество пингвинов.  — Для каждого острова показаны три столбика, каждый из которых соответствует одному из видов пингвинов.  — Высота столбика отражает количество пингвинов этого вида на данном острове.  — Цвета столбиков соответствуют разным видам пингвинов.

Original size 1899x573
Original size 1190x690

Из графика видно, что:  — На острове Biscoe живут все пингвины Gentoo, а на острове Dream — все пингвины Chinstrap.  — На острове Torgersen живут только пингвины Adelie, при этом представители данного вида практически равномерно распределены между всеми тремя островами.  — Самый населенный пингвинами остров — Biscoe, а менее населенный — Torgersen.

/02 визуализация

Далее я хотела узнать о соотношении самцов и самок (Male, Female), а также о распределении пингвинов по возрастным категориям (Adult, Juvenile, Chick). Для этого были созданы два круговых графика:  — Размер каждого сектора пропорционален доле пингвинов, относящихся к соответствующей категории.  — Внутри каждого сектора указан процент пингвинов, приходящихся на эту категорию.

Код также задает цвета для графиков, заголовки и текст для отображения процентного соотношения каждой категории.

Original size 1899x1203
Original size 1189x674

Из графиков видно, что:  — Соотношение самцов и самок (Male, Female) примерно одинаковое, при этом есть небольшое преобладание самцов (50.3%).  — Наибольшую долю составляют взрослые пингвины (Adult) (44.9%), затем молодые особи (Juvenile) (30.0%), а наименьшую — птенцы (Chick) (25.1%).

/03 визуализация

Также мне стало интересно сравнить разные виды пингвинов по числовым характеристикам (Body Mass (g), Flipper Length (mm), Bill Length (mm), Bill Depth (mm)), чтобы узнать, есть ли какие-то различия в их размерах. Для этого я создала четыре гистограммы, где:  — По оси X отложены значения характеристики.  — По оси Y отложено количество пингвинов, имеющих данное значение характеристики.  — Каждый вид пингвинов представлен своим цветом.  — Линия поверх столбцов — это оценка плотности распределения (KDE — Kernel Density Estimate), которая показывает общую форму распределения для каждого вида.

Original size 1899x1623
Original size 1189x704

Из графиков видно, что:  — Пингвины Gentoo в среднем имеют наибольшие значения по всем четырём параметрам: массе тела, длине плавника, длине клюва и глубине клюва (Body Mass (g), Flipper Length (mm), Bill Length (mm), Bill Depth (mm)).

/04 визуализация

Далее я решила посмотреть, как масса тела пингвинов (Body Mass (g)) зависит от острова (Biscoe, Dream, Torgensen) и пола (Male, Female). Для этого я построила ящик с усами, где:  — Ящик отображает интерквартильный размах (IQR), то есть 50% центральных значений данных. Верхняя и нижняя границы коробки — 75-й и 25-й процентили соответственно.  — Медиана (50-й процентиль) массы тела.  — «Усы» показывают диапазон данных, за исключением выбросов (1.5*IQR).  — Выбросы — отдельные значения, которые значительно отличаются от основной массы данных.

Original size 1899x912
Original size 1189x690

Из графика видно, что:  — На всех островах самцы пингвинов (Male) в среднем тяжелее самок (Female).

/05 визуализация

Также мне было интересно узнать, как связаны длина (Bill Length (mm)) и глубина клюва (Bill Depth (mm)), и как это соотносится с разными видами (Adelie, Chinstrap, Gentoo). Для этого я создаю диаграмму рассеяния, где:  — Каждая точка на графике представляет измерение длины и глубины клюва для одной птицы.  — Цвет точки соответствует виду пингвина.  — Линия регрессии, которая показывает общую тенденцию в данных. Она стремится пройти как можно ближе ко всем точкам, показывая, как в среднем глубина клюва меняется с увеличением длины клюва.

Original size 1899x951
Original size 1190x690

Из графика видно, что:  — Есть слабая положительная корреляция между длиной и глубиной клюва, то есть чем длиннее клюв, тем он глубже.

/06 визуализация

Интереснее всего мне было узнать, как типы питания (Fish, Krill, Parental, Squid) связаны с состоянием здоровья пингвинов (Healthy, Overweight, Underweight). Для этого я сначала сгруппировала данные, подсчитала количество пингвинов для каждой комбинации диеты и состояния здоровья, а затем преобразовала эти значения в проценты. После чего создала диаграмму, где:  — Каждый столбец представляет основной рацион.  — Общая высота каждого столбца соответствует 100% пингвинов с данным типом питания.  — Каждый сегмент внутри столбца представляет процент пингвинов с определенным состоянием здоровья.

Original size 1899x825
Original size 1189x690

Из графика видно, что:  — Большинство пингвинов, питающихся рыбой (Fish), имеют избыточный вес (Overweight).  — Большинство здоровых пингвинов (Healthy) получают пищу от родителей (Parental).  — Большинство пингвинов с недостатком веса (Underweight) питаются крилем (Krill).

Заключение

На основе собранных данных можно сделать вывод о том, что существует сложная взаимосвязь между видом пингвина, средой обитания, диетой и состоянием здоровья. Понимание этих взаимосвязей имеет важное значение для разработки стратегий сохранения и защиты этих уникальных видов.

Original size 1820x1024

/промт для изображения: A group of cute fluffy penguins in blue and pink scarves, with big black eyes and playful poses, standing on snowy ice. Background: snowy expanses, pink winter sky, light snowflakes.

/промт для обложки: Two little fluffy penguins stand on an ice floe and hold tightly to their flippers. Big shiny eyes, awkward poses, contented smiles. One in a blue scarf, the other in a pink one. Background: snowy expanses, pink winter sky, light snowflakes.

Визуализация данных о пингвинах
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more