
Выбор данных
Для того чтобы найти интересные данные для визуализации, я обратилась к сайту Kaggle. Среди множества вариантов моё внимание сразу привлёк датасет про пингвинов — ведь они такие забавные и милые. Мне стало интересно узнать о них больше с научной точки зрения: чем отличаются разные виды, связан ли их рацион с массой тела, какие факторы в целом влияют на их здоровье?
Анализируемые данные были собраны на архипелаге Палмера, расположенном вблизи Антарктиды. Датасет содержит информацию о трёх видах пингвинов (Adelie, Gentoo и Chinstrap) и охватывает следующие показатели: — Биометрические данные: длину и глубину клюва, длину ласт, массу тела. — Вид, пол и информацию о жизненной стадии. — Геолокацию и год, когда проводились наблюдения. — Особенности питания и информацию о состоянии здоровья пингвинов.
Для того, чтобы можно было более точно и грамотно работать с кодом, я использовала DeepSeek. Обращалась к нему, когда мне нужно было исправить ошибки в коде. Для создания визуализаций я выбрала следующие типы графиков: — Столбчатую диаграмму (countplot), отображающую распределение видов пингвинов по разным островам. — Круговые графики (pie chart) для визуализации распределения пингвинов по полу и возрасту. — Гистограммы (histogram), отображающие распределение числовых значений для каждого вида пингвинов. — Ящик с усами (boxplot) для визуализации распределения массы тела пингвинов на каждом острове. — Диаграмму рассеяния (scatter plot), показывающую зависимость между длиной и глубиной клюва у пингвинов разных видов. — Составную столбчатую диаграмму (stacked bar chart), чтобы показать, как тип питания влияет на состояние здоровья пингвинов.
Загрузка данных
Для начала я подключила свой Google Drive к Google Colab, чтобы Colab мог работать с данными, хранящимися в облаке.

Далее я импортировала библиотеки pandas, matplotlib.pyplot, и seaborn для анализа и визуализации данных. Затем подгрузила CSV-файл с данными о пингвинах из моего Google Drive и вывела первые несколько строк, чтобы убедиться, что данные загрузились правильно.


Стиль
Для того, чтобы в дальнейшем можно было стилизовать графики, я сгенерировала арктический пейзаж в Recraft AI и с помощью Adobe Color извлекла цветовую палитру.
/промт: Antarctica landscape. Blue sky with light pink clouds. Light snowfall.
Теперь можно перейти к стилизации графиков. Я изменяю цвета (используя созданную палитру), шрифты и размеры текста, чтобы визуализации стали более понятными и приятными для восприятия.
Визуализации
/01 визуализация
Мне было интересно посмотреть, какие виды пингвинов (Adelie, Chinstrap, Gentoo) обитают на каждом острове (Biscoe, Dream, Torgensen) и каково их количество. Для начала я задала размеры диаграммы и цветовую палитру (эта часть кода будет немного видоизменяться при построении следующих визуализаций, так как количество оттенков в каждой из них индивидуально, также как и необходимые размеры самого графика).
Далее я перешла к созданию столбчатой диаграммы, в которой: — По оси X расположены названия островов. — По оси Y отложено количество пингвинов. — Для каждого острова показаны три столбика, каждый из которых соответствует одному из видов пингвинов. — Высота столбика отражает количество пингвинов этого вида на данном острове. — Цвета столбиков соответствуют разным видам пингвинов.
Из графика видно, что: — На острове Biscoe живут все пингвины Gentoo, а на острове Dream — все пингвины Chinstrap. — На острове Torgersen живут только пингвины Adelie, при этом представители данного вида практически равномерно распределены между всеми тремя островами. — Самый населенный пингвинами остров — Biscoe, а менее населенный — Torgersen.
/02 визуализация
Далее я хотела узнать о соотношении самцов и самок (Male, Female), а также о распределении пингвинов по возрастным категориям (Adult, Juvenile, Chick). Для этого были созданы два круговых графика: — Размер каждого сектора пропорционален доле пингвинов, относящихся к соответствующей категории. — Внутри каждого сектора указан процент пингвинов, приходящихся на эту категорию.
Код также задает цвета для графиков, заголовки и текст для отображения процентного соотношения каждой категории.
Из графиков видно, что: — Соотношение самцов и самок (Male, Female) примерно одинаковое, при этом есть небольшое преобладание самцов (50.3%). — Наибольшую долю составляют взрослые пингвины (Adult) (44.9%), затем молодые особи (Juvenile) (30.0%), а наименьшую — птенцы (Chick) (25.1%).
/03 визуализация
Также мне стало интересно сравнить разные виды пингвинов по числовым характеристикам (Body Mass (g), Flipper Length (mm), Bill Length (mm), Bill Depth (mm)), чтобы узнать, есть ли какие-то различия в их размерах. Для этого я создала четыре гистограммы, где: — По оси X отложены значения характеристики. — По оси Y отложено количество пингвинов, имеющих данное значение характеристики. — Каждый вид пингвинов представлен своим цветом. — Линия поверх столбцов — это оценка плотности распределения (KDE — Kernel Density Estimate), которая показывает общую форму распределения для каждого вида.
Из графиков видно, что: — Пингвины Gentoo в среднем имеют наибольшие значения по всем четырём параметрам: массе тела, длине плавника, длине клюва и глубине клюва (Body Mass (g), Flipper Length (mm), Bill Length (mm), Bill Depth (mm)).
/04 визуализация
Далее я решила посмотреть, как масса тела пингвинов (Body Mass (g)) зависит от острова (Biscoe, Dream, Torgensen) и пола (Male, Female). Для этого я построила ящик с усами, где: — Ящик отображает интерквартильный размах (IQR), то есть 50% центральных значений данных. Верхняя и нижняя границы коробки — 75-й и 25-й процентили соответственно. — Медиана (50-й процентиль) массы тела. — «Усы» показывают диапазон данных, за исключением выбросов (1.5*IQR). — Выбросы — отдельные значения, которые значительно отличаются от основной массы данных.
Из графика видно, что: — На всех островах самцы пингвинов (Male) в среднем тяжелее самок (Female).
/05 визуализация
Также мне было интересно узнать, как связаны длина (Bill Length (mm)) и глубина клюва (Bill Depth (mm)), и как это соотносится с разными видами (Adelie, Chinstrap, Gentoo). Для этого я создаю диаграмму рассеяния, где: — Каждая точка на графике представляет измерение длины и глубины клюва для одной птицы. — Цвет точки соответствует виду пингвина. — Линия регрессии, которая показывает общую тенденцию в данных. Она стремится пройти как можно ближе ко всем точкам, показывая, как в среднем глубина клюва меняется с увеличением длины клюва.
Из графика видно, что: — Есть слабая положительная корреляция между длиной и глубиной клюва, то есть чем длиннее клюв, тем он глубже.
/06 визуализация
Интереснее всего мне было узнать, как типы питания (Fish, Krill, Parental, Squid) связаны с состоянием здоровья пингвинов (Healthy, Overweight, Underweight). Для этого я сначала сгруппировала данные, подсчитала количество пингвинов для каждой комбинации диеты и состояния здоровья, а затем преобразовала эти значения в проценты. После чего создала диаграмму, где: — Каждый столбец представляет основной рацион. — Общая высота каждого столбца соответствует 100% пингвинов с данным типом питания. — Каждый сегмент внутри столбца представляет процент пингвинов с определенным состоянием здоровья.
Из графика видно, что: — Большинство пингвинов, питающихся рыбой (Fish), имеют избыточный вес (Overweight). — Большинство здоровых пингвинов (Healthy) получают пищу от родителей (Parental). — Большинство пингвинов с недостатком веса (Underweight) питаются крилем (Krill).
Заключение
На основе собранных данных можно сделать вывод о том, что существует сложная взаимосвязь между видом пингвина, средой обитания, диетой и состоянием здоровья. Понимание этих взаимосвязей имеет важное значение для разработки стратегий сохранения и защиты этих уникальных видов.
/промт для изображения: A group of cute fluffy penguins in blue and pink scarves, with big black eyes and playful poses, standing on snowy ice. Background: snowy expanses, pink winter sky, light snowflakes.
/промт для обложки: Two little fluffy penguins stand on an ice floe and hold tightly to their flippers. Big shiny eyes, awkward poses, contented smiles. One in a blue scarf, the other in a pink one. Background: snowy expanses, pink winter sky, light snowflakes.