
Концепция
Я увлекаюсь не только просмотром, но и детальным анализом кино, меня интересует все: от режиссерских приемов до исторических тенденций в кинематографе. Поэтому я решила провести анализ датасета с информацией о фильмах за период с 1910 по 2024 год. Этот обширный временной диапазон позволит мне исследовать, как менялись жанровые предпочтения зрителей, как развивались технологии кинопроизводства, какие темы были актуальны в разные эпохи, и как все это влияло на киноиндустрию в целом. Более чем вековой период, охватываемый датасетом, представляет собой богатейший материал для исследования и поможет мне глубже понять эволюцию кино.

Чтобы подчеркнуть творческую природу киноиндустрии, я использовала насыщенную цветовую палитру. Эти цвета не только создают визуально привлекательное представление данных, но и символизируют различные аспекты кино: от драматической напряженности и динамичного действия до блеска и гламура и чистоты художественного замысла.
Анализ данных

В датасете есть лишняя колонка (Unnamed: 0), ее нужно будет убрать. В целом датасет содержит следующие признаки:
• Title — название фильма • Release Date — дата релиза • Description — описание фильма • Rating — средняя оценка на Metacritic, дающая представление о том, как фильм был воспринят критиками • No of Persons Voted — количество людей, оценивших фильм на Metacritic • Directed by — режиссер (ы) фильма • Written by — сценарист (ы), ответственный (ые) за сценарий фильма • Duration — продолжительность фильма • Genres — жанры фильма
Я удалила колонку, вывела последние 5 строчек. В датасете 16290 наблюдений. Теперь можно приступить к оценке данных. Посмотрим, нет ли в данных дубликатов и пропусков.
Дубликаты отсутствуют, а пропуски есть во многих признаках. Например, пропуски в колонке рейтинга занимают около 20%, то есть пятую часть от всех данных. Я решила, что заменять их, например, на медиану, некорректно, поскольку слишком велика их доля. Поэтому все пропуски я удалила.
В результате осталось 12335 фильмов, чего вполне достаточно для анализа.
Рейтинги фильмов: общая картина
Для начала я решила посмотреть фильмы каких рейтингов чаще всего встречаются в датасете. С этой целью я написала функцию, которая делит данные на три сегмента в зависимости от их оценки. Разделив данные, я визуализировала их с помощью круговой диаграммы, которая наглядно показывает доли. Я использовала яркие цвета, исходя из выбранной палитры.
Оказалось, что в датасете большинство фильмов относятся к категории средне- и высокорейтинговым. Далее мы будем анализировать их. В датасет вошло почти 11 000 фильмов.
Мастера кинопроизводства
Я решила выяснить, какие режиссеры сняли наибольшее количество фильмов. Для этого я подсчитала по отфильтрованному датасету количество значений, взяла первые 5, настроила цветовую палитру, задала размер графика и построила столбчатую диаграмму. Кроме того, я подписала оси, задала наклон.
Почти 50 фильмов выпустил режиссер Вуди Аллен.
Динамика выпуска фильмов по годам
Следующим шагом стала оценка количества вышедших фильмов по годам. Для этого необходимо было извлечь год из колонки Release Date, преобразовав данную колонку в формат datetime, а затем выделив оттуда год. Затем я построила линейный график, отобразив на нем линии для фильмов высокого рейтинга и среднего отдельно.
Исходя из графика, получается, что больше всего фильмов среднего рейтинга было выпущено в 2014 году, а высокого рейтинга в 2015. В целом, наблюдается рост выпусков фильмов, что довольно очевидно, однако заметно снижение выпуска после 2015 года.
Самый популярный жанр
И конечно, я заинтересовалась, какие жанры являются самыми популярными. Также для того, чтобы это узнать, я извлекла первый жанр там, где было более 1 жанра.
Комедии лидируют в рейтинге популярности жанров, подтверждая нашу любовь к хорошему смеху. Второе место по популярности занимают драмы. Возможно, после напряженной рабочей недели всем хочется просто расслабиться и посмеяться, а в выходные погрузиться в более серьезные и трогательные истории.
Визуализация данных играет ключевую роль в аналитической работе, позволяя быстро выявить тренды в больших объёмах информации. В ходе работы я использовала различные виды графиков, такие как гистограммы, круговые и линейные диаграммы, чтобы наглядно представить распределение фильмов по жанрам, рейтингам и годам выпуска. Это позволило выделить самые популярные жанры и годовые изменения в количестве высоко оценённых фильмов. Визуализация сделала данные более доступными и понятными, а также помогла глубже понять структуру киноиндустрии и предпочтения зрителей.
Блокнот и датасет