Original size 2480x3500

Анализ кино с 1910 по 2024 год

PROTECT STATUS: not protected
9

Концепция

Я увлекаюсь не только просмотром, но и детальным анализом кино, меня интересует все: от режиссерских приемов до исторических тенденций в кинематографе. Поэтому я решила провести анализ датасета с информацией о фильмах за период с 1910 по 2024 год. Этот обширный временной диапазон позволит мне исследовать, как менялись жанровые предпочтения зрителей, как развивались технологии кинопроизводства, какие темы были актуальны в разные эпохи, и как все это влияло на киноиндустрию в целом. Более чем вековой период, охватываемый датасетом, представляет собой богатейший материал для исследования и поможет мне глубже понять эволюцию кино.

big
Original size 2732x777

Палитра: #003049, #D62828, #F77F00, #FCBF49, #EAE2B7

Чтобы подчеркнуть творческую природу киноиндустрии, я использовала насыщенную цветовую палитру. Эти цвета не только создают визуально привлекательное представление данных, но и символизируют различные аспекты кино: от драматической напряженности и динамичного действия до блеска и гламура и чистоты художественного замысла.

Анализ данных

big
Original size 1523x564

В датасете есть лишняя колонка (Unnamed: 0), ее нужно будет убрать. В целом датасет содержит следующие признаки:

• Title — название фильма • Release Date — дата релиза • Description — описание фильма • Rating — средняя оценка на Metacritic, дающая представление о том, как фильм был воспринят критиками • No of Persons Voted — количество людей, оценивших фильм на Metacritic • Directed by — режиссер (ы) фильма • Written by — сценарист (ы), ответственный (ые) за сценарий фильма • Duration — продолжительность фильма • Genres — жанры фильма

Original size 1505x647

Я удалила колонку, вывела последние 5 строчек. В датасете 16290 наблюдений. Теперь можно приступить к оценке данных. Посмотрим, нет ли в данных дубликатов и пропусков.

Original size 1510x479

Дубликаты отсутствуют, а пропуски есть во многих признаках. Например, пропуски в колонке рейтинга занимают около 20%, то есть пятую часть от всех данных. Я решила, что заменять их, например, на медиану, некорректно, поскольку слишком велика их доля. Поэтому все пропуски я удалила.

Original size 1514x117

В результате осталось 12335 фильмов, чего вполне достаточно для анализа.

Рейтинги фильмов: общая картина

Для начала я решила посмотреть фильмы каких рейтингов чаще всего встречаются в датасете. С этой целью я написала функцию, которая делит данные на три сегмента в зависимости от их оценки. Разделив данные, я визуализировала их с помощью круговой диаграммы, которая наглядно показывает доли. Я использовала яркие цвета, исходя из выбранной палитры.

Original size 791x676

Оказалось, что в датасете большинство фильмов относятся к категории средне- и высокорейтинговым. Далее мы будем анализировать их. В датасет вошло почти 11 000 фильмов.

Original size 1513x110

Мастера кинопроизводства

Я решила выяснить, какие режиссеры сняли наибольшее количество фильмов. Для этого я подсчитала по отфильтрованному датасету количество значений, взяла первые 5, настроила цветовую палитру, задала размер графика и построила столбчатую диаграмму. Кроме того, я подписала оси, задала наклон.

Original size 1517x362
Original size 1189x590

Почти 50 фильмов выпустил режиссер Вуди Аллен.

Динамика выпуска фильмов по годам

Следующим шагом стала оценка количества вышедших фильмов по годам. Для этого необходимо было извлечь год из колонки Release Date, преобразовав данную колонку в формат datetime, а затем выделив оттуда год. Затем я построила линейный график, отобразив на нем линии для фильмов высокого рейтинга и среднего отдельно.

Original size 1517x559
Original size 1189x590

Исходя из графика, получается, что больше всего фильмов среднего рейтинга было выпущено в 2014 году, а высокого рейтинга в 2015. В целом, наблюдается рост выпусков фильмов, что довольно очевидно, однако заметно снижение выпуска после 2015 года.

Самый популярный жанр

И конечно, я заинтересовалась, какие жанры являются самыми популярными. Также для того, чтобы это узнать, я извлекла первый жанр там, где было более 1 жанра.

Original size 1517x383
Original size 1190x590

Комедии лидируют в рейтинге популярности жанров, подтверждая нашу любовь к хорошему смеху. Второе место по популярности занимают драмы. Возможно, после напряженной рабочей недели всем хочется просто расслабиться и посмеяться, а в выходные погрузиться в более серьезные и трогательные истории.

Визуализация данных играет ключевую роль в аналитической работе, позволяя быстро выявить тренды в больших объёмах информации. В ходе работы я использовала различные виды графиков, такие как гистограммы, круговые и линейные диаграммы, чтобы наглядно представить распределение фильмов по жанрам, рейтингам и годам выпуска. Это позволило выделить самые популярные жанры и годовые изменения в количестве высоко оценённых фильмов. Визуализация сделала данные более доступными и понятными, а также помогла глубже понять структуру киноиндустрии и предпочтения зрителей.

Блокнот и датасет

Анализ кино с 1910 по 2024 год
9
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more