
Для анализа я выбрала набор данных о фильмах Disney, который был найден в открытом доступе. Данные содержат информацию о более чем 400 фильмах, выпущенных компанией Disney, включая такие параметры, как название фильма, год выпуска, продолжительность, бюджет, кассовые сборы, рейтинги IMDb и другие ключевые характеристики. Это делает данный набор достаточно полным и интересным для проведения различных видов анализа.
Принципы выбора этих данных: 1. Культурное значение: Disney является одним из крупнейших конгломератов в индустрии развлечений, и его продукция на протяжении десятилетий оказывает влияние на киноиндустрию и массовую культуру. 2. Широкий спектр возможностей анализа: Набор данных позволяет исследовать как финансовую эффективность фильмов (бюджет и кассовые сборы), так и творческие аспекты (продолжительность фильмов, рейтинг). 3. Личное любопытство: Мне было интересно узнать, как менялись фильмы Disney с течением времени, какой у них был бюджет, а также насколько успешно они были приняты аудиторией по кассовым сборам и оценкам.
Для представления данных я решила использовать несколько типов графиков:
1. Гистограмма для анализа распределения (например, продолжительности фильмов). Выбор гистограммы обусловлен тем, что данный тип графиков позволяет наглядно увидеть структуру распределения численных данных, таких как продолжительность или бюджет. 2. Интерактивный график (Scatter Plot) с помощью Plotly для сравнения двух показателей, таких как бюджет и кассовые сборы. Данный подход удобен для более глубокого анализа взаимосвязей между переменными. 3. Линейный график для исследования изменений во времени (например, динамики среднего бюджета фильмов с течением лет).


Для анализа данных о фильмах Disney я последовательно провела этапы обработки данных, чтобы подготовить их для визуализации и анализа. На каждом этапе я использовала Python-библиотеки для работы с данными и построения графиков. Дополнительно, я использовала AI-ассистента (Merlin) для подсказок по коду, оптимизации визуализаций и улучшения структуры работы.
«Описание применения генеративной модели»
Во время работы над проектом я использовала AI-ассистента (Merlin), чтобы:
1. Оптимизировать код — я уточняла синтаксис и структуру Python, задавала промпты вроде «Как сделать гистограмму с градиентом цветов?». 2. Улучшить визуализации — я спрашивала промпты вроде «Как лучше стилизовать график под шаблон viridis?» или «Как добавить интерактивный график со связями между бюджетом и сборами на основе Plotly». Это помогало достичь лучших результатов. 3. Научиться разбирать ошибки — нейросеть помогла диагностировать ошибки кода, например, когда я неправильно вызывала ось для colorbar.
В результате анализа данных о фильмах Disney, получилось выявить ключевые тенденции. Распределение продолжительности фильмов показало, что большинство из них имеют длительность около 90–100 минут, что соответствует стандартам индустрии. Также было замечено, что данные о бюджете и кассовых сборах позволяют глубже изучить финансовую эффективность фильмов, несмотря на наличие пропусков в этих значениях. Построенные визуализации помогли наглядно представить распределение данных и выявить некоторые взаимосвязи, такие как зависимость между бюджетом и прибыльностью. Этот анализ подчеркивает как культурную, так и коммерческую значимость фильмов компании Disney.