
Описание
Для анализа были взяты два различных по тематике видео-интервью с YouTube канала «вДудь»: - Элен Шейдлин о искусстве - Майя Санду о политике
На основе встроенных английских субтитров есть возможность проанализировать такой формат, как интервью от многомилионного блогера, найти сходства, несмотря на различную тематику, ведь людям интересно слушать о людях.
В анализе используются преимущественно столбчатые диаграммы.
Этапы работы
- Выбор набора данных - Анализ данных - Визуализация
Выбор и извлечение данных


Анализ и визуализация данных
После подсчета ключевых слов (исключая стоп-слова) был выполнен поиск наиболее частоупотребляемых для каждого из гостей.
На основе графика можно сделать вывод, что для каждого из гостей самым частоупотребляемым словом стало слово «люди», что характеризует и формат интервью, и озабоченность человеческими жизнями как артиста, так и политика.
Следующим для анализа стало выяснение так называемых позитивных слов в обоих видео. Какие они?
Как видно из результатов, слово «поддержка» присутствует у обеих героинь видео — в этом их сходство. Однако различия видно также ярко: у Элен, занимающейся искусством, слово «любовь» практически в том же количестве, тогда как у президента Молдовы Майи наиболее позитивным являются «реформы». Это различие указывает на важные аспекты для каждой из приглашенных девушек.
На следующем графике можно наглядно увидеть относительную частоту употребления положительных слов для обеих героинь.
Тут также преобладает слово «поддержка», но еще одним интересным словом является «работа». В обеих сферах это важная составляющая жизни и ее улучшения.
В последнем графике наглядно видно, что и у художницы Элен, и у политика Майи позитивных слов в речи одинаково много и гораздо больше, чем негативных. Однако в негативных прослеживается следующая тенденция: в сфере искусства отрицательных моментов меньше, нежели в политике, что подразумевает большую проблематику.
Блокнот с кодом
Описание применения генеративной модели
Генерация обложки — https://ideogram.ai/t/explore (Промпт: Minimalist art that evokes the theme of data analysis. Few elements, simple. Blue and purple colors. White clean background.)
Написание кода для извлечения субтитров — https://chatgpt.com/?__cf_chl_tk=WJTnVq1.PLu2CDyXB20LirstKL_nk4IQfTbu6gyLID0-1719089152-0.0.1.1-11177 (Промпт: How in python, using a YouTube video, take subtitles from there in a specific language and convert them to a text file. + Improve the code, taking into account that you need to get information from two videos at once. Here are the links to them…)
Оформление графика в виде Word Cloud — https://chat.deepseek.com/ (Промпт: What other graphs can be built based on this data? Consider what you already have and be sure to use pandas…)