
Концепция
Многие относятся к «Южному парку» очень неоднозначно, а кто-то даже негативо. Но нельзя поспорить с тем, что он за годы существования стал по-настоящему iconic. И особенно зрителям конечно же запомнился юмор и разговоры героев.
Так что сегодня мы с вами посмотрим, о чем вообще болтали герои на протяжении всех сезонов и попытаемся понять: в чем отличительные черты диалогов в «Южном парке»? Что вообще можно сказать о том, что и сколько говорят герои?
В проекте использовано 4 вида визуализации данных: (01) столбчатая диаграмма (02) график с маркерами (03) круговая диаграмма (04) облако слов
Шрифт и палитра
Над выбором цветовой палитры долго думать не пришлось, с помощью Adobe Color я сгенерировал палитру из цветов главных героев, ее и буду использовать для всех графиков.

фирменный стиль
Долго ли я думал, увидев этот шрифт? Нет, тут же скачал, установил и выбрал для проекта. Вы вообще видели название?
Подготовка
Я спросил у чата GPT, какие дополнительные библиотеки мне могут понадобиться и по его совету установил Pandas и Matplot Lib.
Также поскольку данные, которые я нашел на Kaggle, были в формате csv, мне было не очень удобно с ними работать. Общую таблицу можно было посмотреть на самом сайте, но вот для обращения к данным, названиям столбцов это было не лучшим решением. Поэтому перед началом работы я вывел названия всех имеющихся столбцов.
Первичная настройка кода
(01) Общая статистика диалогов всех сезонов
Статистика количества диалогов в каждом сезоне, столбчатая диаграмма
За все время вышло 18 сезонов «Южного парка», и, как оказалось, количество диалогов в них не одинаковое. Больше всего персонажи говорили со 2-го по 4-й сезоны. А вот в последних сезонах количество диалогов сильно упало.
Можно предположить, что это связано с тем, что в первых сезонах зрителю нужно было дать понять, как устроен мир Южного парка, создать детальные образы и характеры персонажей. А когда зрители это все уже поняли и выучили, можно отдавать большее количество экранного времени действиям, событиям и даже замещать прямые диалоги на другие приемы раскрытия персонажей.
код столбчатой диаграммы
(02) Соотношение количества реплик в начале и конце сезона
Узнав статистику количества диалогов по сезонам, мне стало любопытно — есть ли подобная связь между первыми и последними сериями?
График показал, что первые две трети сезона суммарное количество реплик всех персонажей было примерно одинаковым, а к последним сериям начинался сильный спад. Могу предположить, что это нужно было либо потому что события и действия замещали слова, либо для создания ощущения окончания, заключения сезона.
Статистика среднего количества диалогов по номерам серий в одном сезоне, график линейный с маркерами
Говоря о построении самого графика, все вышло не с первого раза. Первый вариант кода дополнительно создавал таблицу по использованным данным, которая была не нужна и только отнимала место. Я спросил у чата GPT почему это может происходить и понял, что таблица появляется из-за того, что я неправильно использую set_xlabel. Вместо этого нужно передать строку с названием оси X, а не column_episode.
Код графика
(03) Топ 10 болтунов
Теперь мы знаем, когда персонажи говорят больше всего. Но вот кому из них принадлежит наибольшее количество реплик?
10 персонажей с самым большим количеством реплик, круговая диаграмма
код круговой диаграммы
Такой результат был вполне ожидаем, ведь наибольшие проценты у главных героев мультсериала. Ну, кроме Кенни конечно же. Но это ведь Кенни.
Однако мне захотелось более детально рассмотреть распределение реплик между главными персонажами. Результат в целом не слишком изменился, но мне показался любопытным с точки зрения оценки характеров персонажей. Картман — самый громкий, наглый и бойкий, поэтому ему отведено наибольшее количество реплик как среди всех героев, так и среди главных. Кайл и Стэн получили примерно равные проценты, имея нейтральные, на мой взгляд, характеры. Они не слишком тихие, но до Эрика им еще расти. Ну а Кенни в целом сценаристы наградили неразговорчивостью.
код для круговой диаграммы по главным героям
Распределение количества реплик между главными героями, круговая диаграмма
Для создания этой версии диаграммы в код потребовалось внести конкретные уточнения и создать «фильтр», который будет подсчитывать только те ячейки, в которых записано одно из имен 4-х главных героев.
(04) Что говорят чаще всего?
И нет, в этот график не попал ни один мат.
Поскольку все используемые героями слова уместить будет почти нереально, я остановился на отборе 20-ти самых часто используемых.
20 самых часто используемых слов в репликах, столбчатая диаграмма
Код столбчатой диаграммы
А потом мне стало интересно попробовать новый для себя вид графиков и сделать облако слов. Тем более, такой формат показался мне наиболее органичным для анализа слов из реплик.
Частота употребления слов, облако слов
Чаще всего в речи персонажей встречаются различные местоимениям, например «ты», «я» или «мы», а также союзы, предлоги и модальные глаголы. Мне кажется, это обусловлено желанием сценаристов сделать речь героев как можно более простой к пониманию, грубоватой и в то же время естественной. Потому что по сути все эти слова являются основными для создания речевых конструкций.
код облака слов
Вывод
Пожалуй, главной отличительной чертой диалогов в «Южном Парке» является тенденция уменьшения их количества к концу сюжетной линии, конфликта. Такой прием сценаристы используют как в конце сериала в целом, так и в конце каждого сезона. И этот прием можно использовать с самыми разными целями. Берем на заметку!
А также исходя из опыта «Южного Парка» и из проанализированных данных запоминаем, что не только смыслы реплик, но их количество должны отражать характеры персонажей. А общую стилистику речи надо выбирать под свою цель и задачу. Но если вы хотите нарисовать анимационный сериал с черным юмором — вам дорога в стороны простых, незамысловатых конструкций.
Использованные генеративные модели и программы: — Chat GPT — Mistral.Ai — Adobe Color