
На сайте Kaggle я нашла данные на интересующую меня тематику. Они касаются различных языков и данных, связанных со словарями. Авторы рассмотрели множество языков (включая мертвые и даже искусственные) и создали таблицу, в которой указаны количество основных слов (т.е. единицы значений) для каждого языка, собранных в словаре, данные о самом словаре и прочая дополнительная информация.
Количество слов (одно слово — одно значение) не только отражает широту мышления носителей, оно может показать степень проработанности языка, а также его тип, так как не каждая система нуждается в большом словаре, поскольку формирует новые значения, например, путем объединения уже существующих.
Я выбрала классические гистограммы, поскольку именно они подходят для данной темы. Информация о словарях таким образом получится наиболее наглядной.
Этапы работы

Чтобы начать работу со скачанным файлом, я сохранила его на Диске и импортировала (для удобства при указании пути файла в следующих этапах). Затем открыла файл вышеуказанным способом через «обзор».
Графики исполнены с целью наглядности информации, был выбран черный фон для концентрации внимания и светло белый цвет данных для создания прохладной цветовой гаммы, не влияющей на эмоциональное состояние, как если бы это был, например, красный, что позволяет сосредоточиться на информации.

Так выглядит код для первого графика. На нем показаны 10 языков с самым большим «словарным запасом», основываясь на выбранных данных.
Интересно, что к языкам с наименьшим количеством слов относятся древнегерманский — мертвый язык, а также один из известнейших искусственных — токипона. Говоря о последнем, этот язык создавался как простой в значении и произношении, потому неудивительно увидеть его последним в списке. Простота системы сильно ограничивает язык в значениях.
Так показано сравнение самого объемного словаря по количеству индивидуальных значений и самого скудного. График отражает большую разницу между живым используемым языком и искусственным, обладающим малым числом пользующихся. Более того, можно предположить, что, поскольку корейский сильно вырывается вперед, его языковой концепт имеет определенные особенности, позволяющие создавать такой объем слов.
На графике представлены ближайшие к русскому языки по количеству слов в словаре. Ими оказались белорусский, язык той же славянской ветви, и немецкий.
Итог
Исходя из анализа и визуализации был сделан вывод, что словарный запас языка может показывать особенность языкового концепта, распространенность и степень использования. Чем обособленней в месторасположении и среди народов язык, тем более скудным он является. Чем проще язык, тем меньше его словарный запас, ведь в приведенных данных посчитаны только те слова, которые имеют индивидуальное значение. Иначе говоря, в примитивном или упрощенном в словообразовании языке приходится использовать уже созданные корни для объединения их в новое значение, именно такой вывод на основании графиков можно сделать.
Описание применения генеративной модели
Для создания частей кода была использована нейросеть ChatGPT. Был введен запрос для понимания, как строятся графики с определением ближайших к заданному языков. В промпт вошел вопрос «как найти два ближайших языка к Russian по количеству слов в колонке с названием „Approx headwords“. Исходя из объяснения, был написан подходящий для задания код. Была использована нейросеть LeonardoAI для генерации обложки проекта. (Промпт: Tower of Babel in the style of medieval illustrations (close to Bosch)).