Original size 1140x1600

Обучение генеративной нейросети персонажу Чу

The project is taking part in the competition

Чу — персонаж-маска из моего проекта по арт-практике. В этом проекте рассказывается история его видения мира

В ходе работы над проектом была создана папка на гугл диске с квадратными фотографиями, которые создавались и обрабатывались мной для проекта. Соавтором проекта является Черняева Кристина.

Целью проекта является целостное опознание черт образа персонажа и дальнейшая генерация изображений его видения мира.

Датасет

Технологический стек проекта:

— Stable Diffusion — кастомизация ИИ-модели для генерации уникального контента — Google Colab — облачная платформа для выполнения вычислений и создания изображений — Hugging Face — аутентификация и хостинг обученных нейросетевых моделей — Adobe Photoshop — финальная обработка и компоновка сгенерированных работ

Исходные фотографии

Визуальная концепция мира, увиденного глазами персонажа, строится на переносе его уникальной стилистики — сочетания ядовито-желтого и глубокого черного — на окружающую действительность. Этот мир предстает как пространство экологического предупреждения, где каждый элемент окрашен в тревожные тона экологической угрозы.

Визуальный язык окружающей среды сознательно копирует эстетику предупреждающих знаков и промышленных маркеров опасности. Символическое наполнение мира работает на нескольких уровнях: ядовитый желтый маркирует точки экологического кризиса, зоны загрязнения и источники опасности, в то время как черный цвет визуализирует последствия — выжженные земли, мертвые зоны, экологическую пустоту. Такое цветовое кодирование превращает обычные городские и природные сцены в карту экологических угроз.

Эмоциональное воздействие строится на создании атмосферы тревожного осознания — мир, увиденный через фильтр экологической чувствительности персонажа, предстает как хрупкая система, находящаяся на грани коллапса. Каждый визуальный элемент становится напоминанием о необходимости бережного отношения к окружающей среде и последствиях бездумного технологического вмешательства.

Логика написания промптов: [ОБЪЕКТ] + [ДЕЙСТВИЕ/СРЕДА] + [СТИЛЬ/ДЕТАЛИ].

Контекст — что происходит или где находится. Максимум (8+ слов): защита природы в токсичном лесу, кинематографично.

промт1: city, промт2: watching city

Обучение нейросети проходило на обычном компьютере — без специальной видеокарты, поэтому процесс из 400 шагов занял около 30 минут. Я использовала 17 фотографий из своей папки в интернете, чтобы научить нейросеть создавать похожие изображения.

Технология LoRA позволила не переучивать всю нейросеть с нуля, а только подстроить её под мои задачи — как если бы я не переделывал весь двигатель машины, а просто настроил его под свой стиль вождения. Благодаря этому все 400 шагов обучения были максимально эффективными.

Процесс обучения показывал прогресс в реальном времени: я видел, как с каждым из 400 шагов нейросеть всё лучше понимала, что от неё хотят. К концу обучения она уже достаточно хорошо усвоила особенности моих изображений и была готова генерировать новые картинки в этом же стиле.

Original size 320x320

Мир глазами персонажа размыт и предельно контрастен — очертания среды едва угадываются в ядовито-желтых вспышках и угольно-черных провалах, создавая тревожный образ искаженной реальности. К сожалению, в нейросетях сложно полноценно передать эту концепцию размытого восприятия, где узнаваемые формы тонут в агрессивном цветовом контрасте

Original size 256x256

промт: danger nature

Original size 320x320

промт: warning people

Original size 320x320

промт: protecting nature

Original size 320x320

промт: at sunset

Original size 320x320

промт: observing pollution

Original size 320x320

промт: in rain

Original size 224x224

промт: ruins

Original size 224x224

промт: warning

Original size 982x556

Установка зависимостей

Сначала я поставила основные библиотеки для работы с нейросетями — diffusers и transformers. Потом настроила подключение к Google Drive, чтобы брать картинки из моего облака и сохранять туда результаты

Начала с конфигурации — прописала пути к папкам, выбрала Stable Diffusion 1.5 как базовую модель, выставила размер изображений 512×512 и количество шагов обучения. Добавила проверку на GPU, но так как его не было, оставила CPU с float32

Original size 808x357

Проверка доступности GPU

Original size 1017x551

Анализ изображений

В цикле обучения организовала процесс: берём картинку, превращаем в латентные векторы, добавляем шум, учим нейросеть этот шум убирать. Следила за loss — чем он меньше, тем лучше идёт обучение. Каждые 100 шагов сохранял промежуточные результаты

В конце добавила генерацию тестовых изображений, чтобы проверить результат. Настроила простые промпты и вывод картинок прямо в ноутбук для быстрого просмотра

Original size 863x371

Запуск модели обучения

Итоги работы

Итоговые изображения демонстрируют узнаваемое следование первоначальной концепции — в них прослеживается характерный контраст ядовито-желтого и глубокого черного, создающий тревожную атмосферу экологического предупреждения, однако технические ограничения нейросети не позволили в полной мере реализовать художественный замысел, особенно в передаче сложных абстрактных идей и тонких визуальных метафор, но общая стилистическая направленность сохранилась

Ссылка на код

Trained model

Обучение генеративной нейросети персонажу Чу

Anastasiya Arbatova

artificial intelligence

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...