Original size 1140x1600

Обучение генеративной нейросети персонажу Чу

PROTECT STATUS: not protected
2
The project is taking part in the competition

Чу — персонаж-маска из моего проекта по арт-практике. В этом проекте рассказывается история его видения мира

В ходе работы над проектом была создана папка на гугл диске с квадратными фотографиями, которые создавались и обрабатывались мной для проекта. Соавтором проекта является Черняева Кристина.

Целью проекта является целостное опознание черт образа персонажа и дальнейшая генерация изображений его видения мира.

Технологический стек проекта:

— Stable Diffusion — кастомизация ИИ-модели для генерации уникального контента — Google Colab — облачная платформа для выполнения вычислений и создания изображений — Hugging Face — аутентификация и хостинг обученных нейросетевых моделей — Adobe Photoshop — финальная обработка и компоновка сгенерированных работ

Исходные фотографии

0

Визуальная концепция мира, увиденного глазами персонажа, строится на переносе его уникальной стилистики — сочетания ядовито-желтого и глубокого черного — на окружающую действительность. Этот мир предстает как пространство экологического предупреждения, где каждый элемент окрашен в тревожные тона экологической угрозы.

Визуальный язык окружающей среды сознательно копирует эстетику предупреждающих знаков и промышленных маркеров опасности. Символическое наполнение мира работает на нескольких уровнях: ядовитый желтый маркирует точки экологического кризиса, зоны загрязнения и источники опасности, в то время как черный цвет визуализирует последствия — выжженные земли, мертвые зоны, экологическую пустоту. Такое цветовое кодирование превращает обычные городские и природные сцены в карту экологических угроз.

Эмоциональное воздействие строится на создании атмосферы тревожного осознания — мир, увиденный через фильтр экологической чувствительности персонажа, предстает как хрупкая система, находящаяся на грани коллапса. Каждый визуальный элемент становится напоминанием о необходимости бережного отношения к окружающей среде и последствиях бездумного технологического вмешательства.

post

Логика написания промптов: [ОБЪЕКТ] + [ДЕЙСТВИЕ/СРЕДА] + [СТИЛЬ/ДЕТАЛИ].

Контекст — что происходит или где находится. Максимум (8+ слов): защита природы в токсичном лесу, кинематографично.

промт1: city, промт2: watching city

Обучение нейросети проходило на обычном компьютере — без специальной видеокарты, поэтому процесс из 400 шагов занял около 30 минут. Я использовала 17 фотографий из своей папки в интернете, чтобы научить нейросеть создавать похожие изображения.

Технология LoRA позволила не переучивать всю нейросеть с нуля, а только подстроить её под мои задачи — как если бы я не переделывал весь двигатель машины, а просто настроил его под свой стиль вождения. Благодаря этому все 400 шагов обучения были максимально эффективными.

Процесс обучения показывал прогресс в реальном времени: я видел, как с каждым из 400 шагов нейросеть всё лучше понимала, что от неё хотят. К концу обучения она уже достаточно хорошо усвоила особенности моих изображений и была готова генерировать новые картинки в этом же стиле.

Original size 320x320

Мир глазами персонажа размыт и предельно контрастен — очертания среды едва угадываются в ядовито-желтых вспышках и угольно-черных провалах, создавая тревожный образ искаженной реальности. К сожалению, в нейросетях сложно полноценно передать эту концепцию размытого восприятия, где узнаваемые формы тонут в агрессивном цветовом контрасте

Original size 256x256

промт: danger nature

Original size 320x320

промт: warning people

Original size 320x320

промт: protecting nature

Original size 320x320

промт: at sunset

Original size 320x320

промт: observing pollution

Original size 320x320

промт: in rain

Original size 224x224

промт: ruins

Original size 224x224

промт: warning

Original size 982x556

Установка зависимостей

Сначала я поставила основные библиотеки для работы с нейросетями — diffusers и transformers. Потом настроила подключение к Google Drive, чтобы брать картинки из моего облака и сохранять туда результаты

Начала с конфигурации — прописала пути к папкам, выбрала Stable Diffusion 1.5 как базовую модель, выставила размер изображений 512×512 и количество шагов обучения. Добавила проверку на GPU, но так как его не было, оставила CPU с float32

Original size 808x357

Проверка доступности GPU

Original size 1017x551

Анализ изображений

В цикле обучения организовала процесс: берём картинку, превращаем в латентные векторы, добавляем шум, учим нейросеть этот шум убирать. Следила за loss — чем он меньше, тем лучше идёт обучение. Каждые 100 шагов сохранял промежуточные результаты

В конце добавила генерацию тестовых изображений, чтобы проверить результат. Настроила простые промпты и вывод картинок прямо в ноутбук для быстрого просмотра

Original size 863x371

Запуск модели обучения

Итоги работы

Итоговые изображения демонстрируют узнаваемое следование первоначальной концепции — в них прослеживается характерный контраст ядовито-желтого и глубокого черного, создающий тревожную атмосферу экологического предупреждения, однако технические ограничения нейросети не позволили в полной мере реализовать художественный замысел, особенно в передаче сложных абстрактных идей и тонких визуальных метафор, но общая стилистическая направленность сохранилась

Обучение генеративной нейросети персонажу Чу
2
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more