Original size 1140x1600

Обучение генеративной нейросети Stable Diffusion

PROTECT STATUS: not protected
2
The project is taking part in the competition

Идея проекта

Мне захотелось обучить генеративную нейронную сеть Stable Diffusion создавать персонажей в моём стиле, чтобы упростить и ускорить работу над иллюстрациями. Ведь имея готовую основу, её гораздо проще доработать, чем создавать что-то с нуля

При этом я не планирую ограничиваться только своим стилем. Мне также хочется исследовать новые векторы для будущих работ, например, попробовать добавить цвет или найти решения для паттернов

Список использованных инструментов:

Stable Diffusion — обучение генеративной нейросети под свой стиль Google Colab — выполнение кода и генераций Hugging Face — получение токена для обучения Adobe Photoshop — для создания обложки проекта, создания визуализаций

Исходные изображения

Отличительные черты артов: — изображение фантастических существ — чёрно-белая цветовая палитра — центральная композиция — индивидуальность объекта — штриховка

Процесс обучения

1. Установка программ Я скопировала и запустила команды для установки необходимых библиотек. Далее создала папку «ko» в Google Colab. Эта папка стала хранилищем для моих исходных изображений.

big
Original size 2904x1332

2. Загрузка изображений Перешла в созданную папку и загрузила в нее 10 своих изображений.

После нужно было создать описание к изображениям. Я использовала модель BLIP, которая автоматически проанализировала каждое мое изображение и сгенерировала к нему текстовое описание. Эти описания сохранились в файл metadata.jsonl.

0

После этого нужно было создать учетную запись Hugging Face, чтобы получить доступ к моделям Stable Diffusion и иметь возможность сохранять результаты обучения.

Original size 2894x1260

3. Обучение Запустила процесс обучения DreamBooth с LoRA. В параметрах указала: обучать на моих изображениях из папки «ko», использовать промпт-триггер «picture in the KAR style», обучать 500 шагов, сохранять промежуточные результаты каждые 250 шагов

4. Создание изображений После загрузки модели на GPU я получила возможность генерировать новые изображения, используя промпты с ключевой фразой «KAR style», чтобы активировать обученный стиль.

Original size 2902x1278

Результаты обучения

«KAR style picture, butterfly» «KAR style picture, black and white butterfly»

«KAR style picture, A hot air balloon surrounded by meteorites, black and white»

«KAR style picture, woman with package» «KAR style picture, woman with package black and white»

Первые промты показали, что нейросеть по умолчанию создаёт цветные изображения, поэтому в запрос пришлось добавить условие «чёрно-белое». После добавления этого уточнения изображение стали монохромными

Original size 1024x1024

«KAR style picture, black and white wolf»

Интересно, что нейросеть передала ощущение рисунков на отдельных листах, добавляя по бокам изображения другие листки. Время от времени можно было увидеть даже лежащую рядом ручку

0

«KAR style picture, black and white dandelion» «KAR style picture, black and white blades of grass and the inscription» «KAR style picture, black and white burdock»

«KAR style picture, line linear black white cat in hat» «KAR style picture, black and white cat»

Среди загруженных изображений было много таких, где объект уходит за край (не всегда получается грамотно рассчитать композицию на листе). Интересно, что эта особенность тоже перенеслась на изображения, которые генерировала нейросеть

Original size 1024x1024

«KAR style picture, lion»

«KAR style picture, lined man in the hood»

«KAR style picture, pink and green lined fish with big eyes» «KAR style picture, black and white lined fish with big eyes "

Меня не оставляла идея добавить цвет, и, к своему удивлению, получила неплохой результат. Сначала я думала, что всё дело в ограниченной палитре, но последующие эксперименты опровергли эту догадку

Original size 1024x1024

«KAR style picture, black and white ufo»

«KAR style picture, black and white many eyes and a confused face» «KAR style picture, snow-covered Christmas tree linear black and white»

Здесь появились какие-то паттерны, это выглядит любопытно. Обычно я редко использую такой приём, но, как мне кажется, он очень хорошо попал в стилистику

«KAR style picture, black and white frog in the swamp» «KAR style picture, black and white a hare in the bushes»

Здесь нейросеть ушла в гиперреализм: фон стилистически верный, а персонажи получились излишне реалистичными

«KAR style picture, line carrot» «KAR style picture, linear raspberry on bush berries "

И снова попытка добавить цвет. По непонятным причинам изображения снова стали превращаться в паттерн, а цвета, хоть и выглядят приемлемо, недостаточно живые

0

возможные варианты применения графики

Анализ результата

Работы получались лучше, когда в промте были указаны «чёрно-белая палитра» и «линейность», результат часто оказывался очень близок к моему стилю. Однако при попытке добавить цвет нейросеть начинала придумывать собственные решения, и изображения получались менее убедительными, и, к сожалению, найти интересное цветовое решение, подходящее под стилистику, не удалось. В то же время с паттернами дело обстоит куда лучше: было найдено несколько приятных решений, которые хотелось бы применить в дальнейшем
Тем не менее, я считаю, что обучение нейросети прошло успешно: итоговый результат очень напоминает исходный стиль. В таком формате модель можно использовать для создания начального эскиза, который затем дорабатывается вручную. Это действительно может значительно ускорить рабочий процесс

Ссылка на код и датасет

Обучение генеративной нейросети Stable Diffusion
2
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more