
Идея проекта
Мне захотелось обучить генеративную нейронную сеть Stable Diffusion создавать персонажей в моём стиле, чтобы упростить и ускорить работу над иллюстрациями. Ведь имея готовую основу, её гораздо проще доработать, чем создавать что-то с нуля
При этом я не планирую ограничиваться только своим стилем. Мне также хочется исследовать новые векторы для будущих работ, например, попробовать добавить цвет или найти решения для паттернов
Список использованных инструментов:
Stable Diffusion — обучение генеративной нейросети под свой стиль Google Colab — выполнение кода и генераций Hugging Face — получение токена для обучения Adobe Photoshop — для создания обложки проекта, создания визуализаций
Исходные изображения


Отличительные черты артов: — изображение фантастических существ — чёрно-белая цветовая палитра — центральная композиция — индивидуальность объекта — штриховка
Процесс обучения
1. Установка программ Я скопировала и запустила команды для установки необходимых библиотек. Далее создала папку «ko» в Google Colab. Эта папка стала хранилищем для моих исходных изображений.

2. Загрузка изображений Перешла в созданную папку и загрузила в нее 10 своих изображений.
После нужно было создать описание к изображениям. Я использовала модель BLIP, которая автоматически проанализировала каждое мое изображение и сгенерировала к нему текстовое описание. Эти описания сохранились в файл metadata.jsonl.
После этого нужно было создать учетную запись Hugging Face, чтобы получить доступ к моделям Stable Diffusion и иметь возможность сохранять результаты обучения.
3. Обучение Запустила процесс обучения DreamBooth с LoRA. В параметрах указала: обучать на моих изображениях из папки «ko», использовать промпт-триггер «picture in the KAR style», обучать 500 шагов, сохранять промежуточные результаты каждые 250 шагов


4. Создание изображений После загрузки модели на GPU я получила возможность генерировать новые изображения, используя промпты с ключевой фразой «KAR style», чтобы активировать обученный стиль.
Результаты обучения






Первые промты показали, что нейросеть по умолчанию создаёт цветные изображения, поэтому в запрос пришлось добавить условие «чёрно-белое». После добавления этого уточнения изображение стали монохромными
Интересно, что нейросеть передала ощущение рисунков на отдельных листах, добавляя по бокам изображения другие листки. Время от времени можно было увидеть даже лежащую рядом ручку


Среди загруженных изображений было много таких, где объект уходит за край (не всегда получается грамотно рассчитать композицию на листе). Интересно, что эта особенность тоже перенеслась на изображения, которые генерировала нейросеть




Меня не оставляла идея добавить цвет, и, к своему удивлению, получила неплохой результат. Сначала я думала, что всё дело в ограниченной палитре, но последующие эксперименты опровергли эту догадку


Здесь появились какие-то паттерны, это выглядит любопытно. Обычно я редко использую такой приём, но, как мне кажется, он очень хорошо попал в стилистику


Здесь нейросеть ушла в гиперреализм: фон стилистически верный, а персонажи получились излишне реалистичными


И снова попытка добавить цвет. По непонятным причинам изображения снова стали превращаться в паттерн, а цвета, хоть и выглядят приемлемо, недостаточно живые
Анализ результата
Работы получались лучше, когда в промте были указаны «чёрно-белая палитра» и «линейность», результат часто оказывался очень близок к моему стилю. Однако при попытке добавить цвет нейросеть начинала придумывать собственные решения,
и изображения получались менее убедительными,
и, к сожалению, найти интересное цветовое решение, подходящее под стилистику, не удалось.
В то же время с паттернами дело обстоит куда лучше: было найдено несколько приятных решений, которые хотелось бы применить в дальнейшем
Тем не менее, я считаю, что обучение нейросети прошло успешно: итоговый результат очень напоминает исходный стиль. В таком формате модель можно использовать для создания начального эскиза, который затем дорабатывается вручную. Это действительно может значительно ускорить рабочий процесс
Ссылка на код и датасет