
Концепция
Я решила обучить модель именно такому стилю, потому что в преддверии Нового года душа особенно остро начинает скучать по весне. Эта модель — мой способ сбежать от зимней монохромности.
Я обучаю модель генерировать весенние изображения, потому что после относительно близких новогодних праздников у многих наступает зимняя хандра, и люди ищут способы визуально «перезагрузиться». Моя модель отвечает на этот запрос — она дает возможность быстро создать картинку, которая напоминает о скором тепле и помогает бороться с сезонной усталостью от серости и холода.
Это исследование контраста — искусственный интеллект, вдохновленный самым естественным и жизнеутверждающим из сезонов.
Исходные изображения для составления датасета также были сгенерированы с помощью нейросети, поскольку мне было интересно узнать, как разные ИИ модели представляют весну. Для этого я воспользовалась сервисом Krea.


В нейросети Krea я сгенерировала несколько изображений по промту, после чего использовала их как референс, чтобы последующее обучение моей модели происходило на похожих изображениях.
promt
Generate a spring image, a blue background, and use bright accent colors: red, pink, white, and green. The image should be a 2D illustration with gradient shadows, and it should look minimalistic and organic. Use the following scenarios in your images: flowers, hands, rabbits, and cats.
Обучение
Итоговый датасет для обучения модели составил 74 изображения.
В своем проекте я обучала урезанную версию Stable Diffusion 1.5, так как полная SDXL версия требовала слишком много видеопамяти и не запускалась даже на Коллабе с применением оптимизаций вроде градиентного чекпоинтинга.
Для обучения использовался датасет из квадратных центрированных изображений. Модель обучалась 700 итераций с пониженной скоростью обучения, чтобы избежать переобучения на небольшом датасете. Ключевой элемент — специальное триггерное слово, которое активирует изученный стиль в промптах.
Для тестирования я использую итоговую ячейку с промптом: применяю триггерное слово и экспериментирую, добавляя свои описания.
Итоговые генерации
Изначально я рассчитывала на то, что модель в точности повторит изображения из датасета.
К сожалению, мне не удалось достичь повторения стиля из-за ограничения бесплатных генераций в Krea, в следствии чего датасет получился небольшим. Однако, поразмышляв над своей темой еще раз, я поняла, что полученные изображения — видение весны именно моей модели. В своем проекте я использую разные нейросети, чтобы продемонстрировать контраст четкого ИИ и воодушевляющей весны.
Разные нейросети — разная весна.
Я не стала дожидаться дополнительных бесплатных генераций, чтобы дообучить модель, так как ощущение прихода весны она сумела перенять из датасета. Именно оно и было моей целью.
В итоговой серии изображений представлены ощущения от долгожданного потепления и прихода того самого любимого сезона года — весны. С помощью слова-триггера и дополнительного промта я смогла сгенерировать сразу целую серию из нескольких тем: цветы, весна, кролик, руки, солнце, жуки и бабочки. Я подобрала именно такие промты, так как для меня они наиболее тесно ассоциируются с весной.
Моя модель видит весну именно таким образом.
В созданных генерациях удалось воспроизвести чувство прихода весны, примерную цветовую гамму и атмосферу. Из-за ограничений в количестве фото датасета не удалось повторить четкую форму и композицию. Однако, я считаю, что первоначальная идея взглянуть на весну глазами ИИ все же воплотилась в реальность.
Иногда технические ограничения открывают новые пути для творчества. Невозможность точно воспроизвести композицию заставила алгоритм сосредоточиться на самом главном — на эмоции.
Основные инструменты
Stable Diffusion — обучение генеративной нейросети под свой стиль
Google Colab — выполнение кода и генераций
Krea — создание изображений для датасета
Дополнительные инструменты
ILoveIMG — нейросеть для улучшения изображений