Original size 2480x3500

А когда весна?

PROTECT STATUS: not protected
2
The project is taking part in the competition

Концепция

Я решила обучить модель именно такому стилю, потому что в преддверии Нового года душа особенно остро начинает скучать по весне. Эта модель — мой способ сбежать от зимней монохромности.

Я обучаю модель генерировать весенние изображения, потому что после относительно близких новогодних праздников у многих наступает зимняя хандра, и люди ищут способы визуально «перезагрузиться». Моя модель отвечает на этот запрос — она дает возможность быстро создать картинку, которая напоминает о скором тепле и помогает бороться с сезонной усталостью от серости и холода.

Это исследование контраста — искусственный интеллект, вдохновленный самым естественным и жизнеутверждающим из сезонов.

Исходные изображения для составления датасета также были сгенерированы с помощью нейросети, поскольку мне было интересно узнать, как разные ИИ модели представляют весну. Для этого я воспользовалась сервисом Krea.

big
Original size 1920x1080

Изображения сгенерированы с помощью нейросети Krea

big
Original size 1920x920

Изображения сгенерированы с помощью нейросети Krea

В нейросети Krea я сгенерировала несколько изображений по промту, после чего использовала их как референс, чтобы последующее обучение моей модели происходило на похожих изображениях.

promt

Generate a spring image, a blue background, and use bright accent colors: red, pink, white, and green. The image should be a 2D illustration with gradient shadows, and it should look minimalistic and organic. Use the following scenarios in your images: flowers, hands, rabbits, and cats.

Original size 1920x1080

Изображения сгенерированы с помощью нейросети Krea

Обучение

Итоговый датасет для обучения модели составил 74 изображения.

Original size 4942x947

В своем проекте я обучала урезанную версию Stable Diffusion 1.5, так как полная SDXL версия требовала слишком много видеопамяти и не запускалась даже на Коллабе с применением оптимизаций вроде градиентного чекпоинтинга.

Для обучения использовался датасет из квадратных центрированных изображений. Модель обучалась 700 итераций с пониженной скоростью обучения, чтобы избежать переобучения на небольшом датасете. Ключевой элемент — специальное триггерное слово, которое активирует изученный стиль в промптах.

Original size 3239x1360

Для тестирования я использую итоговую ячейку с промптом: применяю триггерное слово и экспериментирую, добавляя свои описания.

Original size 3239x1304

Итоговые генерации

Изначально я рассчитывала на то, что модель в точности повторит изображения из датасета.

Original size 2048x2048

К сожалению, мне не удалось достичь повторения стиля из-за ограничения бесплатных генераций в Krea, в следствии чего датасет получился небольшим. Однако, поразмышляв над своей темой еще раз, я поняла, что полученные изображения — видение весны именно моей модели. В своем проекте я использую разные нейросети, чтобы продемонстрировать контраст четкого ИИ и воодушевляющей весны.

Разные нейросети — разная весна.

Я не стала дожидаться дополнительных бесплатных генераций, чтобы дообучить модель, так как ощущение прихода весны она сумела перенять из датасета. Именно оно и было моей целью.

Original size 3239x1420
Original size 1920x1080

В итоговой серии изображений представлены ощущения от долгожданного потепления и прихода того самого любимого сезона года — весны. С помощью слова-триггера и дополнительного промта я смогла сгенерировать сразу целую серию из нескольких тем: цветы, весна, кролик, руки, солнце, жуки и бабочки. Я подобрала именно такие промты, так как для меня они наиболее тесно ассоциируются с весной.

Моя модель видит весну именно таким образом.

Original size 1920x919
Original size 1920x919

В созданных генерациях удалось воспроизвести чувство прихода весны, примерную цветовую гамму и атмосферу. Из-за ограничений в количестве фото датасета не удалось повторить четкую форму и композицию. Однако, я считаю, что первоначальная идея взглянуть на весну глазами ИИ все же воплотилась в реальность.

Иногда технические ограничения открывают новые пути для творчества. Невозможность точно воспроизвести композицию заставила алгоритм сосредоточиться на самом главном — на эмоции.

Original size 1920x1080

Основные инструменты

Stable Diffusion — обучение генеративной нейросети под свой стиль

Google Colab — выполнение кода и генераций

Krea — создание изображений для датасета

Дополнительные инструменты

ILoveIMG — нейросеть для улучшения изображений

А когда весна?
2
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more