Обучение генеративной нейросети под собственный стиль рисования на HSE Design

Идея проекта

Идея проекта заключалась в до-обучении нейросети на собственном стиле рисования.

Особенности стиля: использование аэрографа и лассо, стилизованные волосы и складки, «рендер» поверхностей с отчетливым контуром после лассо и аэрографа, следы «карандашного» контура.

Часть работ — крупные портреты, сделанные по фото или кадрам из фильмов. Часть работ — стадики скульптур двух скульпторов с отличительными чертами стиля: Бет Кавенер (животные) и Choi Xooang (люди).

Итоговая цель: получить серию с людьми и животными в похожих локациях и цветовой гамме, с узнаваемым почерком.

Исходные изображения для обучения

Для до-обучения нейросети изображения были уменьшены и кадрированы до размера 512×512 пикселей. В блоке приводятся изображения в своем исходном размере. Всего в датасете было 12 изображений.

Исходный размер 4181x2480

Исходный размер 3508x2480

Процесс обучения

Обучение было выполнено со следующими настройками: -resolution=512 -max_train_steps=1000 -checkpointing_steps=250

В остальном соответствовало базовому обучению с курса.

.ipynb

Обучение длилось полтора часа, после чего модель была выгружена на Hugging face.

hugging face

Для удобства в ноутбук был добавлен код для множественной генерации (в одной ячейке несколько промтов), а так же возможность сохранять получившиеся изображения в папку outputs. Изображения сохранялись со временем генерации + промтом, по которому были сгенерированы.

Так же была добавлена возможность упаковать папку в zip, чтобы в последующем скачать за одно действие.

Данные изменения были осуществленны с помощью Chat GPT.

Исходный размер 1932x805

Первые иттерации

Первые генерации были выполнены со 100% влиянием дообучения. Хотя часть стилевых черт удалось ухватить, картинки все еще были не такого высокого качества.

Исходный размер 996x997

Здесь видно, как нейросетью был ухвачен стиль волос и челки, сделанный лассо.

Исходный размер 991x993

Лиса уже имеет черты фактурной шерсти, как в примерах, пусть и идет в комплекте с некоторой размытостью и артефактами.

Исходный размер 1024x1024

С добавлением окружения картинка стала чуть лучше, все еще сохраняется текстура волос.

Исходный размер 1024x1024

На этом изображении хорошо переданы мазки лассо на лице: видны явные контуры. В целом наиболее удачная картинка в контексте похожести. *Ни одной из картин не удалось сохранить карандашного подслоя, возможно это не было так явно выражено в датасете.

Итоговая серия изображений

Генерации были выполнены со следующими настройками: pipe.load_lora_weights («rybkakon_style_LoRA/checkpoint-500») pipe.fuse_lora (lora_scale=0.8)

С помощью Chat GPT были созданы промты для генерации. Они содержали следующее:

— Главный персонаж: девушка, парень, животное. — Локация: улица города, поле с цветами, снежный лес, дождливая улица, ночной город, темный лес. — Цвета: серый, синий, желтый, салатовый, белый, рыжий. — Животные: лиса, волк, олень, фенек, собака, кот, фенек, заяц.

Люди

Из-за того, что в датасете в основном были темноволосые и азиаты, они получались у нейросети ближе всего. В данной выборке отлично видно, как рыжие люди становятся более реалистичными, чем стилизованными. *То же самое с людьми на темном фоне. Появились яркие блики и более агрессивный рендер. На части картинок у персонажей отстутствуют зрачки.

Исходный размер 1024x1024

digital art in rybkakon render style, portrait of a young boy with freckles and a yellow hoodie, upper body, in front of an old bookstore at night, gradient background from navy blue to cyan

Исходный размер 1024x1024

digital art in rybkakon render style, portrait of a girl with green eyes and a fluffy scarf, upper body, standing under a flickering neon sign in a night city, gradient background

Исходный размер 1024x1024

digital art in rybkakon render style, portrait of a young boy with glasses and a white shirt, upper body, standing near a glowing vending machine at dusk, gradient background from white to turquoise

Исходный размер 1024x1024

digital art in rybkakon render style, portrait of a young boy with a cap and a striped shirt, upper body, near a subway entrance in the morning light, gradient background from white to pale turquoise

Исходный размер 1024x1024

digital art in rybkakon render style, portrait of a young boy with white-blonde hair and a blue jacket, upper body, standing in a quiet city street at sunrise, gradient background from light grey

Исходный размер 1024x1024

digital art in rybkakon render style, portrait of a young boy with silver hair and a pale scarf, upper body, walking down a snowy forest path, gradient background from white to icy blue

Исходный размер 1024x1024

digital art in rybkakon render style, portrait of a girl with silver-blue hair and a long braid, upper body, standing in a snowy forest, gradient background

Исходный размер 1024x1024

digital art in rybkakon render style, portrait of a young boy with a green beanie and round glasses, upper body, near a flower stall on a sunny street, gradient background from lemon yellow to green

Исходный размер 1024x1024

digital art in rybkakon render style, a girl lying in a field of flowers, full body, under a bright blue sky, gradient background from white to light yellow

Исходный размер 1024x1024

digital art in rybkakon render style, portrait of a young boy with tousled ginger hair and freckles, upper body, standing in a field with yellow flowers, gradient background from soft yellow to light

Исходный размер 1024x1024

digital art in rybkakon render style, portrait of a girl with wavy ginger hair and a flower crown, upper body, sitting in a blooming field under sunlight, gradient background from white to pale yellow

Исходный размер 1024x1024

digital art in rybkakon render style, portrait of a girl with red hair and a yellow beret, upper body, standing by a quiet street café in the morning, gradient background from pale yellow to green

Животные

Хотя нейросеть была обучена всего лишь на трех животных (волк, красный волк и олень), хорошо получались и другие. Например, кошка и собака. При этом мазки оставались считываемыми.

Исходный размер 1024x1024

digital art in rybkakon render style, a ginger cat sleeping under a streetlight in a quiet city, gradient background from white to dusky orange

Исходный размер 1024x1024

digital art in rybkakon render style, a wolf with icy fur, howling in a snowy forest under moonlight, gradient background from silver to cold blue

Исходный размер 1024x1024

digital art in rybkakon render style, a fluffy white dog looking up at glowing windows in a night city, gradient background from dark blue to teal

Исходный размер 1024x1024

digital art in rybkakon render style, a hare with long ears leaping through tall grass at sunset, gradient background from pale yellow to soft green

Исходный размер 1024x1024

digital art in rybkakon render style, a fox with a glowing tail, standing among yellow wildflowers in a field, gradient background from soft green to warm yellow

Исходный размер 1024x1024

digital art in rybkakon render style, a deer with flowers growing from its antlers, walking through a magical forest in the morning, gradient background from green to soft yellow

Описание применения генеративной модели

Для до-обучения и создания изображений была использована модель генеративной нейросети Stable Diffusion.

Для написания промтов по заданым параметрам, а так же для добавления блока с сохранением изображений в zip в kaggle была использована текстовая генеративная нейросеть Chat GPT.