Original size 1140x1600

Обучение генеративной модели Stable Diffusion стилю спрайтов Hades

PROTECT STATUS: not protected

Концепция

Одна из моих любимых серий игр — Hades, благодаря ее харизматичному сеттингу мифологии Древней Греции и особенно уникальному визуальному стилю. Несмотря на широкое разнообразие персонажей и образов, выборка мифологических персонажей все еще ограничена, и мне стало интересно представить, как еще могли бы выглядеть другие герои мифов и легенд Древней Греции.

Референсы

Обучение модели

Выполнив приготовления (проверка GPU, загрузка необходимых библиотек), я загрузила датасет из 79 изображений — официальных концептов и спрайтов Hades и Hades 2.

big
Original size 571x741
Original size 1112x469

После этого, при помощи BLIP для изображений были сгенерированы промпт-описания для дальнейшего обучения модели.

Original size 1114x732

После этого, я приступила к обучению модели с разрешением 512 и количеством шагов обучения 500, чтобы иметь возможность несколько раз переобучить модель без значительных затрат по времени.

Original size 902x571

Серия изображений

Тритон. Промпт: image in HADES style, a massive titan with blue river-like hair and a beard

Original size 1134x646

Прежде, у Тритона была предыдущая итерация, в белом цвете и попытках создать бога-русала.

Original size 1024x1024
Original size 1138x741

Дафна, превращающаяся в дерево

Original size 1132x682

Модель не справлялась с промптом и генерировала только портрет, поэтому пришлось подойти к оформлению промпта по другому и переписать его.

Original size 1135x688
Original size 1024x1024

Промпт: image in HADES style, a laurel tree that looks like a woman

Original size 1024x1024

Гигиея

Original size 1024x1024

Бог ветров. Промпт: image in HADES style, a wind spirit with puffy cheeks

Original size 1024x1024

Промпт: image in HADES style, a trickster holding two-faced mask

Вывод

Нейросеть научилась наполнять картинку деталями и динамикой, достигаемой в большей степени засчет движения волос, одежд и иных элементов, а также ставить персонажей в подобные спрайтам позы. Кроме этого, она научилась раскладывать цвета, цветовые плоскости и оттенки схожим с референсным образом. Также, она научилась вписывать их в абстрактный фон, поддерживающий дизайн персонажа и гармонизирующий с ним. Однако добиться внятной анатомии от нее так и не удалось — возможно, нейросети нужно больше времени на обучение, а также — более корректные промпты при использовании BLIP, которые в особенно сложных случаях (например, при дизайне персонажей) уместно описывать вручную.

Однако главное с чем не способна справиться нейросеть — сделать такие же продуманные и интересные дизайны персонажей, которые бы элегантно вместили в себя всю суть, как это удается концепт-художникам студии. Чтобы добиться сколько нибудь стоящего результата, понадобится потратить немалое количество усилий и еще больше — времени на отладку датасета, обучение моделей и корректирования промптов. Художники студии справились бы с задачей по созданию новых дизайнов намного более эффективно и качественно.

Применение генеративных моделей:

— Stable Diffusion XL — обучение модели генеративной сети выбранному стилю — BLIP — нейросеть для создания промптов на основе изображений — DeepSeek — создание списка возможных персонажей и промптов для их генерации при помощи модели

Обучение генеративной модели Stable Diffusion стилю спрайтов Hades
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more