

В качестве материала для обучения модели я выбрала работы Альфонса Мухи — иллюстратора из Чехии, который прославился благодаря своим работам в стиле ар-нуво. Его стиль очень узнаваем, каждый видел эти изображения девушек с замысловатыми узорами на фоне.


Итоговая серия изображений

Планировалось создать серию изображений, выполненных в стиле Мухи, с разнополыми персонажами, сохраняя ключевые элементы его эстетики: орнаментальность, плавные линии, использование растительных мотивов и приглушенную цветовую палитру.
Итоговая серия изображений демонстрирует неоднозначные результаты. Нейросеть успешно воспроизвела основные элементы стиля Мухи, однако, ключевой особенностью стало выраженное доминирование женских образов. Практически все промпты, даже с нейтральным описанием, приводили к генерации женских фигур. Для создания изображений мужчин требовалось явное указание на маскулинность («очень маскулинный мужчина»).
Помимо гендерных сложностей с мужскими образами, генерация животных также представляла значительную трудность. Большую часть времени нейросеть, даже при прямом указании на животный объект, пыталась интегрировать его черты в женский образ, создавая гибридные существа или стилизованные женские фигуры с элементами фауны. Попытки получить чисто животные изображения часто терпели неудачу, требуя значительной корректировки промптов и множества итераций.
Этот факт выявляет интересную особенность: феминная стилистика Альфонса Мухи, очевидно, сильно запечатлена в обучающей выборке и нейросети. Это может быть связано с тем, что большинство знаковых работ художника изображают женщин. Нейросеть, таким образом, не просто воспроизводит стиль, но и улавливает гендерные стереотипы, присутствующие в оригинальном творчестве.
Это подчеркивает, что нейросеть лучше «понимает» и воспроизводит женскую эстетику в контексте стиля Мухи. Идея проекта была в том, чтобы перенести стиль художника на новые образы, но выявилось, что «перенос» почти невозможен — суть стиля Мухи слишком прочно связана с феминностью.
Процесс обучения и ноутбук с кодом
Процесс обучения, реализовывался в SDXL DreamBooth LoRA Colab, предварительно обученной модели Stable Diffusion XL (SDXL) с использованием алгоритма DreamBooth и техники LoRA, как было показано в лекциях. Это позволило привить модели новые концепции или стили, используя не огромное количество, а всего 100 обучающих изображений.
Описание применения генеративной модели
• Основная концепция DreamBooth: • Название: DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation • Ссылка (статья): https://dreambooth.github.io/ (Оригинальная статья, описывающая алгоритм DreamBooth)
• Основная концепция LoRA: • Название: LoRA: Low-Rank Adaptation of Large Language Models
• Stable Diffusion XL (SDXL): • Модель: Stability AI Stable Diffusion XL (SDXL) • Ссылка (Hugging Face Hub): https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
• Imagewith AI: • Улучшение качества полученных изображений • Ссылка: https://overscale.imagewith.ai/