Original size 2480x3500

Обучение генеративной модели Stable Diffusion стилю Жана Мишеля Баскии

PROTECT STATUS: not protected

Концепция

Для этого проекта я решила обучить нейросеть Stable Diffusion XL создавать изображения в узнаваемом стиле Жана-Мишеля Баския — одного из самых влиятельных художников нео-экспрессионизма конца XX века.

Баския известен своим уникальным стилем, сочетающим примитивизм, граффити, яркие цвета и элементы поп-культуры с глубокими социальными комментариями. Его работы наполнены символизмом, анатомическими рисунками, короноподобными структурами и необработанными, энергичными линиями.

Исходные картины

big
Original size 635x461
0

Для обучения модели я собрала датасет из 22 картин Баския, включающий его наиболее характерные работы:

Датасет

Обучение модели

1/ Подготовка данных

Для обучения модели в стиле Жана-Мишеля Баския был собран датасет из 22 изображений его наиболее характерных работ. Изображения были предварительно обработаны:

- Преобразованы в формат PNG - Размещены в директории ./cher/

2/ Инфраструктура обучения

Обучение производилось в Google Colab на бесплатном GPU T4, используя передовые техники для оптимизации памяти и вычислений:

- Gradient checkpointing - 8-битная оптимизация Adam - Смешанная точность (Mixed precision, fp16)

3/ Основные параметры обучения

Для обучения использовался метод DreamBooth с LoRA (Low-Rank Adaptation), позволяющий значительно сократить требования к памяти при сохранении качества результатов:

- Базовая модель: stabilityai/stable-diffusion-xl-base-1.0 - Оптимизированный VAE: madebyollin/sdxl-vae-fp16-fix - Размер батча: 2 - Шаги градиентного накопления: 3 - Скорость обучения: 1e-4 - Общее количество шагов обучения: 500 - Промпт для обучения: «In the style of BASQUIAT»

Код для обучения

Использовался скрипт train_dreambooth_lora_sdxl.py из репозитория Diffusers. Основные шаги:

Установка необходимых библиотек:

Original size 1442x256

Загрузка скрипта обучения

Original size 1418x256

Подготовка изображений и автоматическое создание подписей с использованием модели BLIP:

Original size 1414x618

Запуск обучения:

Original size 1398x1044

Результаты обучения

По окончании обучения модель сохранена в формате LoRA весов для последующего использования с базовой моделью Stable Diffusion XL.

- basquiat_style_LoRA/adapter_model.safetensors (финальная версия после 500 шагов)

Генерация изображений

Original size 1408x866

Наблюдения и выводы

1. Модель успешно усвоила ключевые элементы стиля Баския даже на небольшом датасете. 2. Использование LoRA позволило эффективно обучить модель на ограниченных вычислительных ресурсах. 3. Автоматически сгенерированные BLIP подписи в сочетании с префиксом «In the style of BASQUIAT» улучшили результаты обучения.

Результирующая серия изображений

Original size 1024x1024
0

Стилистические характеристики изображений

1. Цветовая палитра: Модель успешно адаптировала яркую, контрастную палитру Баския, используя его характерные черный, красный, желтый и синий цвета. 2. Линии и формы: Грубые, энергичные линии, незавершенные формы и примитивистский подход к анатомии — все это присутствует в сгенерированных изображениях. 3. Композиция: Хаотичное, но при этом сбалансированное размещение элементов на холсте с характерными для Баския пустыми пространствами и слоистостью изображения.

Original size 1024x1024
Original size 1024x1024

Полученные изображения успешно совмещают узнаваемую эстетику Баския с современными темами и персонажами. Обученная модель демонстрирует понимание не только визуальных аспектов стиля художника, но и концептуальный подход к изображаемым объектам.

Сгенерированная модель

Блокнот с кодом

Особенности генерации

В процессе обучения использовался метод DreamBooth с LoRA (Low-Rank Adaptation), что позволило с минимальными вычислительными ресурсами адаптировать большую модель Stable Diffusion XL под конкретный стиль. Для обучения было достаточно 500 шагов.

Особую роль в успешной генерации сыграли:

- Использование префикса «In the style of BASQUIAT» в промтах - Применение автоматических подписей BLIP для обогащения датасета - Настройка параметра lora_scale для контроля силы стилизации

Визуальный анализ

Несмотря на общую стилистическую согласованность, каждое изображение в серии имеет свои уникальные черты. Модель демонстрирует вариативность в рамках одного стиля:

- В одних работах преобладают яркие красные и желтые тона - В других доминирует черно-белая графика с акцентированными цветовыми вставками - Третьи демонстрируют многослойность и «перегруженность» элементами

Эта вариативность соответствует творчеству самого Баския, который экспериментировал с различными подходами в рамках своего узнаваемого стиля.

Использование генИИ в проекте

В рамках этого проекта помимо обученной нейросети Stable Diffusion XL был использован ГенИИ Claude 3.7 Sonnet для следующих целей:

1. Формулировка концепции и идеи 2. Написание экспликации к проекту 3. Структурирование процесса обучения и разъяснение технических аспектов DreamBooth и LoRA

Использование ГенИИ позволило эффективно структурировать информацию о проекте.

Обучение генеративной модели Stable Diffusion стилю Жана Мишеля Баскии
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more