Обучение генеративной нейросети Stable Diffusion под стиль Поля Гогена на HSE Design

Я испытываю больше и нежную любовь к постимпрессионизму, в частности к невероятному Полю Гогену. Он один из немногих художников, чьи работы заставляют меня плакать каждый раз, когда я встречаюсь с ними в музеях. Гоген — художник с очень узнаваемым стилем: плоские насыщенные цвета, чёткий контур, упрощённые формы и особая атмосфера тишины и отстранённости. Его работы не столько про реализм, сколько про декоративность и ощущение. Именно поэтому его стиль был выбран для обучения нейросети. Задача состояла не просто в том, чтобы модель воспроизводила тропические сюжеты, а в том, чтобы она смогла уловить сам принцип визуального языка художника — его работу с цветом, формой и композицией.

Работы для обучения

Для датасета были отобраны работы из таитянских периодов (1891–1893 и 1895–1903), так как именно в них наиболее ярко проявляются характерные приёмы художника: антинатуралистичная цветовая палитра, плоскостность изображения и монументальные фигуры. Некоторые из работ: «А, ты ревнуешь?» 1892 г; «Желтый Христос» 1889 г; «Дорога на Таити» 1891 г; «Жена Короля» 1896 г. и т. д.

Исходный размер 2264x410

Работы, взятые для обучения нейросети

Бретонский период намеренно не включался, поскольку он ближе к импрессионизму и мог бы «размыть» стилистическую целостность выборки. В итоговый датасет вошли изображения разных жанров: портреты, пейзажи, групповые сцены и натюрморты.

Исходный размер 1000x500

Работы, взятые для обучения нейросети

Дополнительным плюсом стало то, что работы Гогена находятся в общественном достоянии и не ограничены авторским правом, поэтому их можно было свободно использовать при сборе датасета

Результаты обучения

В результате было получено несколько изображений в разных жанрах: портрет, пейзаж, групповая сцена, натюрморт и ночные сцены. Такой разброс был выбран, чтобы проверить, насколько стабильно модель переносит стиль при разном содержании

Итоговые генерации

Наиболее точно модель воспроизвела цветовую палитру: насыщенные охристые, красные, синие и зелёные оттенки, характерные для работ Гогена. Также хорошо передана плоскостность изображения. Формы лишены выраженного объёма, а цвет распределяется крупными однородными пятнами.

Итоговые генерации

Особенно удачно это проявляется в ночных сценах, где фон приобретает декоративный характер: элементы пейзажа воспринимаются скорее как орнамент, чем как реалистичное пространство.

Итоговые генерации

При этом лица персонажей часто оказываются более упрощёнными, чем в оригинальных работах, и теряют индивидуальные черты. С одной стороны, это можно считать недостатком, с другой — это усиливает примитивистский эффект, присутствующий в работах самого художника.

Исходный размер 2254x1106

Итоговая генерации

В натюрмортах модель частично отклоняется от стиля, добавляя более реалистичную детализацию, что делает их менее точными с точки зрения стилистики.

Итоговые генерации

В целом серия получилась разнообразной, но стилистически цельной. Наблюдаются закономерности в использовании цвета (холодная гамма в ночных сценах и тёплая в дневных), что указывает на то, что модель усвоила не только визуальные элементы, но и общий принцип работы со стилем.

Код и обучение

Обучение проводилось с использованием метода DreamBooth LoRA на базе модели Stable Diffusion XL. LoRA позволяет не переобучать всю модель целиком, а добавлять небольшой обучаемый слой, который отвечает за запоминание стиля. Это делает процесс быстрее и менее требовательным к ресурсам

Ноутбук был адаптирован под среду Kaggle: изменены пути к файлам, отключена интеграция с Google Drive, а датасет загружен через систему Kaggle Datasets.

Поскольку датасет небольшой (12 изображений), параметры обучения подбирались с учётом риска переобучения: количество шагов увеличено до 1500, скорость обучения снижена до 5e-5, а параметр rank для LoRA уменьшен до 8.

Обучение заняло около 4 часов.

Изначально обучение планировалось в Google Colab, однако из-за ограничения бесплатного доступа к GPU работа была перенесена в Kaggle Notebooks, где доступно до 30 часов GPU в неделю.

Код