Original size 1140x1600

Обучение генеративной модели под стиль Хелен Хайд

The project is taking part in the competition

Идея проекта

Для своего проекта я выбрала работы Хелен Хайд — американской художницы, известной своими цветными гравюрами и ксилографиями, вдохновлёнными японской культурой. Она считается одной из первых американок, изучивших японские техники печати непосредственно в Японии, и одной из ведущих фигур в движении японского искусства в США конца XIX — начала XX века. Её произведения отличаются тонкой цветовой гаммой и гармоничной композицией, часто рисуется дополнительная рамка вокруг сцены.

Задача проекта — обучить нейросеть анализировать и генерировать изображения, сохраняющие визуальную эстетику и особенности стиля Хелен Хайд.

Примеры работ Хелен Хайд

Датасет

Для обучения нейросети был подготовлен датасет, состоящий из 25 произведений Хелен Хайд, отобранных за их репрезентативность и соответствие характерным особенностям её авторского стиля. Все изображения были предварительно обработаны и унифицированы до квадратного формата размером 1024×1024 пикселя.

Original size 3342x2480

Часть собранного датасета

Процесс обучения

В качестве среды для реализации проекта была выбрана платформа Kaggle. На всех этапах — от подготовки данных до генерации изображений — работа выполнялась в соответствии с инструкциями, представленными в видеоуроках курса.

Original size 1190x675

Этап работы с датасетом включал загрузку изображений и создание индивидуальных подписей при помощи модели BLIP.

Была выполнена интеграция с платформой Hugging Face. Финальным этапом проекта стала генерация изображений.

Notebook

Первые результаты

Первой пробной генерацией стал сюжет с Таймс-сквер в Нью-Йорке. Поскольку модель была обучена преимущественно на работах, изображающих людей, а не архитектуру, приемлемый результат удалось получить лишь при настройке параметра pipe.fuse_lora (lora_scale=0.15). При этом общий художественный почерк Хелен Хайд — характерный покрас, работа с белым пространством, текстура бумаги и карандашные подписи — сохранился.

Для сюжетов с изображением людей процесс оказался значительно проще: результаты получались максимально приближёнными к стилю Хелен Хайд. Единственным недостатком стали артефакты в анатомии и неполная прорисовка лиц.

Тексты и идеи следующих промтов были сгенерированы с помощью ChatGPT:

Original size 3183x1024

Original size 3183x1383

Девочка с зонтиком под сакурой

A small Japanese girl in a detailed kimono holding a paper umbrella, standing under a blooming cherry blossom tree, gentle wind blowing petals, soft pastel watercolor style, delicate paper texture, dreamy and calm atmosphere, highly detailed, soft lighting

Original size 3183x1024

Original size 3183x1383

Играющие дети у пруда с карпами

Children feeding koi fish in a pond, stone bridges and bamboo plants around, reflections in the water, soft pastel watercolor style, gentle color gradients, transparent water, soft shadows, warm and joyful atmosphere, highly detailed, serene scene

Original size 3183x1024

Original size 3183x1383

Девочка и котенок на деревянной веранде

A girl in a kimono playing with a small kitten on a traditional wooden veranda, Japanese garden with stones and a miniature pine tree in the background, warm earthy watercolor tones, detailed textures of kimono and kitten fur, cozy and intimate atmosphere, soft lighting

Чем меньше значение lora_scale, тем больше вероятность, что пропадет характерная черная рамка вокруг изображения

В один момент мне стало интересно, сможет ли модель создавать изображения людей не из азиатского региона — без традиционного японского сеттинга. На первых попытках результат выглядел странно: при запросе «american hip-hop girl» модель чаще всего ограничивалась заменой обуви на кроссовки. Тем не менее такие результаты тоже показались полезными, например, для разработки концептов костюмов или персонажей.

Итоговая серия

Позже всё-таки удалось подобрать подходящий промт и настройки: pipe.fuse_lora (lora_scale=0.05); prompt = «art in Helen style, modern 2025 American hip-hop girl, 2025 fashion, no Asian, flat Japanese print». Это позволило нейросети создавать художественные образы персонажей, не относящихся к азиатской культуре, несмотря на то, что в исходном датасете подобных примеров не было.

Original size 3183x1024

art in Helen style, modern 2025 American hip-hop girl, 2025 fashion, no Asian, flat Japanese print

Вывод

В результате работы нейросеть успешно освоилa визуальный язык Хелен Хайд, воспроизвела характерные черты её стиля и основные принципы создания её произведений. Тем не менее наблюдаются артефакты и проблемы с анатомией. Для полноценных работ по-прежнему необходима доработка с участием человека, однако как инструмент для создания концептов нейросеть показала себя полезной.

Обучение генеративной модели под стиль Хелен Хайд

Ekaterina Kopotilova

artificial intelligence

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...