МОИМИ РУКАМИ. Обучение нейросети на HSE Design

Современные нейросети, такие как Stable Diffusion XL, умеют генерировать изображения по текстовому описанию. Однако базовые модели ориентированы на универсальный результат и не учитывают индивидуальный художественный стиль. Если художник хочет использовать ИИ, но сохранить свою уникальную манеру — характер линий, цветовую гамму, особенности текстуры — стандартные инструменты не дают такой возможности.

Цель проекта

Адаптировать предобученную модель SDXL так, чтобы она могла генерировать изображения в моём личном художественном стиле, сохраняя возможность управлять содержанием через текстовые промпты.

Библиотека изображений для обучения

Исходный размер 1920x2568

Источник изображений: личный архив автора. Все работы являются оригинальными и принадлежат автору проекта.

Для формирования мощной базы для обучения я отобрала 23 своих рисунка, которые наиболее полно отражают характерные мне черты в рисовании: особенности построения композиции, цветовую палитру, фактуру линий и общую эстетику.

Этого количества оказалось достаточно — LoRA не требует тысяч примеров, как обучение с нуля. Важнее не объём, а качество и разнообразие: в датасет вошли работы с разными сюжетами, но единой стилистикой, чтобы модель научилась обобщать признаки стиля, а не запоминать конкретные изображения.

Источник изображений: личный архив автора. Все работы являются оригинальными и принадлежат автору проекта.

На примере этих двух рисунков я бы поподробнее разобрала те особенности моего авторского стиля, которые впоследствии должна будет сохранить дообученная мной модель.

Главные нарративы:

яркая пластичность линий
намеренное нарушение естественности поз для создания динамики
контрастность светотени
незавершенность — намеренное сохранение ощущения скетча, быстрой штриховки и «рисования в потоке»
активная работа с перспективой пространства

Детали и авторские фишки:

подчёркнутая усталость глаз, томный взгляд
взъерошенные волосы и яркие блики на них
цветной лайнарт

Для того, чтобы их можно было без технических трудностей взять в работу, выполнила функцию ресайза непосредственно внутри кода при выгрузке архива с исходными изображениями.

Процесс обучения и код

Обучение проходило по методу DreamBooth + LoRA.

Подготовка: я взяла небольшую подборку моих авторских рисунков, которые бы ярче всего отражали авторскую манеру в рисовании, которую должна перенять итоговая модель.

Маркировка: К каждой подписи я добавила уникальный тег hhellonedd style. Это как «ярлык», по которому нейросеть понимает, что именно этот визуальный ряд нужно связать с конкретным названием стиля.

Тренировка: я запустила процесс, в котором большая нейросеть SDXL пыталась воспроизвести мои рисунки. Я использовала алгоритм (8-bit Adam), который позволил обучить модель эффективно и быстро. В итоге я получила небольшой файл с «весами» (LoRA), который накладывается на основную модель как стилистический фильтр.

Также важно упомянуть настройки и детали, которые помогли мне улучшить соответствие представленному в исходных изображениях стиля:

VAE (Encoder):

Я подключила специальный исправленный компонент (fp16-fix), который отвечает за то, чтобы в итоговых картинках не было мелких артефактов и «битых» пикселей.

Память и оптимизация:

Поскольку SDXL — очень тяжелая нейросеть, я использовала методы CPU Offloading и VAE Tiling. Это позволило генерировать картинки высокого разрешения (1024×1024) в бесплатной версии гугл коллаба.

Контроль стиля:

Я задала параметр num_inference_steps=25-30, что является золотой серединой: нейросеть успевает прорисовать детали стиля, но не перегружает картинку лишним.

Разница между 250 и 500 шагами (Steps):

250 шагов: На этом этапе нейросеть уже уловила общие черты стиля (цветовую гамму, основные формы), но образы еще остаются более мягкими, иногда «акварельными» или обобщенными. Это хорошо подходит для более абстрактных идей.

500 шагов: Здесь модель «выучила» стиль гораздо глубже. Линии стали четче, характерные детали (штриховка, особенности контура) проявляются ярче. Образы стали более узнаваемыми и специфичными именно для этой авторской манеры.

Результирующая серия изображений

Для подробного разбора результатов моей работы я бы обратилась к самому первому полученному результату, который дал мне понимание, как мне стоит финально улучшить код.

Исходный размер 1024x1024

1. drawing in hhellonedd style, girl playing badminton

1. drawing in hhellonedd style, girl playing badminton

Первый результат показался мне не самым удачным, поэтому для последующих работ я добавила метод pipe.vae.enable_tiling ().

На первом результате без этой функции модель «сжимала» изображение целиком, из-за чего мелкие особенности моего стиля (характер штриха, нюансы цветовых переходов) усреднялись и терялись. После включения tiling модель стала обрабатывать изображение по частям, сохраняя тонкие детали на каждом участке. Это позволило LoRA точнее передать мою авторскую манеру, особенно в текстурах и мелких элементах, которые и формируют её узнаваемость.

Исходный размер 1024x1024

2. drawing in hhellonedd style, boy running

2. drawing in hhellonedd style, boy running

После подключения этой функции я сразу получила удовлетворительный результат.

Здесь ярко отражаются детали того, как я работаю с пластикой поз, общая скетчевость изображения, выделения теней глазных впадин и даже моя любовь к динамичным складкам на одежде.

3. drawing in hhellonedd style, girl holding the sun over her head with her hands portrait / 4. drawing in hhellonedd style, a girl sitting in a water, aerial view

3. drawing in hhellonedd style, girl holding the sun over her head with her hands portrait

4. drawing in hhellonedd style, a girl sitting in a water, aerial view

На примере этих двух генераций мне хотелось рассмотреть, как модель самостоятельно справится со стилизацией элементов, которые не присутствуют ни на одном из исходных изображений — солнца и воды.

Как человек, являющийся прямым создателем такой работы с текстурами и линиями, я могу сказать, что обученная модель успешно подстроила эти явления под стилистику: лучи от солнца выполнены в соответствующей моей манере динамике, а вода изображена с искажением её реальных физических свойств, но с моими принципами контрастной работы со светом и тенью.

Исходный размер 1024x1024

5. drawing in hhellonedd style, boy in big scarf standing under the snowfall at night

5. drawing in hhellonedd style, boy in big scarf standing under the snowfall at night

Я думаю, что на этой генерации хорошо прослеживается повторяющаяся на многих рисунках из датасета моя любовь к оверсайз-одежде и мешковатому силуэту, создающемуся благодаря ней.

Наверное, этот момент относится скорее к моим эстетическим преференсам в жизни и я не подразумеваю его как обязательную константу своего стиля в рисовании, но факт того, что на некоторых генерациях модель сама уловила и интегрировала частое использование этой детали, кажется мне занимательным.

6. drawing in hhellonedd style, portrait of a boy with vivid blue contrasting light / 7. drawing in hhellonedd style, a boy and a girl holding hands and walking, colored drawing

6. drawing in hhellonedd style, portrait of a boy with vivid blue contrasting light

7. drawing in hhellonedd style, a boy and a girl holding hands and walking, colored drawing

Эти две генерации являются самыми яркими примерами для разбора манеры работы со светотенью.

Мне кажется, ИИ достаточно узнаваемо для моего стиля передал характер работы с контрастностью света и уловил гиперболизацию бликов кожи.

8. drawing in hhellonedd style, extra angry girl standing with a sword and getting ready to attack / 9. drawing in hhellonedd style, a boy standing behind a girl

Исходный размер 1024x1024

10. drawing in hhellonedd style, a girl with extra long hair sitting on the floor and hiding her face with her hands

Сравнение полученных результатов

На представленных генерациях видно, как LoRA помог обучить SDXL не просто копировать отдельные элементы, а гибко применять мой стиль к разным сюжетам, создавая при этом интересные вариации в рамках единой эстетики. Если подробнее говорить о создавшейся адаптивности, я бы выделила следующие пункты для рассмотрения: 1. Динамика поз и линий

Выполненная серия генераций подтвержает, что модель успешно смогла по-разному интерпретировать динамику: в изображениях, где позы героев статичны, она подчеркивала динамику через пластику линий, а при работе с активным движением объекта, подобно моему авторскому стилю, намеренно и интересно искажала, гиперболизировала физику человеческого тела.

2. Основополагающая работа со штрихом

В скетчевых версиях штрих остаётся быстрым, фактурным, с видимой незавершённостью. Если в некоторых генерациях общая проработка могла становиться более плотной, всё ещё сохраняется характерная для меня текстура штриха. Это говорит о том, что модель уловила предоставленный ей диапазон — от наброска до более законченной работы — и варьирует его в зависимости от сюжета.

3. Стилизация отсутствующих в датасете элементов

У получившейся генеративной модели явно прослеживается потенциал ухода от сухого повторения фрагментов из датасета и перехода в адаптивность использования стилистики. Она успешно справилась с тем, чтобы стилизовать новые, не появлявшиеся в исходных рисунках элементы. Это доказывает, что LoRA обучилась принципам моего стиля, а не просто запомнила конкретные изображения.

4. Правильное определение мелких деталей

От генерации к генерации некоторые моменты уместно оставались неизменными. Обученная модель успешно зафиксировала важность выделения бликов на прядях, взъерошенности прически, выделения мешков под глазами и мешковатость одежды.

После глубокого анализа я могу сделать вывод, что задача по «оцифровке» своего видения этого мира была успешно выполнена, и полученная модель имеет широкий потенциал для дальнейшего использования за счет правильного алгоритма анализа и уместного воспроизведения стилистических вводных.

Ноутбук с кодом для обучения

Использование сторонних ИИ в процессе работы

В проекте использовалась модель Gemini 3 Flash из гугл коллаба. Она помогла оформить отдельные участки кода и решить некоторые технических сложностей:

Оптимизация кода: Помогла настроить скрипт генерации так, чтобы он работал без ошибок нехватки памяти (CUDA Out of Memory), внедрив функции очистки кэша. Структурирование: Помогла перевести сложные технические термины обучения нейросетей на понятный язык для описания концепции проекта.

https://deepmind.google/models/gemini/flash/