Original size 1140x1600

Ghibli Style // Обучение генеративной нейросети

PROTECT STATUS: not protected
4

Описание идеи

С детства мне отчетливо запомнились образы, которые рисовал в своих картинах Хаяо Миядзаки. Я нашла датасет в открытом доступе с нарезками из анимационных фильмов Ghibli Studio и решила попробовать создать картинки в стиле Ghibli

0

изображения в стиле Ghibli

Написание кода

Изучив уже существующие наработки пользователей и собранные датасеты, я нашла набор изображений из фильмов Ghibli studio на HuggingFace, с хорошей полнотой

С использованием модуля datasets я загрузила набор данных в среду выполнения

Original size 1166x724

загрузка набора данных

post

Структура датасета такова, что все изображения в указанном наборе данных сразу сопровождаются промптами к ним (поле caption), что позволило мне не генерировать их по отдельности

Original size 1148x374

пример изображений

Особенностью представленного датасета является файт того, что изображения в нём не соответствуют формату 1 к 1, заявленному в задании. Поэтому прежде чем сохранять их в директорию в среде выполнения, я добавила предобработку фотографий, позволяющую привести их к формату квадратных изображений. Также с целью экономии ресурсов было принято решение оставить в нашем наборе данных только первые 200 фотографий

Original size 841x614

доработка кода

Теперь всё готово для обучения собственной модели, которая в дальнейшем будет использоваться для реализации наших промтов. Процесс обучения занял примерно 47 минут

Original size 746x412

Следующий этап генерация фото моей предобученной моделью. Загрузим её и протестируем

Original size 1120x411

Пробуем промптить и получаем следующие результаты

Original size 1024x1024

prompt: photo in Ghilbi style, a frog in hat

Original size 1024x1024

prompt: photo in Ghilbi style, A young girl sitting by the window of an old train crossing a sea bridge

Original size 1024x1024

prompt = «photo in Ghilbi style, young boy go through mystical forest, giant tree spirits, moss-covered stones, shafts of sunlight through mist, delicate atmosphere, hand-painted look, magical realism

Original size 1024x1024

prompt = «photo in Ghilbi style, young boy»

Original size 1024x1024

prompt = «photo in Ghilbi style, girl with baloon walking on the hills»

Original size 1024x1024

prompt = «photo in Ghilbi style, grandpa sitting on the porch»

По итогам тестирования модели и результатов её работы наблюдаем успешную генерацию фотографий в стиле Ghibli Studio. На некоторых изображениях можно наблюдать незначительное размытие контура фигур, это возможно исправить при помощи повышения объемов выборки и качества изображений при обучении модели.

Вместе с тем, хотелось бы отметить, что. модель гораздо лучше справляется с односложными формулировками

Тем не менее, полученный результат хорошо передает стилистику картин, персонажей и окружающего мира Ghibli studio, что и было желаемым результатом

Ghibli Style // Обучение генеративной нейросети
4
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more