Original size 2480x3500

Супер-нормальное ралли

PROTECT STATUS: not protected
14
The project is taking part in the competition

Идея проекта

Мой друг в конце лета работал фотографом на нескольких гоночных соревнованиях / событиях. По итогу на его жёстком диске было около 50 000 разных фотоснимков, которые ему нужно было отобрать и ретушировать. Он мне рассказывал, что ему в какой-то момент начало казаться, будто разные автомобили сливаются в одну, а фотографии повторяются кругами.

Послушав этот рассказ, мне захотелось буквально воссоздать те ощущения, которые были у моего товарища с помощью нейросетей и сделать «супер-нормальные» собирательные образы того, что он видел.

Выражаю благодарность моему другу, за предоставленные фотографии с тех самых съёмок.

Подготовка окружения

big
Original size 1920x883

Проверка подключение к GPU

big
Original size 1920x204

Ускорение вычислений

big
Original size 1920x253

Загрузка репозиторий Diffusers

big
Original size 1920x603

Скачивание скрипта для дообучения

После проверки готовности аппарата (проверка GPU) я установил все необходимые библиотеки и модули. Далее я подключил библиотеку для диффузионных моделей — основного инструмента для генерации изображений в рамках проекта. В конце я использовал скрипт с технологией LoRA, который помог перенести мой уникальный стиль на готовую модель.

Подготовка датасета

После подготовки моделей и библиотек, я загрузил предоставленный датасет из 26 фотографий (ниже приложена часть, по которой можно судить и о всём датасете. Он не сильно разнообразен).

Original size 1920x218

Загружаем изображения для обучения в локальный репозиторий.

Original size 1280x256

Фотографии предоставлены моим другом Даниилом Прокашевым, с его личного разрешения.

Original size 1920x358

Генерация подписей к изображениям

Original size 1920x533

Просмотр загруженные изображения для проверки содержания.

Original size 1920x358

Создаем пути и открываем изображения.

Original size 1920x813

Выбор GPU для проведения вычислений

Original size 1920x393

Создание файла метаданных для обучения.

Original size 2408x1075

Вывод полученных описаний изображений.

Original size 1920x288

После проверки удаляем модели BLIP, чтобы освободить память

Проверим все изображения с помощью модели BLIP, я получил описания изображений, к котором добавлен префикс «a photo of TOK car, „, который в дальнейшем я использовал при генерации изображений.

Подготовка окружения к обучению

Original size 1920x218

Вставка настроек.

Original size 1920x148

Авторизация на Hugging face.

На данном этапе я добавил токен Hugging Face для обучения нейросети в среду программирования.

Обучение модели

Original size 1920x988

Проверка сохраненных данных модели после обучения.

Сохранение на Hugging Face

Original size 1920x323
Original size 1920x918
Original size 1920x253

Я сохранил модель на Hugging face, в случае, если мне надо будет вернутся к ней для дальнейших генераций.

Генерация изображений

Original size 1920x568

Проверяем работу модели LoRA

Original size 1920x218

Используем свои промты, начинающиеся с «a photo of TOK car, »

Определяя мой ID Hugging face подключает модель LoRA для генерации изображений.

Серия изображений

Original size 1024x1024

prompt = «a photo of TOK car, red racing car»

Original size 1024x1024

prompt = «a photo of TOK car, blue racing car»

Original size 1024x1024

prompt = «a photo of TOK car, blue racing car»

Original size 1024x1024

prompt = «a photo of TOK car, rally competition»

Original size 1024x1024

prompt = «a photo of TOK car, rally competition»

Original size 1024x1024

prompt = «a photo of TOK car, red racing car»

Original size 1024x1024

prompt = «a photo of TOK car, rally competition»

Даже изменяя промты, мы можем проследить преемственность стиля, ландшафта и ощущения от изображений. Они приближают нас к оригинальной фотосерии.

Original size 1024x1024

prompt = «a photo of TOK car, futuristic racing cars»

Original size 1024x1024

prompt = «a photo of TOK car, vintage racing cars»

Также мне стало интересно, как нейросеть будет решать проблемы «за рамками», заданными серией. Из чего получилось несколько генерацией с другой погодой.

Результат оказался лучше (отличался от оригинальных фото), чем я предполагал. При этом, если вглядеться, то заметны элементы, свойственные фотографиям, например трибуны с людьми.

0

prompt = «a photo of TOK car, yellow and green racing cars in rain»

Итог

По итогу, удалось добиться именно того визуального эффекта, который и планировался изначально в рамках проекта работы с нейросетями. При помощи специально обученной модели, получились «обезличенные» и смазанные изображения той самой фотосъёмки, которая послужила материалом для обучения модели.

Благодаря стабильному визуальному качеству изображений и их антуража, серия сложилась воедино.

Супер-нормальное ралли
14
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more