
Идея проекта
Мой друг в конце лета работал фотографом на нескольких гоночных соревнованиях / событиях. По итогу на его жёстком диске было около 50 000 разных фотоснимков, которые ему нужно было отобрать и ретушировать. Он мне рассказывал, что ему в какой-то момент начало казаться, будто разные автомобили сливаются в одну, а фотографии повторяются кругами.
Послушав этот рассказ, мне захотелось буквально воссоздать те ощущения, которые были у моего товарища с помощью нейросетей и сделать «супер-нормальные» собирательные образы того, что он видел.
Выражаю благодарность моему другу, за предоставленные фотографии с тех самых съёмок.
Подготовка окружения




После проверки готовности аппарата (проверка GPU) я установил все необходимые библиотеки и модули. Далее я подключил библиотеку для диффузионных моделей — основного инструмента для генерации изображений в рамках проекта. В конце я использовал скрипт с технологией LoRA, который помог перенести мой уникальный стиль на готовую модель.
Подготовка датасета
После подготовки моделей и библиотек, я загрузил предоставленный датасет из 26 фотографий (ниже приложена часть, по которой можно судить и о всём датасете. Он не сильно разнообразен).
Генерация подписей к изображениям
Проверим все изображения с помощью модели BLIP, я получил описания изображений, к котором добавлен префикс «a photo of TOK car, „, который в дальнейшем я использовал при генерации изображений.
Подготовка окружения к обучению
На данном этапе я добавил токен Hugging Face для обучения нейросети в среду программирования.
Обучение модели
Сохранение на Hugging Face
Я сохранил модель на Hugging face, в случае, если мне надо будет вернутся к ней для дальнейших генераций.
Генерация изображений
Определяя мой ID Hugging face подключает модель LoRA для генерации изображений.
Серия изображений
Даже изменяя промты, мы можем проследить преемственность стиля, ландшафта и ощущения от изображений. Они приближают нас к оригинальной фотосерии.
Также мне стало интересно, как нейросеть будет решать проблемы «за рамками», заданными серией. Из чего получилось несколько генерацией с другой погодой.
Результат оказался лучше (отличался от оригинальных фото), чем я предполагал. При этом, если вглядеться, то заметны элементы, свойственные фотографиям, например трибуны с людьми.
Итог
По итогу, удалось добиться именно того визуального эффекта, который и планировался изначально в рамках проекта работы с нейросетями. При помощи специально обученной модели, получились «обезличенные» и смазанные изображения той самой фотосъёмки, которая послужила материалом для обучения модели.
Благодаря стабильному визуальному качеству изображений и их антуража, серия сложилась воедино.