ИИ для изображений: создаём обложки альбомов с помощью Stable Diffusion (FLUX, ComfyUI, Forge)

Kokarev Maxim

Rawker
13 Май 2007
5.871
5.299
113
44
Барнаул
recording-studio.ru
Как я вижу, многие дистрибьютеры добавили возможность бесплатно генерировать обложки для альбомов. Это удобно, есть пара существенных минусов: узнаваемый визуальный стиль нейросеток (все обложки похожи друг на друга) и инструменты для создания имеют ограниченный функционал.

В то же время, мы можем и на своём домашнем ПК генерировать уникальные обложки с англоязычным текстом или ассеты для их создания.

Сразу, требования к системе для комфортной работы: от 10Гб места на ssd, от 16гб оперативной памяти и видеокарта Nvidia с 8 гб видео памяти. С меньшими параметрами время генерации может занимать неприлично долгое время. Но для генерации ассетов+фотошоп можно использовать и комп попроще.

В качестве модели возьмём FLUX, потому что он умеет рисовать текст и довольно быстро работает.


Как устанавливать?

1. Простой вариант с Forge:
Следуем инструкции с этого видео, теоретическую часть при желании можно пропустить:
Все ссылки есть в описании под видео. Какой файл в какую папку кидать - там же.

2. Если мало того, что выше, есть вариант чуть сложнее визуально, но понятнее и гибче в работе - ComfyUI.
Большой плюс этого варианта в том, что можно сохранять workflow для разных задач и делиться ими (ну, и использовать чужие).
Инструкция по установке есть здесь.

Вдобавок упомяну одну модель, мой фаворит: FLUX Fusion. Модель легковесная и более быстрая, чем FLUX Dev (что из первого видео) и лучше генерирует текст на картинке. Но имеет минус - не умеет подключать LoRa. Скачать можно здесь.
Если вы установили ComfyUI, можете сразу использовать мой workflow для него, я прикреплю его к посту.

Так много файлов, как в этом всём разобраться?
Это не сложно, я обьясню. Для загрузки моделей есть три условных модуля: model, clip и vae. Для первого нужно скачать саму модель, для второго - три файла "clip_l", "clip_g" и "t5xxl...", ну и для третьего - один vae файл. Этого достаточно, чтобы всё работало. Повторюсь: все ссылки на файлы и что куда закидывать, есть в описании под первым видео. Там прям для хлебушков, даже я разобрался.


Что означают настройки?

Guidance (CFG scale в Forge) - уровень креативности. При 0 нейронка строго следует запросу, при 7 и выше выдаёт что-то совершенно своё. 3.5 по умолчанию - хороший баланс, когда выдача следует запросу, но в каждой генерации есть что-то новое.
Steps (Sampling Steps в Forge) - количество шагов "прорисовки". Если мало шагов, то будет очень быстрый результат, но и низкого качества. Если шагов сильно много, время генерации займёт сильно большое время и картинка будет "пережаренной" - неестественно контрастной. Для FLUX и промтов предполагающих вывод текста без ошибок, минимум - это 16 шагов. Для лучшего результата я бы советовал 25-35, ценой большего ожидания.

Разрешение - важный параметр. Нейронки корректно выдают результат только в определённых форматах. Для обложек лучший вариант - это 1024 на 1024, а потом в любом редакторе сделать ресайз до 3000 на 3000, которых требует дистрибьютер.

Лучше всего генерировать пакетами (параметр Batch Count) по 4-8-16 изображений, чтобы из них выбрать лучшее. Нейронки глючат и не стабильны в творческих делах, так что будьте готовы, что большая часть будет улетать в корзину.


Как писать запросы (Prompt)?

Ниже будет несколько примеров, но сначала я хочу показать, как НЕ надо делать.
Ради бога, не пишите простые запросы из одного слова вроде "cyberpunk", "woman", "sportcar", "anime" и т.д.
Потому что результат будет вот этим самым, о чём я упоминал в начале, и чем уже весь интернет завален:

1736256305482.png


Это симпатичные картинки на первый взгляд, но во времена обесценивающегося визуального качества, подобные кадры с повторяющимися лицами, без идеи и сюжета - моветон.

Модель FLUX хорошо понимает естественный человеческий язык. Я бы советовал описывать сюжет, как бы разделяя содержимое картинки на слои и добавлять креативные элементы.
В нашем случае, хороший старт, это формат "назначение картинки, что изображено на фоне, текст". Первый пункт не обязателен, но может повлиять на стилизацию. Экспериментируйте.

Например
"album cover, flat abstract art, devided by half, text: 'Band name' at the top and 'Album name' at the bottom. Bold, impact-style font"
render_00055_.png


Ещё примеры:

metal album cover, a dark, dramatic landscape with a lighthouse and stormy sky. A skull with glowing eyes is prominently featured. Text: 'Band name' in distressed, strong Gothic font at the top.
render_00085_.png


Dark-Vignetted, photorealistic background of an antique leather book. In the center is flat, embossed the silhouette of a wolf howling at the moon. Upper Text: 'Band name' and Bottom Text: 'Album name' in complex, intertwining calligraphy, gold.
render_00182_.png


8k resolution, hyper realistic, 35mm film, vignette, hdr, vivid, top down shot, dark foggy night. A hooded man is squatting in a city with his head down and he is wearing an Adidas tracksuit. His back to the front of a cports car with headlights on. His face is hidden in darkness. In the foreground, place large, bold text that reads 'Artist Name' in a retro-futuristic font. This text is big, bright and flashy.
render_00474_.png



Здесь есть больше советов по оформлению и шрифтам: https://getimg.ai/blog/how-to-generate-images-with-legible-text-using-flux-1

Результат будет ещё уникальнее и интереснее, если подключать LoRa модели, содержащие различные стили рисовки и креативные элементы.
Например, берём лоры Scribble и Watercolor - смешиваем каракули карандашом и акварельные краски для получения уникального стиля "художника":
Clean, simple forms. White-vignetted a soft semi-transparent background watercolor painted in pastel colors depicting the soft color sea and palm trees, centered minimalistic one line drawing bold lines abstract full body woman dressed in a dress and hat. Text: 'Artist name' at the top and 'Song name' at the bottom. text in a bold, sans-serif grey font.
render_00155_.png



При наличии навыков в фотошопе, можно делать ещё более крутые вещи. Вот, к примеру, не удачные сырые генерации, которые после небольшой доработки могли быть хорошими обложками, которые не стыдно публиковать:

1736257257864.png


Так же, если держать сюжет в голове, можно генерировать элементы поотдельности, а потом из этого собирать изображения полностью. Это лучший вариант в плане уникальности и творчества, да и при работе будет меньше ощущения игры в рулетку с полным рандомом.

Пишите, что думаете. Я сам довольно недавно в этой области, интересен любой опыт. Может знаете модели, которые умеют генерить русскоязычный текст? Или доступные онлайн сервисы для генерации без ресурсов ПК? Может, интересные кейсы по промтам для креативности и более предсказуемых результатов?
 

Вложения

Думаю у большинства художников практикуется изображение без лого и названия альбома. Добавляется уже потом.
 
  • Like
Реакции: Kokarev Maxim
Думаю у большинства художников практикуется изображение без лого и названия альбома. Добавляется уже потом.
Да, скорее всего. Разделять текст и изображение вообще стоит - так даже генерировать намного проще. Но с генерациями текста есть низкий порог вхождения в шрифты и их оформление. Ну, то есть, в теории, приемлемый результат сможет получать человек без навыков художника.
 

Сейчас просматривают