Как начать пользоваться Stable Diffusion 3 бесплатно прямо у себя на ПК через ComfyUI

3 мин

|

Ахой, господа корсары! В данном мануале мы научим вас бесплатно пользоваться мощнейшей нейронкой Stable Diffusion 3 прямо у себя на компьютере и сделаем это максимально элегантно через ComfyUI (пользовательский интерфейс (UI) для создания изображений посредством преобразования текста в изображение с применением моделей Stable Diffusion).

На сегодняшний день Стейбл Дефьюжн 3 самая передовая модель с открытым исходным кодом для генерации изображений. Обладая 2 миллиардами параметров, она работает даже на ноутбуках с 8гб RAM, однако для плавной и стабильной работы потребуется показатель в 16гб. Её качество создания изображений превосходно и на планку выше чем у конкурентов, а понимание текстовых запросов значительно лучше, чем у своей предыдущих версий.

Возможности Stable Diffusion 3

Как бесплатно пользоваться Stable Diffusion 3

Для этого нам потребуется следовать инструкции, которую мы для вас составили. Выполнив полный алгоритм и установив все нужные компоненты вы сможете использовать ИИ прямо на своем устройстве совершенно бесплатно. Материал создан на основе авторского мануала с форума Зеленкагуру.

Установка ComfyUI

Переходим на Гитхаб страницу ComfyUI, заходим в раздел Releases. Мы видим единственный релиз с установщиком последней версии и функцией автообновлений. Нужно будет нажать на ссылку «Download Link with stable pytorch..» после чего начнется скачивание нужного нам архива.

Страница на GiHub от куда производим загрузку ComfyUI

Архив загружен и мы начинаем процесс распаковки. Далее заходим в папку «ComfyUI_windows_portable» и запускаем файл «run_nvidia_gpu.bat». После выполнения этих действий должна запуститься командная строка и открыться сайт по адресу http://127.0.0.1:8188.

Сайт 127.0.0.1:8188

Оставляем все как есть, к этому мы вернемся позже.

Скачивание модели Stable Diffusion 3

Заходим на сайт https://huggingface.co/stabilityai/stable-diffusion-3-medium. Для доступа к файлам необходимо заполнить небольшую форму, используем любые данные.

Как только у нас появится доступ к репозиторию на Hugging Face, переходим во вкладку с файлами по адресу: https://huggingface.co/stabilityai/stable-diffusion-3-medium/tree/main. Здесь будут доступны модели и текстовые кодировщики.

Скачиваем модель sd3_medium и текстовые кодировщики: clip_g.safetensors, clip_l.safetensors, t5xxl_fp8_e4m3fn.safetensors.

Текстовые кодировщики нужно будет поместить в папку \ComfyUI_windows_portable\ComfyUI\models\clip, а модели в \ComfyUI_windows_portable\ComfyUI\models\checkpoints.

Помещаем модели в соответствующие папки

Теперь мы можем вернуться к нашему интерфейсу (на открывшемся сайте) и нажать кнопку “Refresh”, чтобы обновить список моделей.

Щелкаем по “Load Checkpoint” и открываем список моделей.

Выбираем нашу модель sd3

Скачиваем схему запуска и импортируем ее в ComfyUI

Нажимаем кнопку “Load” в интерфейсе и выбираем схему.

После импорта схемы мы можем увидеть что-то страшное и непонятное, но наша основная задача – найти “Load Checkpoint” и “TripleCLIPLoader”, затем настроить необходимые параметры.

Выбор модели и текстовых кодировщиков сделан, теперь мы можем обсудить основные настройки в схеме.

Настройки схем генерации и установка размера изображений на выходе

Базовые настройки и их определение

Если вы хотите использовать случайную генерацию сида для каждого изображения, установите параметр на «randomize».

Настройка ширины и высоты на выходе

Рекомендуется установить значение “Value” на уровне 1024.

Prompt и negative prompt

Промпт (от англ. “prompt”) — это запрос к нейросети, который определяет желаемое изображение или текст. Чем более четко и правильно сформулирован промпт, тем более релевантным будет результат.

Отрицательная подсказка (или Negative Prompt) — это дополнение к промпту, которое указывает на элементы или аспекты, которые пользователь не хочет видеть в создаваемом изображении или тексте. Это помогает уточнить исключения и предотвратить появление нежелательных элементов в результате.

Расшифровка показателей:

  1. Steps (шаги) – количество итераций или операций, выполняемых алгоритмом при денуазировании. Чем больше шагов, тем более точным может быть результат.
  2. CFG Scale (classifier-free guidance scale, масштаб руководства без классификатора) – величина, определяющая степень соответствия текстовому запросу. Чем выше этот масштаб, тем ближе результат будет к запрошенному, однако может быть больше шума.
  3. Sampler Name (имя сэмплера) – указание, какой сэмплер должен использоваться в ComfyUI.
  4. Scheduler (расписание) – тип используемого расписания, определяющий порядок и временные интервалы выполнения операций или задач.
  5. Denoise (денойз) – процесс удаления шума из информации о латентах (латентных представлениях). Этот параметр определяет, насколько много информации о латентах следует стереть для улучшения качества результата путем снижения шума.
Выбираем значения как на скрине

Описание и настройка для каждого узла из схемы

Узел “Load Checkpoint” предназначен для загрузки диффузионной модели, которая используется для денуации (удаления шума) латентных представлений. Кроме того, этот узел также предоставит соответствующую модель VAE (вариационный автокодировщик) и CLIP (Contrastive Language-Image Pretraining), которые могут использоваться в процессе работы с данными и изображениями.

Узел “Load CLIP” используется для загрузки определенной модели CLIP (Contrastive Language-Image Pretraining). Модели CLIP применяются для кодирования текстовых подсказок, которые направляют процесс генерации или распространения данных.

ConditioningSetTimestepRange — это новый узел в ComfyUI, который является одним из мощных инструментов кондиционирования текста.

Этот узел позволяет задавать временные интервалы запуска и остановки для каждого текстового запроса. Например, если у нас есть 20 шагов, мы можем указать сэмплеру начать “раскрашивать” кота на первых 5 шагах (которые, вероятно, самые важные), а затем переключиться на генерацию собаки на оставшиеся 15 шагов. Таким образом, можно точно настроить, какие аспекты или объекты должны быть учтены в разных временных интервалах генерации.

Sampling nodes (узлы сэмплирования) в контексте ComfyUI представляют собой инструменты, которые обеспечивают возможность устранения скрытых помех на изображениях с использованием диффузионной модели. Эти узлы позволяют генерировать новые изображения или модифицировать существующие с целью улучшения качества или изменения визуальных аспектов.

Узел “Seed” в ComfyUI представляет собой интуитивно понятный инструмент управления случайными сидами. Узел позволяет контролировать начальные условия или исходные параметры, используемые для генерации данных или изображений. Управление сидами особенно полезно в контексте генеративных моделей, таких как диффузионные модели или модели глубокого обучения, где случайные числа используются для вариации или уникальности результатов.

Empty latent image. Пустой узел скрытого изображения предназначен для создания нового набора пустых скрытых изображений. Эти пустые скрытые изображения могут быть использованы в различных процессах, таких как text2image, где они могут быть дополнены шумами с помощью узла sampler.

Узел “CLIP Text Encode (Prompt)” позволяет кодировать текстовую подсказку с использованием модели CLIP во вставку, которая может использоваться для направления процесса генерации определенных изображений с помощью модели диффузии.

Этот узел в ComfyUI предоставляет возможность вставлять текстовые описания или запросы, которые затем кодируются в векторы, понятные для модели генерации изображений. Кодирование текста с использованием CLIP помогает установить соответствие между текстовыми подсказками и визуальными характеристиками, что в свою очередь направляет процесс создания или модификации изображений в соответствии с заданными текстовыми критериями.

Узел ConditioningZeroOut в ComfyUI предназначен для обнуления определенных элементов в структуре данных обусловливания. Это позволяет эффективно устранять влияние этих элементов на последующие этапы обработки данных. Он предназначен для сложных операций кондиционирования, где необходимо прямое управление внутренним представлением обусловливания.

Узел Conditioning (Combine) в ComfyUI используется для объединения нескольких кондиционирований путем усреднения прогнозируемого шума диффузионной модели. Этот процесс отличается от узла Conditioning (Average).

В узле Conditioning (Combine) выходы диффузионной модели, которые были обусловлены различными условиями (такими как текстовые вставки или другие параметры), объединяются путем усреднения. Это означает, что модель учитывает разные входные условия и вычисляет среднее значение прогнозируемого шума, что может привести к улучшению качества и разнообразия результатов.

KSampler в ComfyUI представляет собой мощный инструмент для улучшения качества и детализации латентных изображений, обеспечивая контроль над процессом шумоподавления и последующей генерации с использованием заданных условий.

Узел VAE Decode используется для декодирования изображений из латентного пространства обратно в изображения пиксельного пространства с помощью предоставленной модели вариационного автокодировщика (VAE).

Узел “Preview Image” предназначен для предварительного просмотра изображений, которые обрабатываются в графе узлов. Этот узел обеспечивает возможность быстрого визуального анализа результатов работы.

После всех установок и заданных prompt и negative prompt, можно начинать генерации изображений. Для генерации щелкаем на кнопку «Queue prompt».

Генерация изображений на Stable Diffusion 3 после установки

После нажатия кнопки «Queue prompt» мы видим как начинается в командной строке, терпеливо наблюдаем и ждем нашу свежую картинку.

Процесс генерации изображения

После того как все будет готово, мы увидим свое изображение в окне превью. Готово!

Итог

Stable Diffusion 3 выделяется своей способностью генерировать изображения, превосходя другие системы, особенно в типографике и точности выполнения запросов. Он также предлагает улучшенную фотореалистичную генерацию изображений, сильное следование запросам и возможности мультимодального ввода.


Подписаться
Уведомить о
guest
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии