pipeline_tag: 文生图
license: 其他
license_name: faipl-1.0-sd
license_link: 许可证
datasets: Disty0/sotediffusion-v1-text_only
base_model: Disty0/sotediffusion-wuerstchen3
tags:
- 文生图
- 动漫
language: 英文
library_name: diffusers
prior:
- Disty0/sotediffusion-v2-prior
SoteDiffusion V2
基于Würstchen V3/Stable Cascade的动漫风格微调模型
版本说明
- 本版本由fal.ai/grants赞助
- 在8块H100 80GB SXM5 GPU上训练了单轮epoch,使用1200万组图文对(含WD标签和自然语言描述)
- 采用全FP32精度和MAE损失函数训练
////////////////////////////////////////////////////////////////////////////////////////////////////////////////
ComfyUI配置
启动ComfyUI时使用参数:--fp16-vae --fp16-unet
下载文件:
- Stage C模型(存至unet文件夹):https://huggingface.co/Disty0/sotediffusion-v2/resolve/main/sotediffusion-v2-stage_c.safetensors
- Stage C文本编码器(存至clip文件夹):https://huggingface.co/Disty0/sotediffusion-v2/resolve/main/sotediffusion-v2-stage_c_text_encoder.safetensors
- Stage B模型(存至unet文件夹):https://huggingface.co/Disty0/sotediffusion-v2/resolve/main/sotediffusion-v2-stage_b.safetensors
- Stage A模型(存至vae文件夹):https://huggingface.co/Disty0/sotediffusion-v2/resolve/main/stage_a_ft_hq.safetensors
下载工作流文件:https://huggingface.co/Disty0/sotediffusion-v2/resolve/main/comfyui_workflow.json?download=true
参数设置:
- Stage C采样器:DPMPP 2M 或 DPMPP 2M SDE(搭配SGM Uniform调度器)
- Stage C步数:28
- Stage C引导系数:6.0
- Stage B采样器:LCM(搭配Exponential调度器)
- Stage B步数:14
- Stage B引导系数:1.0
SD.Next配置
项目地址:https://github.com/vladmandic/automatic/
操作步骤:
- 进入Models -> Huggingface界面
- 输入
Disty0/sotediffusion-v2
并下载
- 下载完成后加载模型
提示词模板:
你的提示词写在这里
极致美学,最佳质量,最新风格,
(换行符在SD.Next中等效于BREAK指令)
负面提示词:
极度不适,令人不悦,最差质量,劣质,低清,写实风格,单色,漫画风格,草图,早期画风,艺术家署名,模糊,简单背景,倒置图像,
参数设置:
- 采样器:默认
- 主步骤数:28
- 精炼步骤数:14
- 主引导系数:5.0-6.0
- 次级引导系数:1.0-1.5
- 分辨率:1280x1280/1024x1536/1024x2048/2048x1152等128的整倍数
Diffusers调用
pip install git+https://github.com/huggingface/diffusers
import torch
import diffusers
device = "cuda"
dtype = torch.float16
model_path = "Disty0/sotediffusion-v2"
pipe = diffusers.AutoPipelineForText2Image.from_pretrained(model_path, torch_dtype=dtype)
pipe.decoder_pipe.text_encoder = pipe.text_encoder = None
del pipe.decoder_pipe.text_encoder
del pipe.prior_prior
del pipe.prior_text_encoder
del pipe.prior_tokenizer
del pipe.prior_scheduler
del pipe.prior_feature_extractor
del pipe.prior_image_encoder
pipe = pipe.to(device, dtype=dtype)
pipe.prior_pipe = pipe.prior_pipe.to(device, dtype=dtype)
def encode_prompt(prior_pipe, device, num_images_per_prompt, prompt=""):
...
prompt = "1girl, solo, 直视镜头, 微张嘴唇, 蓝眼睛, 中等胸部, 金发, 手套, 连衣裙, 蝴蝶结, 刘海遮眼, 露肩, 上半身, 发饰, 室内场景, 肘部手套, 手抚胸口, 新娘臂铠, 烛台, 微笑, 轮廓光, 侧面视角, 城堡内饰, 侧视,"
quality_prompt = "极致美学,最佳质量,最新风格"
negative_prompt = "极度不适,令人不悦,最差质量,劣质,低清,写实风格,单色,漫画风格,草图,早期画风,艺术家署名,模糊,简单背景,倒置图像,"
output = pipe(
width=1024,
height=1536,
decoder_guidance_scale=1.0,
prior_guidance_scale=5.0,
prior_num_inference_steps=28,
num_inference_steps=14,
output_type="pil",
prompt=prompt + " " + quality_prompt,
negative_prompt=negative_prompt,
).images[0]
display(output)
训练细节
Stage C训练
基础模型:Disty0/sotediffusion-wuerstchen3
硬件:7×Nvidia H100 80GB SXM5
参数 |
值 |
混合精度 |
禁用 |
权重格式 |
fp32 |
保存格式 |
fp32 |
分辨率 |
1024×1024 |
有效批大小 |
84 |
UNet学习率 |
2e-6 |
文本编码器学习率 |
1e-7 |
优化器 |
AdamW 8bit |
训练数据 |
600万图像×2组标注 |
训练轮数 |
1 |
Stage B训练
基础模型:Disty0/sotediffusion-wuerstchen3-decoder
硬件:1×Nvidia H100 80GB SXM5
参数 |
值 |
混合精度 |
禁用 |
权重格式 |
fp32 |
保存格式 |
fp32 |
分辨率 |
1024×1024 |
有效批大小 |
8 |
UNet学习率 |
8e-6 |
优化器 |
AdamW |
训练数据 |
12万图像 |
训练轮数 |
6 |
WD标签体系
标签顺序规范:
美学标签,质量标签,年代标签,自定义标签,分级标签,角色名,作品名,其他标签
年代标签对照:
标签 |
年代范围 |
最新 |
2022-2024 |
近期 |
2019-2021 |
中期 |
2015-2018 |
早期 |
2011-2014 |
古典 |
2005-2010 |
美学评分标准:
评分模型:shadowlilac/aesthetic-shadow-v2
分数阈值 |
标签 |
数量 |
>0.90 |
极致美学 |
125,451 |
>0.80 |
高度美学 |
887,382 |
>0.70 |
美学合格 |
1,049,857 |
>0.50 |
轻微美学 |
1,643,091 |
>0.40 |
无不适感 |
569,543 |
>0.30 |
非美学 |
445,188 |
>0.20 |
轻微不适 |
341,424 |
>0.10 |
令人不适 |
237,660 |
其余 |
极度不适 |
328,712 |
内容分级标签:
标签 |
数量 |
全年龄 |
1,416,451 |
敏感内容 |
3,447,664 |
NSFW |
427,459 |
限制级 |
336,925 |
局限性
固有偏差
已知问题
- 可能意外生成写实风格
添加"realistic"到负面提示词可缓解
- 远视角的眼部/手部细节可能失真
- 仍有较大优化空间
许可证
SoteDiffusion模型采用Fair AI Public License 1.0-SD许可,与Stable Diffusion模型许可证兼容。核心条款:
- 修改共享:修改模型后必须公开变更内容并保留原始许可证
- 源码可及性:若衍生模型提供网络服务,需公开获取源码的途径(如下载链接)
- 分发条款:任何分发行为必须遵守本许可证或等效条款
- 合规期限:违规行为需在30天内修正,否则终止许可
注:Fair AI许可证未涵盖部分默认遵循Stability AI的非商业许可证(见LICENSE_INHERIT文件)