许可证:apache-2.0
标签:
- 文本生成图像
- 超现实风格
- 文本生成图像
- 稳定扩散模型
- 蒸馏模型
- 知识蒸馏
置顶:true
数据集:
- zzliang/GRIT
- wanng/midjourney-v5-202304-clean
库名称:diffusers
Segmind稳定扩散1B(SSD-1B)模型卡

📣 阅读我们的技术报告,了解蒸馏方法的更多细节
已添加AUTOMATIC1111兼容性,支持文件在此
演示
在Segmind SSD-1B体验⚡最快推理速度,或在🤗 Spaces试用。
模型描述
Segmind稳定扩散模型(SSD-1B)是Stable Diffusion XL(SDXL)的50%小型化蒸馏版本,在保持高质量文生图能力的同时实现60%的速度提升。该模型通过GRIT和Midjourney爬取数据等多样化数据集训练,增强了根据文本提示生成广泛视觉内容的能力。
采用知识蒸馏策略,SSD-1B先后融合了SDXL、ZavyChromaXL和JuggernautXL等专家模型的优势,产出令人惊艳的视觉结果。特别感谢🤗团队尤其是Sayak、Patrick和Poli的合作指导。
图像对比(SDXL-1.0 vs SSD-1B)

使用方式
可通过🧨 Diffusers库调用模型。安装时需运行:
pip install git+https://github.com/huggingface/diffusers
额外安装依赖:
pip install transformers accelerate safetensors
调用示例:
from diffusers import StableDiffusionXLPipeline
import torch
pipe = StableDiffusionXLPipeline.from_pretrained("segmind/SSD-1B", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")
prompt = "宇航员骑着一匹绿色骏马"
neg_prompt = "模糊、低质量、丑陋"
image = pipe(prompt=prompt, negative_prompt=neg_prompt).images[0]
更新:现已支持ComfyUI
建议使用负面提示,CFG值设为9.0左右可获得最佳效果!
模型规格
核心特性
- 文生图卓越性:擅长根据文本提示生成多样化创意图像
- 速度优化:60%的推理加速,适合实时应用场景
- 多样化训练数据:覆盖广泛文本语义的生成能力
- 知识蒸馏技术:融合多专家模型优势,性能显著提升
模型架构
SSD-1B为13亿参数模型,相较基础SDXL移除了部分网络层

训练信息
关键超参数:
- 训练步数:251,000
- 学习率:1e-5
- 批大小:32
- 梯度累积步数:4
- 图像分辨率:1024
- 混合精度:fp16
多分辨率支持
支持输出以下比例:
- 1024×1024 (1:1)
- 1152×896 (9:7)
- 896×1152 (7:9)
- 1216×832 (19:13)
- 832×1216 (13:19)
- 1344×768 (7:4横版)
- 768×1344 (4:7竖版)
- 1536×640 (12:5横版)
- 640×1536 (5:12竖版)
速度对比
A100 80GB实测提速60%,RTX 4090测试数据如下:

模型来源
访问Segmind平台获取研发资源。
应用场景
直接应用
适用于:
- 艺术设计:生成创意作品与设计素材
- 教育工具:创建教学可视化内容
- 学术研究:探索生成模型边界
- 安全内容生成:可控的内容产出机制
- 偏见分析:研究模型行为局限性
下游任务
支持通过Diffusers进行:
- LoRA微调
- 全参数微调
- Dreambooth LoRA训练
(具体脚本参见原文)
不适用场景
不适用于需要高度事实准确性的内容生成。
局限性
在呈现绝对照片级真实感(尤其是人物刻画)方面存在挑战,复杂构图和文本生成仍有改进空间。尽管通过多样化训练数据缓解了部分社会偏见,用户仍需理解当前技术限制。
引用
@misc{gupta2024progressive,
title={Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss},
author={Yatharth Gupta and Vishnu V. Jaddipal and Harish Prabhala and Sayak Paul and Patrick Von Platen},
year={2024},
eprint={2401.02677},
archivePrefix={arXiv},
primaryClass={cs.CV}
}