license: creativeml-openrail-m
tags:
-
stable-diffusion
-
stable-diffusion-diffusers
-
text-to-image
datasets:
- ChristophSchuhmann/improved_aesthetics_6.5plus
library_name: diffusers
pipeline_tag: text-to-image
extra_gated_prompt: >-
本模型采用CreativeML OpenRAIL-M许可证向所有人开放访问,该许可证进一步规定了权利和使用条款。
CreativeML OpenRAIL许可证明确规定:
- 禁止使用该模型故意生成或传播非法及有害内容
- 模型作者对用户生成内容不主张任何权利,使用者需自行负责内容合规性
- 允许商用及服务化部署,但必须包含相同的使用限制条款并向所有用户提供许可证副本
完整许可证请查阅:
https://huggingface.co/spaces/CompVis/stable-diffusion-license
extra_gated_heading: 请阅读许可证以访问模型
BK-SDM模型卡片
BK-SDM(块移除知识蒸馏稳定扩散模型)是通过架构压缩的SDM,用于高效通用文生图合成。该模型通过:(i) 从Stable Diffusion v1.4的U-Net中移除多个残差和注意力块,(ii) 仅使用0.22M LAION图像对(不足完整训练集的0.1%)进行蒸馏预训练构建而成。尽管训练资源极其有限,我们的紧凑模型仍能通过迁移知识模仿原始SDM。
🤗Diffusers库使用示例
使用默认PNDM调度器和50步去噪的推理代码如下:
import torch
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("nota-ai/bk-sdm-small", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "热带鸟类栖息在树枝上"
image = pipe(prompt).images[0]
image.save("example.png")
由于我们仅压缩了Stable Diffusion v1.4的U-Net(文本编码器和图像解码器保持不变),以下代码同样可用:
import torch
from diffusers import StableDiffusionPipeline, UNet2DConditionModel
pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", torch_dtype=torch.float16)
pipe.unet = UNet2DConditionModel.from_pretrained("nota-ai/bk-sdm-small", subfolder="unet", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "热带鸟类栖息在树枝上"
image = pipe(prompt).images[0]
image.save("example.png")
压缩方法
U-Net架构
从SDM-v1.4的U-Net中移除了特定残差和注意力块:
蒸馏预训练
紧凑U-Net通过特征级/输出级蒸馏和去噪任务损失模仿原始U-Net:
实验结果
MS-COCO验证集30K样本的零样本评估结果(PNDM调度器25步生成512×512图像后降采样至256×256评估):
模型 |
FID↓ |
IS↑ |
CLIP Score↑ (ViT-g/14) |
U-Net参数量 |
整体参数量 |
Stable Diffusion v1.4 |
13.05 |
36.76 |
0.2958 |
0.86B |
1.04B |
BK-SDM-Base |
15.76 |
33.79 |
0.2878 |
0.58B |
0.76B |
BK-SDM-Small |
16.98 |
31.68 |
0.2677 |
0.49B |
0.66B |
BK-SDM-Tiny |
17.12 |
30.09 |
0.2653 |
0.33B |
0.50B |
用途
注:本节改编自Stable Diffusion v1模型卡片
直接用途
本模型仅限研究使用,包括:
- 安全部署可能生成有害内容的模型
- 探究生成模型的局限性和偏见
- 艺术创作与设计应用
- 教育/创意工具开发
禁用用途
- 制造令人不适/歧视性内容
- 未经许可的人物模仿
- 生成违法/暴力/成人内容
- 侵犯版权内容
局限性
- 无法实现完美逼真度
- 文本渲染能力有限
- 复杂组合任务表现欠佳
- 人脸生成可能异常
- 主要支持英语提示词
- 训练数据包含未去重内容
安全模块
建议配合Diffusers的安全检查器使用,该模块会比对CLIP文本嵌入空间中的NSFW概念概率。
致谢
引用
@article{kim2023architectural,
title={BK-SDM: 轻量化快速廉价版Stable Diffusion},
author={Kim, Bo-Kyeong and Song, Hyoung-Kyu and Castells, Thibault and Choi, Shinkook},
journal={arXiv预印本},
year={2023},
url={https://arxiv.org/abs/2305.15798}
}
本模型卡片由Bo-Kyeong Kim编写,基于Stable Diffusion v1模型卡片改编。