许可协议: openrail++
标签:
Stable Diffusion v2-1-base 模型卡片
本模型卡片重点介绍与Stable Diffusion v2-1-base模型相关的信息。
该stable-diffusion-2-1-base
模型基于stable-diffusion-2-base(512-base-ema.ckpt
)进行微调,在相同数据集上额外训练了22万步,采用punsafe=0.98
过滤标准。
模型详情
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
使用示例
通过🤗Diffusers库高效运行Stable Diffusion 2:
pip install diffusers transformers accelerate scipy safetensors
运行管道(默认使用PNDM/PLMS调度器,本例切换为EulerDiscreteScheduler):
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch
model_id = "stabilityai/stable-diffusion-2-1-base"
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "火星上宇航员骑马的照片"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
注意事项:
- 强烈建议安装xformers以实现内存高效注意力机制(提升性能)
- 低GPU显存环境下,调用
cuda
后添加pipe.enable_attention_slicing()
可降低显存占用(会牺牲速度)
用途
直接用途
本模型仅限研究用途,适用领域包括:
- 安全部署可能生成有害内容的模型
- 探究生成模型的局限性与偏差
- 艺术创作与设计应用
- 教育/创意工具开发
- 生成模型研究
禁用用途详见下文。
滥用、恶意使用及超范围使用
注:本节改编自DALLE-MINI模型卡片,同样适用于Stable Diffusion v2
禁止用于制作或传播以下内容:
- 制造敌对/排斥性环境的图像
- 令人不适/痛苦/冒犯的内容
- 强化历史或现有刻板印象的内容
- 非事实的人物/事件表征
- 针对个体的侮辱性内容
- 未经同意的仿冒/色情内容
- 暴力/血腥内容
- 侵犯版权的内容
局限性与偏差
局限性
- 无法实现完美逼真度
- 无法生成可读文本
- 复杂组合任务(如"蓝色球体上的红色立方体")表现欠佳
- 人物面部生成可能不准确
- 主要支持英语提示词
- 自编码部分存在信息损失
- 训练数据来自LAION-5B子集(含成人内容,已通过NSFW检测器过滤)
偏差
模型可能强化社会偏见:
- 主要基于英文描述的LAION-2B(en)训练
- 非英语文化内容表征不足
- 西方文化作为默认输出的倾向显著
- 非英语提示生成质量明显较差
训练
训练数据
开发者使用以下数据集:
- LAION-5B及其子集(经NSFW检测器过滤,p_unsafe=0.1)
训练过程
Stable Diffusion v2是结合自编码器的潜在扩散模型:
- 图像通过编码器转为潜在表征(下采样率8:1)
- 文本提示通过OpenCLIP-ViT/H编码
- 文本编码通过交叉注意力注入UNet主干
- 采用潜在空间噪声预测重构目标及_v-目标_损失函数
版本2.1
512-base-ema.ckpt
: 基于2.0版本继续训练22万步(punsafe=0.98)
768-v-ema.ckpt
: 在2.0基础上追加55k+155k步训练
版本2.0
512-base-ema.ckpt
: 256x256分辨率55万步+512x512分辨率85万步
768-v-ema.ckpt
: 基于512-base追加v-objective训练
- 其他专项模型(深度/修复/超分)详见原文
硬件配置
- 32台8xA100 GPU集群
- AdamW优化器
- 批量大小2048
- 学习率0.0001(1万步预热)
评估结果
不同分类器自由引导尺度(1.5-8.0)配合50步DDIM采样的对比评估:

基于COCO2017验证集1万条提示,512x512分辨率评估
环境影响
Stable Diffusion v1碳排放估算
- 硬件类型: A100 PCIe 40GB
- 运行时长: 200,000小时
- 云服务商: AWS美东区域
- 碳排放量: 15,000 kg CO2当量
引用
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
本模型卡片由Robin Rombach、Patrick Esser和David Ha编写,参考Stable Diffusion v1与DALL-E Mini模型卡片格式。