许可证:creativeml-openrail-m
标签:
- stable-diffusion
- stable-diffusion-diffusers
- text-to-image
推理:false
库名称:diffusers
额外许可提示:
获取此模型前还需完成一步。
本模型采用CreativeML OpenRAIL-M许可证开放访问,面向所有用户,进一步明确了权利与使用条款。
CreativeML OpenRAIL许可证规定:
- 禁止使用模型故意生成或传播非法、有害内容
- CompVis对用户生成内容不主张任何权利,使用者可自由运用但须对合规性负责
- 允许商用或作为服务重新分发模型权重,但必须包含相同的使用限制条款并向所有用户提供CreativeML OpenRAIL-M许可证副本
点击下方"访问仓库"即表示同意您的联系信息(邮箱地址和用户名)可与模型作者共享。
额外许可确认字段:
□ 我已阅读并同意许可条款
重新上传声明
本仓库依据原始上传时所采用的CreativeML OpenRAIL-M许可证重新上传至HuggingFace,特别是第二章所授予的权利:
...授予永久性、全球性、非独占、免版税、不可撤销的版权许可,允许复制、公开展示、公开表演、分许可和分发补充材料、模型及其衍生作品。
请注意这些文件并非来自HuggingFace,而是源自ModelScope。因此原始仓库中的部分文件可能缺失。文件完整性已通过校验和验证。
Stable Diffusion v1-5 模型卡
Stable Diffusion是一种潜在文本到图像扩散模型,能够根据文本输入生成逼真图像。
工作原理详见🤗的Stable Diffusion博客。
Stable-Diffusion-v1-5检查点基于Stable-Diffusion-v1-2权重初始化,后在512x512分辨率的"laion-aesthetics v2 5+"数据集上进行了595k步微调,并采用10%文本条件丢弃以改进无分类器引导采样。
可通过🧨Diffusers库使用。
Diffusers使用示例
from diffusers import StableDiffusionPipeline
import torch
pipe = StableDiffusionPipeline.from_pretrained(
"benjamin-paine/stable-diffusion-v1-5",
torch_dtype=torch.float16
)
pipe = pipe.to("cuda")
prompt = "火星上宇航员骑马的照片"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
更多JAX环境下的详细用法参见此处
模型详情
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
用途
直接用途
本模型仅限研究使用,适用领域包括:
- 生成有害内容的安全防护研究
- 探究生成模型的局限性与偏见
- 艺术创作与设计应用
- 教育/创意工具开发
- 生成模型理论研究
禁用场景
(改编自DALLE-MINI模型卡)
禁止用于制造或传播以下内容:
- 使人感到不适/痛苦的图像
- 强化社会偏见的内容
- 非自愿的人物模仿
- 未经同意的成人内容
- 虚假/误导性信息
- 极端暴力/血腥场景
- 违反版权协议的内容
局限性与偏见
局限性
- 无法达到完美逼真度
- 无法生成可读文本
- 复杂构图任务(如"蓝色球体上的红色立方体")表现欠佳
- 人物面部生成可能失真
- 主要支持英语提示词
- 自编码部分存在信息损耗
- 训练数据含成人内容需额外安全措施
- 存在训练数据记忆现象(可通过CLIP检索工具检测)
偏见
基于LAION-2B(en)训练的模型会反映数据中的文化偏差,非英语提示生成效果较差,默认输出倾向西方文化视角。
安全模块
建议配合Diffusers的安全检查器使用,该模块通过CLIP文本模型嵌入空间比对来过滤NSFW内容。
训练
训练数据
训练过程
潜在扩散模型结合自编码器与扩散模型:
- 图像通过下采样因子8的自编码器转换为潜在表示
- 文本提示经ViT-L/14编码器处理
- 文本编码器的非池化输出通过交叉注意力注入UNet主干
- 损失函数计算潜在空间噪声与UNet预测的重构误差
版本演进
- v1-1:256x256分辨率训练237k步,512x512分辨率194k步
- v1-2:基于v1-1在"laion-improved-aesthetics"训练515k步
- v1-3:基于v1-2,采用10%文本条件丢弃训练195k步
- v1-4:基于v1-2,在"laion-aesthetics v2 5+"训练225k步
- v1-5:基于v1-2,在相同数据集训练595k步
- v1-5-inpainting:基于v1-5进行440k步修复训练
硬件配置
- 32台8xA100 GPU服务器
- AdamW优化器,梯度累积2次
- 总批次2048,学习率0.0001(10000步预热)
评估结果
不同无分类器引导尺度(1.5-8.0)与50步PNDM/PLMS采样的对比显示各检查点的相对改进:

基于COCO2017验证集的10000个随机提示评估,512x512分辨率,未针对FID分数优化。
环境影响
碳排放估算
使用ML碳排放计算器估算:
- 硬件: A100 PCIe 40GB
- 运行时长: 150000小时
- 云服务商: AWS美东区域
- 碳排放量: 11250 kg CO2当量
本模型卡由Robin Rombach和Patrick Esser编写,基于DALL-E Mini模型卡模板。