许可证:creativeml-openrail-m
标签:
额外授权标题:请阅读许可证以访问此模型
稳定扩散v1-5模型卡
稳定扩散是一种潜在文本生成图像的扩散模型,能够根据任意文本输入生成逼真图像。
如需了解工作原理,请参阅🤗的稳定扩散博客。
Stable-Diffusion-v1-5检查点基于Stable-Diffusion-v1-2权重初始化,后在"laion-aesthetics v2 5+"数据集上以512x512分辨率进行595k步微调,并采用10%文本条件丢弃以优化无分类器引导采样。
可通过🧨Diffusers库或RunwayML GitHub仓库使用。
Diffusers示例
from diffusers import StableDiffusionPipeline
import torch
model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "宇航员在火星上骑马的照片"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
更多JAX环境下的详细说明、用例和示例请参阅此处
原始GitHub仓库
-
下载权重文件
-
按照此处说明操作
模型详情
-
开发团队: Robin Rombach, Patrick Esser
-
模型类型: 基于扩散的文本生成图像模型
-
支持语言: 英语
-
许可证: CreativeML OpenRAIL M许可证,改编自BigScience与RAIL倡议在负责任AI许可领域的合作成果。详见基于BLOOM Open RAIL许可证的说明文章。
-
模型描述: 本模型可通过文本提示生成和修改图像,是基于潜在扩散模型架构,采用Imagen论文建议的固定预训练文本编码器(CLIP ViT-L/14)。
-
更多资源: GitHub仓库,论文。
-
引用格式:
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
用途
直接用途
本模型仅限研究用途,潜在研究方向包括:
- 安全部署可能生成有害内容的模型
- 探究生成模型的局限性与偏差
- 艺术创作与设计应用
- 教育或创意工具开发
- 生成模型研究
以下为禁止用途说明。
滥用、恶意使用及超范围使用
注:本节改编自DALLE-MINI模型卡,同样适用于稳定扩散v1
禁止用于制造或传播以下内容:
- 制造令人不适/痛苦/冒犯性的图像
- 强化历史或现存社会偏见
- 未经许可的人物模仿
- 非自愿性成人内容
- 虚假/误导信息
- 极端暴力/血腥内容
- 违反版权协议的素材传播
局限性与偏差
局限性
- 无法实现完美逼真度
- 无法生成可识别文字
- 复杂组合任务(如"蓝色球体上的红色立方体")表现欠佳
- 人脸/人物生成可能不准确
- 主要基于英文训练,其他语言效果较差
- 自编码部分存在信息损耗
- 训练数据含成人内容,需额外安全机制
- 存在训练数据记忆现象(可通过CLIP检索工具检测)
偏差
模型可能强化社会偏见:
- 训练数据LAION-2B(en)以英文描述为主
- 非英语社区文化代表性不足
- 西方文化被默认为标准范式
安全模块
建议配合Diffusers的安全检查器使用,该模块通过CLIP文本模型嵌入空间比对预定义的NSFW概念概率。
训练
训练数据
训练过程
稳定扩散v1-5是结合自编码器的潜在扩散模型:
- 图像通过编码器转换为潜在表示(下采样率8倍)
- 文本提示通过ViT-L/14文本编码器处理
- 文本编码器的非池化输出通过交叉注意力注入UNet主干
- 损失函数为潜在空间噪声与UNet预测的重构目标
各版本训练详情:
- v1-1:256x256分辨率237k步(laion2B-en) + 512x512分辨率194k步(laion-high-resolution)
- v1-2:在"laion-improved-aesthetics"子集515k步
- v1-3:v1-2基础上195k步 + 10%文本条件丢弃
- v1-4:v1-2基础上225k步("laion-aesthetics v2 5+") + 10%文本条件丢弃
- v1-5:v1-2基础上595k步("laion-aesthetics v2 5+") + 10%文本条件丢弃
- inpainting:v1-5基础上440k步修补训练
硬件配置
- 32台8×A100 GPU
- AdamW优化器
- 梯度累积:2步
- 批量大小:2048
- 学习率:10000步热身至0.0001后保持恒定
评估结果
不同无分类器引导尺度(1.5-8.0)和50步PNDM/PLMS采样的对比:

基于COCO2017验证集10000个随机提示,512x512分辨率评估(未优化FID分数)
环境影响
碳排放估算
使用机器学习碳影响计算器估算:
- 硬件类型: A100 PCIe 40GB
- 运行时长: 150000小时
- 云服务商: AWS
- 区域: 美国东部
- 碳排放量: 11250 kg CO2当量
引用
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
本模型卡由Robin Rombach和Patrick Esser编写,基于DALL-E Mini模型卡模板。