许可证:creativeml-openrail-m
标签:
- stable-diffusion
- stable-diffusion-diffusers
- text-to-image
推理:false
库名称:diffusers
额外授权提示:
获取此模型前还需完成一步。
本模型采用CreativeML OpenRAIL-M许可证,面向所有人开放访问,进一步规定了权利与使用条款。
CreativeML OpenRAIL许可证明确规定:
- 禁止使用该模型故意生成或传播非法、有害内容
- CompVis对用户生成内容不主张任何权利,使用者可自由运用但须对使用行为负责,且不得违反许可证条款
- 允许商业用途的权重再分发及模型服务化。若如此操作,须包含与许可证相同的使用限制,并向所有用户提供CreativeML OpenRAIL-M副本(请完整仔细阅读许可证)
完整许可证详见:https://huggingface.co/spaces/CompVis/stable-diffusion-license
点击下方"访问仓库"即表示同意您的联系信息(邮箱与用户名)可被共享给模型作者。
额外授权字段:
□ 我已阅读并同意许可证条款
重新上传
本仓库依据原始上传时采用的CreativeML OpenRAIL-M许可证重新上传至HuggingFace,特别是第二章授权条款:
...授予永久性、全球性、非独占、免版税、不可撤销的版权许可,允许复制、准备、公开展示、公开执行、分许可及分发补充材料、模型及其衍生作品。
请注意这些文件并非来自HuggingFace,而是源自modelscope。因此原始仓库中的部分文件可能缺失。文件完整性已通过校验和验证。
原始模型卡片
Stable Diffusion Inpainting是一种潜在文本到图像扩散模型,能够根据文本输入生成逼真图像,并具备通过遮罩进行图像修复的额外功能。
Stable-Diffusion-Inpainting基于Stable-Diffusion-v-1-2权重初始化。先进行595k步常规训练,后在512x512分辨率下对"laion-aesthetics v2 5+"数据进行440k步修复训练,并采用10%文本条件丢弃以改进无分类器引导采样。修复版UNet新增5个输入通道(4个用于编码遮罩图像,1个用于遮罩本身),这些通道权重在加载非修复检查点后初始化为零。训练期间生成合成遮罩,其中25%情况会完全遮罩画面。

使用示例:
可通过🧨Diffusers库使用本模型。
Diffusers
from diffusers import StableDiffusionInpaintPipeline
pipe = StableDiffusionInpaintPipeline.from_pretrained(
"benjamin-paine/stable-diffusion-v1-5-inpainting",
variant="fp16",
torch_dtype=torch.float16,
)
prompt = "黄色猫的脸,高清,坐在公园长椅上"
image = pipe(prompt=prompt, image=image, mask_image=mask_image).images[0]
image.save("./yellow_cat_on_park_bench.png")
工作原理:
原图 |
遮罩图 |
 |
 |
提示词 |
输出 |
黄色猫的脸,高清,坐在公园长椅上 |
 |
模型详情
-
开发者: Robin Rombach, Patrick Esser
-
模型类型: 基于扩散的文本到图像生成模型
-
语言: 英语
-
许可证: CreativeML OpenRAIL M许可证是改编自BigScience与RAIL Initiative合作的Open RAIL M许可证。参见我们许可证所基于的BLOOM Open RAIL许可证文章。
-
模型描述: 本模型可根据文本提示生成和修改图像,是使用固定预训练文本编码器(CLIP ViT-L/14)的潜在扩散模型,如Imagen论文所建议。
-
更多资源: 论文。
-
引用方式:
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
用途
直接用途
本模型仅限研究用途,可能的研究方向包括:
- 安全部署可能生成有害内容的模型
- 探索和理解生成模型的局限性与偏见
- 艺术创作及设计等艺术流程中的应用
- 教育或创意工具中的应用
- 生成模型研究
以下为排除用途说明。
滥用、恶意使用及超范围使用
注:本节取自DALLE-MINI模型卡片,同样适用于Stable Diffusion v1
禁止使用本模型故意创造或传播制造人际敌意或疏离环境的图像。包括但不限于:
- 生成令人不安、痛苦或冒犯的内容
- 传播历史或现存刻板印象
- 未经同意的个人模仿
- 非自愿性内容
- 虚假与误导信息
- 极端暴力与血腥内容
- 违反条款的版权内容分享
- 违反条款的版权内容篡改分享
局限性与偏见
局限性
- 无法实现完美照片级真实感
- 无法生成可读文本
- 对涉及组合性的复杂任务表现欠佳(如"蓝色球体上的红色立方体")
- 人脸及人物生成可能不准确
- 主要基于英文描述训练,其他语言效果较差
- 自编码部分存在信息损耗
- 训练数据LAION-5B包含成人内容,需额外安全机制才能产品化
- 未进行数据去重,存在一定记忆性(可通过CLIP检索工具检测)
偏见
图像生成模型可能强化社会偏见。Stable Diffusion v1基于LAION-2B(en)子集训练,主要包含英文描述,其他语言文化的覆盖率不足,导致生成内容偏向西方白人文化,非英文提示词效果显著较差。
训练
训练数据
开发者使用以下数据集:
训练流程
Stable Diffusion v1是结合自编码器的潜在扩散模型:
- 图像通过编码器转为潜在表示(下采样率8,HxWx3→H/fxW/fx4)
- 文本提示通过ViT-L/14文本编码器处理
- 文本编码器的非池化输出通过交叉注意力注入UNet主干
- 损失函数为潜在空间噪声与UNet预测的重构目标
提供六个检查点:
-
sd-v1-1.ckpt
:256x256分辨率训练237k步(laion2B-en)+ 512x512分辨率194k步(laion-high-resolution)
-
sd-v1-2.ckpt
:在"laion-improved-aesthetics"子集515k步
-
sd-v1-3.ckpt
:追加195k步,10%文本条件丢弃
-
sd-v1-4.ckpt
:基于v1-2,225k步训练"laion-aesthetics v2 5+"
-
sd-v1-5.ckpt
:595k步训练"laion-aesthetics v2 5+"
-
sd-v1-5-inpaint.ckpt
:先595k步常规训练,后440k步修复训练(新增5个UNet输入通道)
-
硬件: 32x8 A100 GPU
-
优化器: AdamW
-
梯度累积: 2
-
批次: 2048
-
学习率: 10,000步热身至0.0001后恒定
评估结果
不同无分类器引导尺度(1.5-8.0)与50步PLMS采样的对比:

基于COCO2017验证集的10,000个随机提示,512x512分辨率评估(未优化FID分数)。
修复评估
采用LDM论文相同协议,固定提示词"photograph of a beautiful empty scene, highest quality settings":
模型 |
FID |
LPIPS |
Stable Diffusion修复 |
1.00 |
0.141 (±0.082) |
潜在扩散修复 |
1.50 |
0.137 (±0.080) |
CoModGAN |
1.82 |
0.15 |
LaMa |
2.21 |
0.134 (±0.080) |
环境影响
Stable Diffusion v1碳排放估算
基于[A100 PCIe 40GB]硬件,150,000小时AWS美东区域使用,估算碳排放量:11,250 kg CO2当量(采用ML碳排放计算器)。
引用
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
本模型卡片由Robin Rombach和Patrick Esser编写,基于DALL-E Mini模型卡片。