许可协议:creativeml-openrail-m
标签:
- 稳定扩散
- 稳定扩散-扩散器
- 文本生成图像
推理:禁用
库名称:diffusers
额外授权提示:
获取此模型前还需完成一步。
本模型采用CreativeML OpenRAIL-M许可协议,面向所有人开放访问,该协议进一步规定了权利与使用条款。
CreativeML OpenRAIL许可协议声明:
- 禁止利用模型故意生成或传播非法、有害内容
- CompVis对用户生成内容不主张任何权利,使用者可自由运用但须对使用行为负责,且不得违反许可条款
- 允许商业用途及服务形式重新分发模型权重,但必须包含相同的使用限制条款并向所有用户提供CreativeML OpenRAIL-M协议副本(请完整仔细阅读协议全文)
完整协议请见:https://huggingface.co/spaces/CompVis/stable-diffusion-license
点击下方"访问仓库"即表示同意将您的联系信息(邮箱与用户名)共享给模型作者。
额外授权确认字段:
□ 我已阅读并同意许可条款
衍生自runwayml/stable-diffusion-inpainting
稳定扩散修复模型(Stable Diffusion Inpainting)是一种潜在文本到图像扩散模型,能够根据文本输入生成逼真图像,并具备通过遮罩修复图像的额外功能。
Stable-Diffusion-Inpainting基于Stable-Diffusion-v-1-2权重初始化:首阶段进行59.5万步常规训练,随后在"laion-aesthetics v2 5+"数据集上以512x512分辨率进行44万步修复训练,期间10%的文本条件被随机丢弃以优化无分类器引导采样。修复模型中,UNet新增5个输入通道(4个用于编码遮罩图像,1个用于遮罩本身),这些通道权重在加载非修复检查点后初始化为零。训练时生成合成遮罩,其中25%情况会完全遮盖图像。
使用示例
可通过🧨Diffusers库或RunwayML GitHub仓库使用本模型。
Diffusers方式
from diffusers import StableDiffusionInpaintPipeline
pipe = StableDiffusionInpaintPipeline.from_pretrained(
"runwayml/stable-diffusion-inpainting",
revision="fp16",
torch_dtype=torch.float16,
)
prompt = "黄色猫咪的面部特写,高清画质,坐在公园长椅上"
image = pipe(prompt=prompt, image=image, mask_image=mask_image).images[0]
image.save("./yellow_cat_on_park_bench.png")
工作原理演示:
原图 |
遮罩图 |
 |
 |
提示词 |
输出结果 |
黄色猫咪的面部特写,高清画质,坐在公园长椅上 |
 |
原始GitHub仓库方式
- 下载权重文件sd-v1-5-inpainting.ckpt
- 按照此处说明操作
模型详情
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
用途
直接用途
本模型仅限研究用途,适用领域包括:
- 安全部署可能生成有害内容的模型
- 探究生成模型的局限性与偏差
- 艺术创作与设计应用
- 教育或创意工具开发
- 生成模型研究
禁用场景
注:本节改编自DALLE-MINI模型卡,同样适用于Stable Diffusion v1
禁用范围
- 不得用于故意制造或传播令人不适、痛苦或冒犯性内容
- 不得用于传播历史或现存刻板印象
- 模型未针对人物/事件的事实性表征进行训练,生成此类内容超出模型能力范围
恶意使用
包括但不限于:
- 生成贬低、非人化或伤害个人/群体/文化/宗教的内容
- 传播歧视性内容或有害刻板印象
- 未经同意的个人模仿
- 非合意性内容
- 虚假/误导信息
- 极端暴力/血腥内容
- 违反版权协议的内容分享
局限与偏差
局限性
- 无法实现完美照片级真实感
- 无法生成可读文本
- 对组合性任务(如"蓝色球体上的红色立方体")表现欠佳
- 人物面部生成可能不准确
- 主要基于英文描述训练,其他语言效果较差
- 自编码部分存在信息损失
- 训练数据含成人内容(来自LAION-5B),需额外安全机制
- 存在训练数据记忆现象(可通过CLIP检索工具检测)
偏差问题
模型可能强化社会偏见:
训练详情
训练数据
训练过程
稳定扩散v1是结合自编码器的潜在扩散模型:
- 图像通过编码器转为潜在表示(下采样因子8,HxWx3→H/fxW/fx4)
- 文本提示通过ViT-L/14文本编码器处理
- 文本编码器的非池化输出通过交叉注意力注入UNet主干
- 损失函数为潜在空间噪声与UNet预测的重构目标
检查点版本
sd-v1-1.ckpt
:laion2B-en上256x256分辨率23.7万步 + laion-high-resolution上512x512分辨率19.4万步
sd-v1-2.ckpt
:基于v1-1,在筛选后的"laion-improved-aesthetics"(≥512x512,美学评分>5.0,水印概率<0.5)上51.5万步
sd-v1-3.ckpt
:基于v1-2,"laion-improved-aesthetics"上19.5万步 + 10%文本条件丢弃
sd-v1-4.ckpt
:基于v1-2,"laion-aesthetics v2 5+"上22.5万步 + 10%文本条件丢弃
sd-v1-5.ckpt
:基于v1-2,"laion-aesthetics v2 5+"上59.5万步 + 10%文本条件丢弃
sd-v1-5-inpaint.ckpt
:基于v1-2,相同训练后追加44万步修复训练(UNet新增5个零初始化通道,25%全遮罩生成)
硬件配置
- 32台8xA100 GPU集群
- 优化器:AdamW
- 梯度累积:2步
- 批量大小:2048(32x8x2x4)
- 学习率:1e-4预热10000步后恒定
评估结果
不同无分类器引导尺度(1.5-8.0)和50步PLMS采样的对比:

基于COCO2017验证集1万条提示,512x512分辨率,50步PLMS采样,未优化FID分数
修复性能评估
采用LDM论文相同协议,固定提示词"photograph of a beautiful empty scene, highest quality settings":
模型 |
FID |
LPIPS |
Stable Diffusion Inpainting |
1.00 |
0.141 (±0.082) |
Latent Diffusion Inpainting |
1.50 |
0.137 (±0.080) |
CoModGAN |
1.82 |
0.15 |
LaMa |
2.21 |
0.134 (±0.080) |
环境影响
稳定扩散v1碳排放估算
基于机器学习碳排放计算器及Lacoste等(2019)方法:
- 硬件类型: A100 PCIe 40GB
- 使用时长: 150,000小时
- 云服务商: AWS
- 计算区域: 美国东部
- 碳排放量: 11,250 kg CO2当量
引用
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition