许可协议:creativeml-openrail-m
标签:
- 稳定扩散
- 稳定扩散-扩散器
- 文本生成图像
推理:禁用
库名称:diffusers
额外授权提示:
获取此模型前还需完成一步。
本模型采用CreativeML OpenRAIL-M许可证,面向所有人开放访问,进一步明确了权利与使用条款。
CreativeML OpenRAIL许可证规定:
- 禁止利用模型故意生成或传播非法、有害内容
- CompVis对用户生成内容不主张任何权利,使用者可自由运用但需对合规性负责
- 允许商用或服务化形式重新分发模型权重,但须包含相同使用限制条款并向所有用户提供CreativeML OpenRAIL-M许可证副本
完整许可证请查阅:https://huggingface.co/spaces/CompVis/stable-diffusion-license
点击下方"访问仓库"即表示同意将联系方式(邮箱与用户名)共享给模型作者。
额外授权确认项:
□ 我已阅读并同意许可证条款
稳定扩散修复(Stable Diffusion Inpainting)是一款基于潜在扩散模型的文本生成图像系统,不仅能根据文本输入生成逼真图像,还具备通过遮罩修复图像的增强功能。
Stable-Diffusion-Inpainting模型以Stable-Diffusion-v-1-2的权重初始化。先进行595k步常规训练,后在512x512分辨率的"laion-aesthetics v2 5+"数据集上执行440k步修复训练,并采用10%文本条件丢弃以优化无分类器引导采样。修复版UNet新增5个输入通道(4个用于编码遮罩图像,1个用于遮罩本身),这些通道权重在加载非修复检查点后初始化为零。训练期间生成合成遮罩,其中25%情况会完全遮蔽图像。
使用示例
可通过🧨Diffusers库或RunwayML GitHub仓库使用本模型。
Diffusers方式
from diffusers import StableDiffusionInpaintPipeline
pipe = StableDiffusionInpaintPipeline.from_pretrained(
"runwayml/stable-diffusion-inpainting",
revision="fp16",
torch_dtype=torch.float16,
)
prompt = "黄色猫咪的面部特写,高清画质,坐在公园长椅上"
image = pipe(prompt=prompt, image=image, mask_image=mask_image).images[0]
image.save("./yellow_cat_on_park_bench.png")
工作原理图示
原图 |
遮罩图 |
 |
 |
提示词 |
输出结果 |
黄色猫咪的面部特写,高清画质,坐在公园长椅上 |
 |
原始GitHub仓库方式
- 下载权重文件sd-v1-5-inpainting.ckpt
- 按照此处说明操作
模型详情
使用限制
- 无法实现完美照片级真实感
- 无法生成可读文本
- 对复杂组合任务(如"蓝色球体上的红色立方体")表现欠佳
- 人物面部生成可能不准确
- 主要基于英文描述训练,其他语言效果较差
- 训练数据包含成人内容,需额外安全机制
训练数据
基于LAION-2B(en)数据集及其子集训练
环境影响
碳排放估算
使用A100 PCIe 40GB显卡训练150,000小时,约产生11,250公斤CO2当量
引用文献
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
本模型卡片由Robin Rombach和Patrick Esser编写,基于DALL-E Mini模型卡片模板