许可协议:creativeml-openrail-m
标签:
- 稳定扩散
- 稳定扩散-扩散器
- 文本生成图像
推理:false
库名称:diffusers
额外授权提示:
获取此模型前还需完成一步。
本模型采用CreativeML OpenRAIL-M许可证,面向所有人开放访问,并进一步规定了权利与使用条款。
CreativeML OpenRAIL许可证明确规定:
- 禁止利用模型故意生成或传播非法、有害内容
- CompVis对用户生成内容不主张任何权利,使用者需自行负责内容合规性
- 允许商用及服务化使用,但须包含相同使用限制条款并向所有用户提供许可证副本
完整许可证请查阅:
https://huggingface.co/spaces/CompVis/stable-diffusion-license
点击下方"访问仓库"即表示同意向模型作者共享您的联系信息(电子邮件与用户名)。
授权确认字段:
□ 我已阅读并同意许可证条款
衍生来源:runwayml/stable-diffusion-inpainting
稳定扩散修复模型
本潜空间文本-图像扩散模型不仅能根据文本输入生成逼真图像,还具备通过遮罩进行图像修复的增强功能。
模型初始化
基于Stable-Diffusion-v-1-2权重:
- 前59.5万步常规训练
- 后44万步在512x512分辨率"laion-aesthetics v2 5+"数据集上训练
- 10%文本条件丢弃以优化无分类器引导采样
修复功能实现
UNet新增5个输入通道(4个用于编码遮罩图像,1个用于遮罩本身),权重在加载非修复检查点后初始化为零。训练时生成合成遮罩,其中25%情况完全遮罩图像。
使用示例
可通过🧨Diffusers库或RunwayML GitHub仓库使用
Diffusers方式
from diffusers import StableDiffusionInpaintPipeline
pipe = StableDiffusionInpaintPipeline.from_pretrained(
"runwayml/stable-diffusion-inpainting",
revision="fp16",
torch_dtype=torch.float16,
)
prompt = "黄色猫的脸部特写,高清画质,坐在公园长椅上"
image = pipe(prompt=prompt, image=image, mask_image=mask_image).images[0]
image.save("./yellow_cat_on_park_bench.png")
工作原理图示
原始图像 |
遮罩图像 |
 |
 |
文本提示 |
输出结果 |
黄色猫的脸部特写,高清画质,坐在公园长椅 |
 |
原始GitHub仓库方式
- 下载权重sd-v1-5-inpainting.ckpt
- 按照此处说明操作
模型详情
使用限制
研究用途
- 安全部署研究
- 探索生成模型的局限性
- 艺术创作与设计应用
- 教育工具开发
禁止用途
- 制造敌对性内容
- 传播歧视性刻板印象
- 非自愿肖像生成
- 暴力/色情内容生成
- 侵犯版权内容
局限性
- 无法实现完美写实
- 文本渲染能力有限
- 复杂构图表现欠佳
- 非英语提示效果下降
- 训练数据包含成人内容
训练数据
基于LAION-2B(en)数据集子集,主要包含英文描述内容,可能强化西方文化默认视角。
环境影响
碳排放估算
- 硬件:A100 PCIe 40GB
- 训练时长:150,000小时
- 预估碳排放:11,250 kg CO2当量
引用格式
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
本模型卡片由Robin Rombach和Patrick Esser编写,基于DALL-E Mini模型卡片架构。