许可协议:creativeml-openrail-m
标签:
- 稳定扩散
- 稳定扩散-扩散器
- 文本生成图像
推理:支持
额外授权提示:
该模型采用CreativeML OpenRAIL-M许可证开放访问,进一步明确了权利和使用条款:
- 禁止利用模型故意生成或传播非法/有害内容
- AIML和CompVis均不声明对生成内容的权利,使用者需自行负责内容合规性
- 允许商用及服务化部署,但必须包含相同使用限制并向下游用户提供许可证副本
完整许可条款请参阅:https://huggingface.co/spaces/CompVis/stable-diffusion-license
点击下方"访问仓库"即表示同意向模型作者共享联系方式(电子邮箱和用户名)。
额外授权字段:
□ 我已阅读并同意许可条款
安全稳定扩散模型卡片
安全稳定扩散是一种潜在文本生成图像扩散模型,可根据文本输入生成逼真图像。该模型致力于抑制其他大型扩散模型可能意外生成的不当内容。
本模型与稳定扩散v1.5共享权重,详情请参阅稳定扩散v1.5和稳定扩散技术博客。
当前可通过ml-research GitHub仓库使用,即将支持扩散器库。更新进展请关注此拉取请求。
原始GitHub仓库
-
下载以下任一检查点:
-
安装安全潜在扩散库:
pip install git+https://github.com/ml-research/safe-latent-diffusion.git
-
按以下方式加载SLD管道:
from sld import SLDPipeline
device='cuda'
ckpt_path = '本地权重路径'
pipe = SLDPipeline.from_pretrained(ckpt_path).to(device)
不当内容定义
不当图像的判定标准因语境、文化背景和个人因素存在主观差异。本工作参考Gebru等人的定义:
"直接观看可能引发冒犯、侮辱、威胁或焦虑的内容"
——《Gebru等,数据集技术说明书,2021》
具体涵盖:仇恨、骚扰、暴力、自残、色情、惊悚、非法活动等类别。需注意不当内容的范围具有文化差异性和时代演变性。
模型详情
- 开发者:Patrick Schramowski, Manuel Brack
- 类型:基于扩散的文本生成图像模型(含内容抑制机制)
- 语言:英语
- 许可证:CreativeML OpenRAIL M许可证
- 描述:采用潜在扩散模型架构,固定文本编码器为CLIP ViT-L/14,主动抑制不当内容生成
- 资源:GitHub仓库 | 论文
- 引用格式:
@article{schramowski2022safe,
title={安全潜在扩散:缓解扩散模型中的不当退化},
author={Schramowski, Patrick等},
year={2022},
journal={arXiv预印本}
}
用途
直接用途
- 安全部署研究
- 生成模型局限性探究
- 艺术创作与设计辅助
- 教育/创意工具开发
禁用场景
- 制造敌对环境内容
- 传播历史/当代刻板印象
- 生成事实性人物/事件内容(超出模型能力范围)
误用与恶意使用
包括但不限于:
- 制造贬低性内容
- 传播歧视性信息
- 非同意身份冒充
- 非合意色情内容
- 暴力/血腥内容
- 侵犯版权内容
局限性与偏差
局限性
- 无法实现完美写实
- 文本渲染能力有限
- 组合性任务表现欠佳
- 人脸生成可能失真
- 主要支持英语提示
- 训练数据含成人内容(LAION-5B)
偏差
- 训练数据以英语描述为主
- 西方文化默认倾向明显
- 非英语提示效果显著下降
- 不当内容判定存在西方视角偏差
训练
数据:LAION-2B(en)及其子集
硬件:A100 GPU集群
评估结果
基于I2P基准的抑制效果:
类别 |
原始模型 |
弱抑制 |
中抑制 |
强抑制 |
最大抑制 |
仇恨 |
0.40 |
0.27 |
0.20 |
0.15 |
0.09 |
总体 |
0.39 |
0.29 |
0.19 |
0.13 |
0.09 |
环境影响
碳排放估算:
- 硬件:A100 PCIe 40GB & A100 SXM4 80GB
- 计算时长:130小时
- 碳排放当量:20.62 kg CO2
本模型卡片基于稳定扩散v1.5模型卡片编写