许可协议:creativeml-openrail-m
标签:
-
稳定扩散
-
稳定扩散-扩散器
-
文本生成图像
推理:支持
额外授权提示:>
本模型采用CreativeML OpenRAIL-M许可证开放访问,允许所有人使用,该许可证进一步明确了权利和使用规范。
CreativeML OpenRAIL许可证规定:
- 禁止使用本模型故意生成或传播非法及有害内容
- CompVis对用户生成内容不主张任何权利,使用者可自由运用但须对使用行为负责,且不得违反许可证条款
- 允许商用或作为服务重新分发模型权重,但须包含相同的使用限制条款并向所有用户提供CreativeML OpenRAIL-M许可证副本(请完整仔细阅读许可证)
完整许可证请查阅:
https://huggingface.co/spaces/CompVis/stable-diffusion-license
额外授权标题:请阅读许可证以访问本模型
复刻来源:runwayml/stable-diffusion-v1-5
稳定扩散v1-5模型卡
稳定扩散是一种潜在文本生成图像扩散模型,可根据任意文本输入生成逼真图像。
功能原理详见🤗稳定扩散博客。
Stable-Diffusion-v1-5检查点基于Stable-Diffusion-v1-2权重初始化,后在512x512分辨率的"laion-aesthetics v2 5+"数据集上进行了595k步微调,并采用10%文本条件丢弃以优化分类器自由引导采样。
可通过🧨Diffusers库或RunwayML GitHub仓库使用。
Diffusers示例
from diffusers import StableDiffusionPipeline
import torch
model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "宇航员在火星上骑马的照片"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
更多JAX使用案例详见说明
原始GitHub仓库
- 下载权重文件:
- 按照指南操作
模型详情
- 开发团队:Robin Rombach, Patrick Esser
- 模型类型:基于扩散的文本生成图像模型
- 语言:英语
- 许可证:改编自BigScience与RAIL Initiative共同制定的Open RAIL M许可证,详见BLOOM许可证说明
- 模型描述:采用潜在扩散模型架构,固定使用CLIP ViT-L/14文本编码器
- 资源:GitHub仓库,论文
- 引用格式:
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
用途
直接用途
本模型仅限研究使用,包括:
- 安全部署可能生成有害内容的模型
- 探究生成模型的局限性与偏见
- 艺术创作与设计应用
- 教育/创意工具开发
禁用场景
(改编自DALLE-MINI模型卡)
禁用范围:
- 故意制造令人不适/歧视性内容
- 生成虚假历史事件或人物形象
- 未经许可的人物模仿
- 非自愿色情内容
- 暴力血腥场景
- 侵犯版权内容
局限与偏见
局限:
- 无法实现完美逼真度
- 文字渲染不清晰
- 复杂构图(如"蓝色球体上的红色立方体")表现欠佳
- 人脸生成可能失真
- 主要支持英语提示
- 自编码部分存在信息损耗
- 训练数据含成人内容(LAION-5B数据集)
偏见:
训练数据(LAION-2B(en))以英文描述为主,导致:
安全模块
建议配合Diffusers的安全检查器使用,该模块通过CLIP文本模型嵌入空间比对硬编码NSFW概念。
训练
训练数据:LAION-2B(en)及其子集
训练配置:
- 硬件:32×8×A100 GPU
- 优化器:AdamW
- 梯度累积:2步
- 批量大小:2048
- 学习率:10000步预热至0.0001后保持
评估结果
不同分类器引导尺度(1.5-8.0)下50步PNDM/PLMS采样的相对改进:

环境影响
碳排放估算(基于ML Impact计算器):
- 硬件类型:A100 PCIe 40GB
- 使用时长:150000小时
- 云服务商:AWS美东区域
- 碳排放量:11250 kg CO2当量
本模型卡由Robin Rombach和Patrick Esser编写,参考DALL-E Mini模型卡格式。