许可协议:creativeml-openrail-m
标签:
-
稳定扩散
-
稳定扩散-扩散器
-
图像到图像
推理:支持
额外授权提示:>
本模型采用CreativeML OpenRAIL-M许可证开放访问,允许所有人使用,该协议进一步明确了权利和使用规范。
CreativeML OpenRAIL许可证规定:
- 禁止利用模型故意生成或传播非法及有害内容
- CompVis对用户生成内容不主张任何权利,使用者需自行负责内容合规性
- 允许商用及再分发模型权重,但须包含相同使用限制条款并向所有用户提供许可证副本
完整许可证请查阅:
https://huggingface.co/spaces/CompVis/stable-diffusion-license
额外访问标题:请阅读许可证以使用本模型
复刻来源:runwayml/stable-diffusion-v1-5
管道标签:图像到图像
稳定扩散v1-5模型卡
稳定扩散是一种基于潜在扩散模型的文生图技术,能够根据文本输入生成逼真图像。更多技术细节请参阅🤗稳定扩散博客。
Stable-Diffusion-v1-5检查点基于v1-2版本权重初始化,后在"laion-aesthetics v2 5+"数据集上以512x512分辨率进行595,000步微调,并采用10%文本条件丢弃策略以优化无分类器引导采样。
可通过🧨Diffusers库或RunwayML代码库使用。
Diffusers示例
from diffusers import StableDiffusionPipeline
import torch
model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "宇航员在火星骑马的照片"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
更多JAX用例详见使用指南
原始代码库
- 下载权重文件:
- 按照说明文档操作
模型详情
- 开发者:Robin Rombach, Patrick Esser
- 类型:基于扩散的文本生成图像模型
- 语言:英语
- 许可证:CreativeML OpenRAIL M,源自BigScience与RAIL Initiative的责任AI许可框架
- 描述:采用潜在扩散模型架构,固定文本编码器为CLIP ViT-L/14
- 资源:GitHub仓库、论文
- 引用格式:
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
用途
直接使用
本模型限研究用途,包括:
- 安全部署生成模型
- 探究生成模型的局限性与偏差
- 艺术创作与设计辅助
- 教育/创意工具开发
禁用场景
(改编自DALLE-MINI模型卡)
禁止用于:
- 制造敌对性内容
- 传播歧视性刻板印象
- 非自愿人物模仿
- 非合意成人内容
- 虚假信息传播
- 暴力血腥内容
- 侵犯版权内容
局限与偏差
局限
- 非完美写实效果
- 文本渲染能力有限
- 复杂构图(如"蓝色球体上的红色立方体")表现欠佳
- 人物面部生成可能失真
- 主要支持英语提示词
- 自编码部分存在信息损耗
- 训练数据含成人内容(LAION-5B数据集)
偏差
训练数据(LAION-2B(en))以英语描述为主,可能导致:
安全模块
建议配合Diffusers的安全检查器使用,该模块通过CLIP文本模型嵌入空间比对硬编码NSFW概念。
训练
数据:LAION-2B(en)及其子集
过程:
- 图像经编码器转换为潜在表示(下采样率8倍)
- 文本提示通过ViT-L/14编码器处理
- 文本编码输出通过交叉注意力注入UNet主干
- 采用潜在噪声重建目标函数
硬件:32×8×A100 GPU
参数:AdamW优化器,2048批量大小,0.0001学习率
评估结果
不同无分类器引导尺度(1.5-8.0)下50步PNDM/PLMS采样的相对改进:

环境影响
碳排放估算(基于ML Impact计算器):
- 硬件:A100 PCIe 40GB
- 耗时:150,000小时
- 云服务:AWS美东区域
- 碳排放量:11,250 kg CO2当量
本模型卡由Robin Rombach和Patrick Esser编写,参考DALL-E Mini模型卡格式。