许可证:creativeml-openrail-m
标签:
额外授权标题:请阅读许可证以访问本模型
稳定扩散v1-5模型卡
稳定扩散是一种潜在文本到图像扩散模型,能够根据文本输入生成逼真图像。
功能原理详见🤗稳定扩散博客。
Stable-Diffusion-v1-5检查点基于Stable-Diffusion-v1-2权重初始化,
后在"laion-aesthetics v2 5+"数据集上以512x512分辨率进行595k步微调,并采用10%文本条件丢弃以优化无分类器引导采样。
可通过🧨Diffusers库或RunwayML GitHub仓库使用。
Diffusers示例
from diffusers import StableDiffusionPipeline
import torch
model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, revision="fp16")
pipe = pipe.to("cuda")
prompt = "宇航员在火星骑马的照片"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
更多JAX用例详见使用说明
原始GitHub仓库
- 下载权重:
- 遵循操作指南
模型详情
- 开发者: Robin Rombach, Patrick Esser
- 类型: 基于扩散的文本生成图像模型
- 语言: 英语
- 许可证: CreativeML OpenRAIL M许可证,源自BigScience与RAIL倡议的合作成果
- 描述: 采用潜在扩散模型架构,固定文本编码器为CLIP ViT-L/14
- 资源: GitHub仓库, 论文
- 引用格式:
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
用途
直接用途
本模型仅供研究使用,适用领域包括:
- 安全部署可能生成有害内容的模型
- 探究生成模型的局限性与偏差
- 艺术创作与设计应用
- 教育/创意工具开发
禁用用途
(改编自DALLE-MINI模型卡)
禁止用于:
- 制造敌对性内容或传播历史偏见
- 生成虚假事实性内容
- 制作侮辱性、非自愿色情、暴力内容
- 侵犯版权或违反许可条款
局限性与偏差
局限性
- 无法实现完美逼真度
- 文本渲染能力有限
- 复杂构图任务表现欠佳
- 非英语提示效果较差
- 训练数据含成人内容(LAION-5B数据集)
偏差
主要训练数据LAION-2B(en)以英文描述为主,可能导致:
安全模块
建议配合Diffusers的安全检查器使用,通过CLIP文本模型嵌入空间检测NSFW内容。
训练
数据: LAION-2B(en)及其子集
过程:
- 图像经编码器转换为潜在表示(下采样因子8)
- 文本提示通过ViT-L/14编码器处理
- 采用UNet骨干网络进行交叉注意力计算
- 损失函数为潜在空间噪声预测重建
硬件: 32×8 A100 GPU
参数:
- 优化器:AdamW
- 批次:2048
- 学习率:0.0001(10000步预热)
评估结果
不同无分类器引导尺度(1.5-8.0)与50步PNDM/PLMS采样的对比:

环境影响
碳排放估算:
- 硬件:A100 PCIe 40GB
- 用时:150000小时
- 云服务商:AWS美东区域
- 碳排放量:11250 kg CO2当量
本模型卡由Robin Rombach和Patrick Esser编写,参考DALL-E Mini模型卡格式。