许可证:creativeml-openrail-m
标签:
-
stable-diffusion
-
stable-diffusion-diffusers
-
text-to-image
推理:true
额外授权提示:>
本模型采用CreativeML OpenRAIL-M许可证开放访问,允许所有人使用,并进一步规定了权利与用途。
CreativeML OpenRAIL许可证明确规定:
- 禁止利用模型故意生成或传播非法及有害内容
- CompVis对用户生成内容不主张任何权利,使用者需自行负责内容合规性
- 允许商用及服务化使用,但须包含相同使用限制条款并向所有用户提供许可证副本
完整许可证请查阅:
https://huggingface.co/spaces/CompVis/stable-diffusion-license
额外授权标题:请阅读许可证以访问模型
复刻来源:runwayml/stable-diffusion-v1-5
Stable Diffusion v1-5 模型卡
Stable Diffusion是一款基于潜在扩散模型的文生图系统,能够根据文本输入生成逼真图像。技术细节详见🤗官方博客。
Stable-Diffusion-v1-5基于v1-2版本权重,在512x512分辨率"laion-aesthetics v2 5+"数据集上进行了595k步微调,并采用10%文本条件丢弃策略以优化分类器自由引导采样。
支持通过🧨Diffusers库或RunwayML代码库使用。
Diffusers示例
from diffusers import StableDiffusionPipeline
import torch
model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "火星上宇航员骑马的照片"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
更多JAX用例详见使用指南
原始代码库
- 下载权重文件:
- 按照说明文档操作
模型详情
- 开发者:Robin Rombach, Patrick Esser
- 类型:扩散式文生图模型
- 语言:英语
- 许可证:基于Open RAIL M的CreativeML OpenRAIL M许可证,受BigScience与RAIL Initiative启发
- 原理:采用潜在扩散模型架构,固定文本编码器为CLIP ViT-L/14
- 资源:GitHub仓库 | 论文
- 引用格式:
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
用途
直接使用
本模型限研究用途,包括:
- 生成内容安全部署研究
- 探索生成模型的局限性
- 艺术创作与设计辅助
- 教育/创意工具开发
禁止用途
(改编自DALLE-MINI模型卡)
- 制造歧视性/暴力内容
- 生成非自愿成人内容
- 传播虚假信息
- 侵犯版权内容
局限性
- 无法完美呈现文字
- 复杂构图(如"蓝球上的红立方体")表现欠佳
- 人脸生成可能失真
- 主要支持英语提示
- 训练数据含LAION-5B成人内容
- 存在图像记忆现象(可通过检索工具检测)
安全机制
建议配合Diffusers的安全检查器使用,该模块会比对CLIP文本模型嵌入空间中的NSFW概念概率。
训练
数据:LAION-2B(en)及其子集
配置:
- 硬件:32×8×A100 GPU
- 优化器:AdamW(学习率0.0001)
- 批量:2048
- 训练步骤:595k@512×512
环境影响
碳排放估算(基于ML Impact计算器):
- 硬件:A100 PCIe 40GB
- 计算时长:150,000小时
- 云服务商:AWS美东区域
- 碳排放量:11,250 kg CO2当量
本模型卡由Robin Rombach与Patrick Esser编写,参考DALL-E Mini模型卡格式