许可证:creativeml-openrail-m
标签:
- stable-diffusion
- stable-diffusion-diffusers
- text-to-image
示例输入:
- 文本:"亚马逊雨林中的高科技太阳能朋克乌托邦"
示例标题:亚马逊雨林
- 文本:"皮卡丘在埃菲尔铁塔旁享用美食"
示例标题:巴黎的皮卡丘
- 文本:"贫民窟中表现主义风格的机甲机器人"
示例标题:表现主义机器人
- 文本:"一只昆虫机器人在准备美味佳肴"
示例标题:昆虫机器人
- 文本:"迪士尼风格雪山顶上的小木屋,艺术站风格"
示例标题:雪中迪士尼小屋
附加授权提示:
本模型采用CreativeML OpenRAIL-M许可证开放访问,允许所有人使用。该许可证明确规定:
- 禁止故意生成或分享非法、有害内容
- 开发者对生成内容不主张权利,使用者需自行负责且不得违反许可条款
- 允许商用及再分发,但必须包含相同使用限制并向所有用户提供许可证副本
完整许可证请查阅:https://huggingface.co/spaces/CompVis/stable-diffusion-license
授权访问标题:请阅读许可证以使用本模型
Stable Diffusion v1-4 模型卡
Stable Diffusion 是一款基于潜在扩散模型的文生图系统,能够根据文本输入生成逼真图像。了解更多原理请参阅🤗Diffusers博客。
Stable-Diffusion-v1-4 检查点基于v1-2版本权重,在"laion-aesthetics v2 5+"数据集上以512x512分辨率微调225k步,并采用10%文本条件丢弃以优化无分类器引导采样。
本权重需配合🧨Diffusers库使用,如需CompVis原版代码库权重请访问此处。
模型详情
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
使用示例
推荐使用🤗Diffusers库运行。
PyTorch
pip install --upgrade diffusers transformers scipy
基础调用:
import torch
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", torch_dtype=torch.float16).to("cuda")
image = pipe("宇航员在火星骑马的照片").images[0]
image.save("astronaut_rides_horse.png")
GPU内存优化方案:
pipe.enable_attention_slicing()
更换调度器示例:
from diffusers import EulerDiscreteScheduler
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
JAX/Flax
TPU/GPU加速方案:
from diffusers import FlaxStableDiffusionPipeline
pipeline, params = FlaxStableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", revision="flax", dtype=jax.numpy.bfloat16)
images = pipeline(prompt_ids, params, prng_seed, num_inference_steps=50, jit=True).images
使用范围
研究用途:
- 生成内容的安全部署研究
- 探索生成模型的局限性
- 艺术创作与设计应用
- 教育工具开发
禁止用途:
- 生成令人不适/歧视性内容
- 伪造真人肖像
- 传播暴力/色情内容
- 侵犯版权素材
局限性
- 无法完美实现照片级真实感
- 文本渲染效果欠佳
- 复杂构图(如"蓝球上的红立方体")处理能力有限
- 人脸生成可能失真
- 主要支持英语提示词
- 训练数据包含LAION-5B的成人内容
训练信息
- 数据:LAION-2B(en)及其子集
- 硬件:32×8×A100 GPU
- 参数:AdamW优化器,2048批量大小,0.0001学习率
- 阶段:
- v1-1:237k步@256x256 + 194k步@512x512
- v1-2:515k步@512x512(美学优化数据集)
- v1-3:195k步@512x512 + 10%文本条件丢弃
- v1-4:225k步@512x512(laion-aesthetics v2 5+)
环境影响
碳排放估算:
- 硬件:A100 PCIe 40GB
- 计算时长:150,000小时
- 云服务商:AWS美东区域
- 碳排放量:11,250 kg CO2当量
本模型卡由Robin Rombach和Patrick Esser编写,参考DALL-E Mini模型卡格式。