许可证:creativeml-openrail-m
标签:
- stable-diffusion
- stable-diffusion-diffusers
- text-to-image
示例输入:
- 文本:"亚马逊雨林中的高科技太阳能朋克乌托邦"
示例标题:亚马逊雨林
- 文本:"皮卡丘在埃菲尔铁塔旁享用高级餐饮"
示例标题:巴黎的皮卡丘
- 文本:"贫民窟中的表现主义风格机甲机器人"
示例标题:表现主义机器人
- 文本:"一只昆虫机器人正在准备美味佳肴"
示例标题:昆虫机器人
- 文本:"迪士尼风格雪山顶上的小木屋,artstation风格"
示例标题:雪中迪士尼小屋
附加授权提示:
本模型采用CreativeML OpenRAIL-M许可证开放访问,允许所有用户使用。该许可证明确规定:
- 禁止利用模型故意生成或传播非法、有害内容
- 模型作者对生成内容不主张权利,使用者需自行负责内容合规性
- 允许商用及再分发,但必须包含相同使用限制并向所有用户提供许可证副本
完整许可证请查阅:https://huggingface.co/spaces/CompVis/stable-diffusion-license
访问声明:请阅读LICENSE文件以使用本模型
Stable Diffusion v1-4 模型卡
Stable Diffusion 是一种潜在文本到图像扩散模型,能够根据任意文本输入生成逼真图像。了解工作原理请参阅🤗的Diffusers博客。
Stable-Diffusion-v1-4 基于v1-2权重,在"laion-aesthetics v2 5+"数据集上以512x512分辨率微调225k步,并采用10%文本条件丢弃以优化分类器无关引导采样。
本权重需配合🧨Diffusers库使用,如需原始CompVis代码库版本请转至此处。
模型详情
- 开发者: Robin Rombach, Patrick Esser
- 类型: 基于扩散的文本生成图像模型
- 语言: 英语
- 许可证: CreativeML OpenRAIL M,改编自BigScience与RAIL倡议的合作成果
- 描述: 采用潜在扩散模型架构,固定文本编码器为CLIP ViT-L/14
- 资源: GitHub仓库, 论文
- 引用格式:
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin et al.},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {CVPR},
year = {2022},
pages = {10684-10695}
}
使用示例
推荐使用🤗Diffusers库。
PyTorch
pip install --upgrade diffusers transformers scipy
基础调用:
import torch
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", torch_dtype=torch.float16).to("cuda")
image = pipe("宇航员在火星骑马的照片").images[0]
image.save("astronaut_rides_horse.png")
GPU内存优化(<4GB):
pipe.enable_attention_slicing()
更换噪声调度器:
from diffusers import EulerDiscreteScheduler
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler)
JAX/Flax(TPU/GPU加速)
from diffusers import FlaxStableDiffusionPipeline
pipeline, params = FlaxStableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", dtype=jax.numpy.bfloat16)
images = pipeline("宇航员在火星骑马的照片", params, jax.random.PRNGKey(0)).images
用途与限制
研究用途:
- 生成内容安全部署
- 探索生成模型局限性
- 艺术创作与设计应用
- 教育/创意工具开发
禁止用途:
- 生成令人不适/冒犯性内容
- 传播歧视性刻板印象
- 非consensual色情内容
- 政治虚假信息
- 侵犯版权内容
局限性
- 无法完美实现照片级真实感
- 文本渲染能力有限
- 复杂构图(如"蓝色球体上的红色立方体")表现欠佳
- 人脸生成可能失真
- 主要支持英语提示词
- 训练数据包含LAION-5B的成人内容
训练细节
- 数据: LAION-2B(en)及其子集
- 硬件: 32×8×A100 GPU
- 批次: 2048
- 学习率: 0.0001(10000步预热)
环境影响
- 硬件: A100 PCIe 40GB
- 训练时长: 150,000小时
- 碳排放: 约11,250 kg CO2当量
本模型卡改编自DALL-E Mini模型卡,由Robin Rombach和Patrick Esser撰写。