pipeline_tag: 文本生成图像
inference: false
license: other
license_name: sai-nc-community
license_link: https://huggingface.co/stabilityai/sdxl-turbo/blob/main/LICENSE.md
SDXL-Turbo 模型卡片
SDXL-Turbo是一款快速的生成式文本到图像模型,能够通过单次网络评估从文本提示生成逼真的图像。
实时演示请访问:http://clipdrop.co/stable-diffusion-turbo
请注意:商业用途请参考 https://stability.ai/license。
模型详情
模型描述
SDXL-Turbo是SDXL 1.0的蒸馏版本,专为实时合成训练。
SDXL-Turbo基于一种称为对抗扩散蒸馏(ADD)的新训练方法(参见技术报告),该方法允许在1到4步内以高质量采样大规模基础图像扩散模型。
这种方法利用分数蒸馏来利用大规模现成的图像扩散模型作为教师信号,并结合对抗损失确保即使在一步或两步采样的低步数区域也能保持高图像保真度。
- 开发者: Stability AI
- 资助者: Stability AI
- 模型类型: 生成式文本到图像模型
- 微调自模型: SDXL 1.0 Base
模型来源
出于研究目的,我们推荐我们的generative-models
Github仓库(https://github.com/Stability-AI/generative-models),
该仓库实现了最流行的扩散框架(包括训练和推理)。
- 仓库: https://github.com/Stability-AI/generative-models
- 论文: https://stability.ai/research/adversarial-diffusion-distillation
- 演示: http://clipdrop.co/stable-diffusion-turbo
评估
上图评估了用户对SDXL-Turbo与其他单步和多步模型的偏好。
在图像质量和提示跟随方面,单步评估的SDXL-Turbo比四步(或更少)评估的LCM-XL更受人类投票者青睐。
此外,我们发现使用四步评估的SDXL-Turbo进一步提高了性能。
有关用户研究的详细信息,请参阅研究论文。
用途
直接使用
该模型适用于非商业和商业用途。您可以根据此许可证将本模型用于非商业或研究目的。可能的研究领域和任务包括
- 生成模型的研究。
- 生成模型实时应用的研究。
- 实时生成模型影响的研究。
- 可能生成有害内容的模型的安全部署。
- 探索和理解生成模型的局限性和偏见。
- 艺术作品的生成以及设计和其它艺术过程中的使用。
- 教育或创意工具中的应用。
商业用途请参考 https://stability.ai/membership。
排除的用途如下所述。
Diffusers
pip install diffusers transformers accelerate --upgrade
SDXL-Turbo不使用guidance_scale
或negative_prompt
,我们通过guidance_scale=0.0
禁用它。
模型首先生成512x512大小的图像,但更大的图像尺寸也可以。
单步足以生成高质量图像。
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
prompt = "电影镜头中的一只小浣熊穿着复杂的意大利牧师袍。"
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]
当使用SDXL-Turbo进行图像到图像生成时,确保num_inference_steps
* strength
大于或等于1。
图像到图像管道将运行int(num_inference_steps * strength)
步,例如我们下面的示例中0.5 * 2.0 = 1步。
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "猫巫师,甘道夫,指环王,详细,奇幻,可爱,迷人,皮克斯,迪士尼,8k"
image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]
超出范围的用途
该模型未经过训练以生成人物或事件的真实或准确表示,
因此使用该模型生成此类内容超出了该模型的能力范围。
不得以任何违反Stability AI可接受使用政策的方式使用该模型。
局限性和偏见
局限性
- 生成的图像具有固定分辨率(512x512像素),且模型无法实现完美的照片级真实感。
- 模型无法渲染可读文本。
- 面部和人物可能无法正确生成。
- 模型的自动编码部分是有损的。
建议
该模型适用于非商业和商业用途。
如何开始使用模型
访问 https://github.com/Stability-AI/generative-models