sd-turbo开源图像生成模型 - 单次推理快速将文本转化为逼真图像

首页

Sd Turbo

由 stabilityai 开发

SD-Turbo是一款高速文本生成图像模型，仅需单次网络推理即可根据文本提示生成逼真图像。该模型作为研究原型发布，旨在探索小型蒸馏文本生成图像模型。

图像生成 #实时图像生成 #单步推理 #对抗蒸馏

下载量 502.82k

发布时间 : 11/27/2023

模型简介

SD-Turbo是Stable Diffusion 2.1的蒸馏版本，专为实时生成优化。其核心技术为对抗扩散蒸馏（ADD）训练法，可在1-4步内生成高质量图像。

模型特点

高速生成

仅需单次网络推理即可生成图像，适合实时应用场景

对抗扩散蒸馏技术

采用ADD训练法，结合分数蒸馏和对抗损失，确保低步数采样下的图像质量

轻量级模型

作为小型蒸馏模型，相比原始版本更高效

模型能力

文本生成图像

图像引导生成

使用案例

创意设计

艺术创作辅助

快速生成创意概念图像

可在1-4步内生成512x512像素的图像

教育工具开发

用于开发创意教育工具

研究

生成模型研究

探索小型蒸馏文本生成图像模型

实时生成应用探索

研究实时生成模型的影响和应用

🚀 SD-Turbo模型卡

SD-Turbo是一款快速的文本到图像生成模型，能够在单次网络评估中根据文本提示合成逼真的图像。我们将SD-Turbo作为研究成果发布，旨在研究小型、蒸馏式的文本到图像模型。若追求更高质量和更好的提示理解能力，建议使用SDXL-Turbo。

请注意：商业使用请参考https://stability.ai/license 。

🚀 快速开始

若想了解该模型的研究相关内容，推荐访问generative-models的GitHub仓库（https://github.com/Stability-AI/generative-models ），其中实现了最流行的扩散框架（包括训练和推理）。

✨ 主要特性

快速生成：能够在单次网络评估中合成图像。
基于创新训练方法：采用对抗扩散蒸馏（ADD）方法，可在1 - 4步内以高质量采样大规模基础图像扩散模型。
高质量图像：结合分数蒸馏和对抗损失，即使在1 - 2步的低采样步骤中也能确保高图像保真度。

📦 安装指南

使用Diffusers库时，可通过以下命令进行安装：

pip install diffusers transformers accelerate --upgrade

💻 使用示例

基础用法

文本到图像

SD-Turbo不使用guidance_scale或negative_prompt，可通过guidance_scale=0.0禁用。模型优选生成512x512大小的图像，但更高尺寸也适用。只需单步即可生成高质量图像。

from diffusers import AutoPipelineForText2Image
import torch

pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sd-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")

prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]

图像到图像

使用SD-Turbo进行图像到图像生成时，需确保num_inference_steps * strength大于或等于1。图像到图像管道将运行int(num_inference_steps * strength)步，例如下面示例中的0.5 * 2.0 = 1步。

from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch

pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sd-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")

init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"

image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]

📚 详细文档

模型详情

模型描述

SD-Turbo是Stable Diffusion 2.1的蒸馏版本，专为实时合成而训练。SD-Turbo基于一种名为对抗扩散蒸馏（ADD）的新型训练方法（详见技术报告），该方法允许在1 - 4步内以高质量采样大规模基础图像扩散模型。这种方法利用分数蒸馏，将大规模现成的图像扩散模型作为教师信号，并结合对抗损失，以确保即使在1 - 2步的低采样步骤中也能保证高图像保真度。

开发者：Stability AI
资助方：Stability AI
模型类型：生成式文本到图像模型
微调基础模型：Stable Diffusion 2.1

模型来源

为便于研究，推荐使用generative-models的GitHub仓库（https://github.com/Stability-AI/generative-models ），其中实现了最流行的扩散框架（包括训练和推理）。

仓库地址：https://github.com/Stability-AI/generative-models
论文地址：https://stability.ai/research/adversarial-diffusion-distillation
[更大版本SDXL-Turbo的]演示地址：http://clipdrop.co/stable-diffusion-turbo

评估

comparison1 comparison2 上述图表评估了用户对SD-Turbo相对于其他单步和多步模型的偏好。在图像质量和提示遵循度方面，单步评估的SD-Turbo更受人类投票者青睐。

注意：若追求更高质量，建议使用更大版本的SDXL-Turbo。用户研究详情请参考研究论文。

使用范围

直接使用

该模型适用于非商业和商业用途。可能的研究领域和任务包括：

生成式模型研究。
生成式模型实时应用研究。
实时生成式模型影响研究。
具有生成有害内容潜在风险的模型的安全部署。
探究和理解生成式模型的局限性和偏差。
艺术品生成及在设计和其他艺术过程中的应用。
教育或创意工具中的应用。

商业使用请参考https://stability.ai/membership 。

以下为排除使用情况。

超出适用范围的使用

该模型并非用于生成事实性或真实反映人物或事件的内容，因此使用该模型生成此类内容超出了其能力范围。不得在任何违反Stability AI可接受使用政策的情况下使用该模型。

局限性和偏差

局限性

与SDXL-Turbo相比，质量和提示遵循度较低。
生成的图像分辨率固定为512x512像素，且无法实现完美的逼真效果。
无法渲染清晰可读的文本。
人物面部和整体人物可能无法正确生成。
模型的自动编码部分存在信息损失。

建议

该模型适用于非商业和商业用途。

如何开始使用该模型

请访问https://github.com/Stability-AI/generative-models 。

信息表格

属性	详情
模型类型	生成式文本到图像模型
微调基础模型	Stable Diffusion 2.1
开发者	Stability AI
资助方	Stability AI
仓库地址	https://github.com/Stability-AI/generative-models
论文地址	https://stability.ai/research/adversarial-diffusion-distillation
[更大版本SDXL-Turbo的]演示地址	http://clipdrop.co/stable-diffusion-turbo