pipeline_tag: 文本生成图像
inference: false
SD-Turbo 模型卡片
SD-Turbo是一款高速文本生成图像模型,仅需单次网络推理即可根据文本提示生成逼真图像。该模型作为研究原型发布,旨在探索小型蒸馏文本生成图像模型。如需更高质量的提示理解能力,建议使用SDXL-Turbo版本。
重要提示:商业用途请参阅https://stability.ai/license。
模型详情
模型描述
SD-Turbo是Stable Diffusion 2.1的蒸馏版本,专为实时生成优化。其核心技术为对抗扩散蒸馏(ADD)训练法(详见技术报告),可在1-4步内生成高质量图像。该方法通过分数蒸馏利用大规模图像扩散模型作为教师信号,并结合对抗损失确保低步数采样下的图像保真度。
模型来源
推荐使用generative-models
代码库(https://github.com/Stability-AI/generative-models)进行研究,该库实现了主流扩散框架(含训练与推理)。
- 代码库: https://github.com/Stability-AI/generative-models
- 论文: https://stability.ai/research/adversarial-diffusion-distillation
- 演示版[SDXL-Turbo]: http://clipdrop.co/stable-diffusion-turbo
评估
上图显示在单步生成场景下,人类评估者更倾向选择SD-Turbo生成的图像。在图像质量和提示跟随性方面,SD-Turbo表现优于LCM-Lora XL和LCM-Lora 1.5。
注意: 追求更高质量请使用SDXL-Turbo。完整用户研究详见研究论文。
用途
直接使用
本模型支持非商业及商业用途,适用场景包括:
- 生成模型研究
- 实时生成应用探索
- 实时生成模型影响研究
- 有害内容生成的安全防护
- 生成模型局限性与偏差分析
- 艺术创作与设计辅助
- 教育/创意工具开发
商业使用请访问https://stability.ai/membership。
禁用用途如下所述。
Diffusers库调用
pip install diffusers transformers accelerate --upgrade
SD-Turbo不使用guidance_scale
或negative_prompt
参数,需设置guidance_scale=0.0
。推荐生成512x512尺寸图像,单步推理即可获得优质结果。
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sd-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
prompt = "穿意大利神父袍的浣熊宝宝电影级镜头"
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]
使用时需确保num_inference_steps
* strength
≥1。实际步数为int(num_inference_steps * strength)
,如下例0.5*2.0=1步。
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sd-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "猫咪巫师,甘道夫风格,指环王,精细奇幻,可爱,皮克斯迪士尼风格,8K高清"
image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]
非适用场景
本模型不适用于需要事实准确的人物/事件表征生成,此类应用超出模型设计范围。禁止任何违反Stability AI使用政策的行为。
局限性与偏差
局限性
- 质量与提示跟随性低于SDXL-Turbo
- 仅支持固定分辨率(512x512像素),未达到完美写实效果
- 无法生成可读文本
- 人脸及人体生成可能失真
- 模型自编码部分存在信息损失
使用建议
本模型支持非商业及商业用途。
快速入门
访问https://github.com/Stability-AI/generative-models