pipeline_tag: 文生图
inference: false
license: other
license_name: sai-nc-community
license_link: https://huggingface.co/stabilityai/sdxl-turbo/blob/main/LICENSE.md
stable-diffusion-xl-1.0-turbo-GGUF
!!! 实验性支持,仅限gpustack/llama-box v0.0.75+ !!!
模型创建者: Stability AI
原始模型: sdxl-turbo
GGUF量化: 基于stable-diffusion.cpp ac54e版本,由llama-box适配
VAE来源: madebyollin/sdxl-vae-fp16-fix
量化类型 |
OpenAI CLIP ViT-L/14量化 |
OpenCLIP ViT-G/14量化 |
VAE量化 |
FP16 |
FP16 |
FP16 |
FP16 |
Q8_0 |
FP16 |
FP16 |
FP16 |
Q4_1 |
FP16 |
FP16 |
FP16 |
Q4_0 |
FP16 |
FP16 |
FP16 |
SDXL-Turbo模型卡

SDXL-Turbo是一款快速文生图模型,仅需单次网络推理即可根据文本提示生成逼真图像。实时演示详见: http://clipdrop.co/stable-diffusion-turbo
注意:商业用途请参考 https://stability.ai/license
模型详情
模型描述
SDXL-Turbo是SDXL 1.0的蒸馏版本,专为实时合成优化。该模型采用新型对抗扩散蒸馏训练法(ADD,详见技术报告),可在1-4步采样内保持高质量图像输出。该方法通过分数蒸馏利用大规模预训练扩散模型作为教师信号,并结合对抗损失确保低步数采样下的图像保真度。
- 开发方: Stability AI
- 资助方: Stability AI
- 模型类型: 生成式文生图模型
- 微调基础模型: SDXL 1.0基础版
模型资源
研究推荐使用generative-models
代码库(https://github.com/Stability-AI/generative-models),该库实现了主流扩散框架(训练与推理)。
- 代码库: https://github.com/Stability-AI/generative-models
- 论文: https://stability.ai/research/adversarial-diffusion-distillation
- 演示: http://clipdrop.co/stable-diffusion-turbo
评估


上图显示,在单步推理场景下,人类评估者更偏好SDXL-Turbo生成的图像质量与提示跟随性。当SDXL-Turbo采用4步推理时,性能表现更优。详细用户研究参见研究论文。
用途
直接使用
本模型支持非商业与商业用途。非商业或研究用途需遵守此许可,适用场景包括:
- 生成模型研究
- 实时生成应用探索
- 实时生成模型影响研究
- 有害内容生成模型的安全部署
- 生成模型局限性与偏差分析
- 艺术创作与设计应用
- 教育/创意工具开发
商业用途请访问 https://stability.ai/membership
禁止用途
参见Stability AI的可接受使用政策
Diffusers使用
pip install diffusers transformers accelerate --upgrade
SDXL-Turbo不使用guidance_scale
或negative_prompt
参数,需设置guidance_scale=0.0
。推荐生成512x512尺寸图像(支持更高分辨率),单步推理即可获得高质量结果。
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
prompt = "穿着精美意大利神父袍的浣熊宝宝,电影级镜头"
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]
使用时需确保num_inference_steps
* strength
≥1。例如下方示例中0.5*2.0=1步:
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "猫咪巫师,甘道夫风格,指环王,精细刻画,奇幻风格,可爱,皮克斯,迪士尼,8K分辨率"
image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]
非适用场景
本模型不适用于生成人物/事件的真实表征,此类用途超出模型能力范围。
局限性与偏差
局限性
- 固定输出分辨率(512x512),未达到完美逼真度
- 无法生成可读文本
- 人脸/人物生成可能不准确
- 自编码模块存在信息损失
使用建议
本模型适用于非商业与商业场景。
快速开始
访问 https://github.com/Stability-AI/generative-models