Stable Diffusion 3.5 Large Turbo开源图像生成模型 - 免费提升图像质量与复杂提示处理

首页

Stable Diffusion 3.5 Large Turbo

由 stabilityai 开发

基于多模态扩散变换器（MMDiT）的文本生成图像模型，采用对抗扩散蒸馏（ADD）技术，提升图像质量、排版和复杂提示理解能力。

文本生成图像英语开源协议:其他 #快速文生图 #对抗蒸馏优化 #多模态变换器

下载量 57.11k

发布时间 : 10/22/2024

模型简介

该模型根据文本提示生成高质量图像，特别擅长减少推理步骤，适用于创意设计、教育工具开发等场景。

模型特点

对抗扩散蒸馏（ADD）技术

支持4步采样即可生成高质量图像，显著提升推理效率。

多模态扩散变换器（MMDiT）

结合文本和图像模态，提升复杂提示理解和图像生成质量。

QK归一化技术

提升训练稳定性，优化模型性能。

多文本编码器支持

集成CLIP和T5文本编码器，支持不同上下文长度，增强文本理解能力。

模型能力

文本生成图像

复杂提示理解

高质量图像生成

快速推理

使用案例

创意设计

艺术作品生成

根据文本描述生成独特的艺术作品。

生成具有高美学质量的图像。

设计辅助

为设计师提供创意灵感和快速原型生成。

加速设计流程，提升创意表达。

教育与研究

教育工具开发

开发基于文本生成图像的教育应用。

增强学习体验，提供可视化教学材料。

生成模型研究

探索文本生成图像模型的局限性和改进方向。

推动AI生成技术的研究进展。

🚀 Stable Diffusion 3.5 Large Turbo

Stable Diffusion 3.5 Large Turbo 是一款文本到图像的生成模型，它采用了多模态扩散变换器（MMDiT）架构，并结合了对抗扩散蒸馏（ADD）技术。该模型在图像质量、排版、复杂提示理解和资源效率方面有显著提升，尤其专注于减少推理步骤。

🚀 快速开始

使用 Diffusers 库

首先，将 🧨 diffusers 库升级到最新版本：

pip install -U diffusers

然后，运行以下代码：

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large-turbo", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello Fast World",
    num_inference_steps=4,
    guidance_scale=0.0,
).images[0]
image.save("capybara.png")

使用 Diffusers 对模型进行量化

为了减少显存使用，使模型能够在低显存 GPU 上运行，可以进行如下操作：

pip install bitsandbytes

from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch

model_id = "stabilityai/stable-diffusion-3.5-large-turbo"

nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
    model_id,
    subfolder="transformer",
    quantization_config=nf4_config,
    torch_dtype=torch.bfloat16
)

t5_nf4 = T5EncoderModel.from_pretrained("diffusers/t5-nf4", torch_dtype=torch.bfloat16)

pipeline = StableDiffusion3Pipeline.from_pretrained(
    model_id, 
    transformer=model_nf4,
    text_encoder_3=t5_nf4,
    torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree.  As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"

image = pipeline(
    prompt=prompt,
    num_inference_steps=4,
    guidance_scale=0.0,
    max_sequence_length=512,
).images[0]
image.save("whimsical.png")

✨ 主要特性

高性能：基于 Stable Diffusion 3.5 Large Turbo 的多模态扩散变换器（MMDiT）架构，结合对抗扩散蒸馏（ADD）技术，在图像质量、排版、复杂提示理解和资源效率方面表现出色，尤其专注于减少推理步骤。
多用途：可用于生成艺术作品、设计、教育或创意工具，以及对生成模型的研究。

📦 安装指南

使用 Diffusers 库时，需将其升级到最新版本：

pip install -U diffusers

若要对模型进行量化，还需安装 bitsandbytes：

pip install bitsandbytes

📚 详细文档

模型描述

开发者：Stability AI
模型类型：MMDiT 文本到图像生成模型
模型说明：该模型根据文本提示生成图像，是一个经过 ADD 蒸馏的多模态扩散变换器，使用三个固定的预训练文本编码器，并采用 QK 归一化。

许可证

社区许可证：适用于研究、非商业用途，以及年总收入低于 100 万美元的组织或个人。更多详情请见社区许可协议。请访问 Stability AI 了解更多信息，或联系我们获取商业许可详情。
年总收入超过 100 万美元的个人或组织：请联系我们获取企业许可证。

模型来源

ComfyUI：Github，示例工作流
Huggingface Space：Space
Diffusers：见使用 Diffusers 部分
GitHub：GitHub
API 端点：
- Stability AI API
- Deepinfra

文件结构

点击此处访问文件和版本标签

│
├── text_encoders/  (text_encoder/text_encoder_1/text_encoder_2 are for diffusers)
│   ├── README.md
│   ├── clip_g.safetensors
│   ├── clip_l.safetensors
│   ├── t5xxl_fp16.safetensors
│   └── t5xxl_fp8_e4m3fn.safetensors
│
├── README.md
├── LICENSE
├── sd3_large_turbo.safetensors
├── SD3.5L_Turbo_example_workflow.json
└── sd3_large_turbo_demo.png

** 以下文件结构用于 Diffusers 集成 **
├── scheduler/
├── text_encoder/
├── text_encoder_2/
├── text_encoder_3/
├── tokenizer/
├── tokenizer_2/
├── tokenizer_3/
├── transformer/
├── vae/
└── model_index.json

模型性能

有关提示遵循度和美学质量的比较性能研究，请参阅博客。

预期用途

生成艺术作品，并用于设计和其他艺术过程。
应用于教育或创意工具。
对生成模型进行研究，包括了解生成模型的局限性。

所有对模型的使用都必须符合我们的可接受使用政策。

非预期用途

该模型并非用于生成事实性或真实反映人物或事件的内容。因此，使用该模型生成此类内容超出了其能力范围。

安全性

作为我们设计安全和负责任的 AI 部署方法的一部分，我们采取了深思熟虑的措施，确保从开发的早期阶段就保证完整性。我们在模型开发的整个过程中实施了安全措施。我们已经实施了旨在降低某些危害风险的安全缓解措施，但我们建议开发人员根据其特定用例进行自己的测试并应用额外的缓解措施。有关我们的安全方法的更多信息，请访问我们的安全页面。

完整性评估

我们的完整性评估方法包括结构化评估和针对某些危害的红队测试。测试主要以英语进行，可能无法涵盖所有可能的危害。

已识别的风险和缓解措施

有害内容：我们在训练模型时使用了过滤后的数据集，并实施了保障措施，试图在实用性和防止危害之间取得适当的平衡。然而，这并不能保证所有可能的有害内容都已被移除。所有开发人员和部署人员应谨慎行事，并根据其特定的产品政策和应用用例实施内容安全防护措施。
滥用：技术限制以及对开发人员和最终用户的教育有助于减轻模型的恶意应用。所有用户都必须遵守我们的可接受使用政策，包括在应用微调和平提示工程机制时。请参考 Stability AI 可接受使用政策了解我们产品的违规使用信息。
隐私侵犯：鼓励开发人员和部署人员采用尊重数据隐私的技术，遵守隐私法规。

联系我们

请报告模型的任何问题或联系我们：

安全问题：safety@stability.ai
安全漏洞：security@stability.ai
隐私问题：privacy@stability.ai
许可证和一般问题：https://stability.ai/license
企业许可证：https://stability.ai/enterprise

🔧 技术细节

实现细节

QK 归一化：实现 QK 归一化技术以提高训练稳定性。
对抗扩散蒸馏（ADD）：（见技术报告），允许在 4 步采样时获得高质量图像。
文本编码器：
- CLIPs：OpenCLIP-ViT/G，CLIP-ViT/L，上下文长度 77 个标记
- T5：T5-xxl，在训练的不同阶段上下文长度为 77/256 个标记
训练数据和策略：该模型在各种数据上进行训练，包括合成数据和经过过滤的公开可用数据。