Stable Diffusion 3.5 Large Turbo
模型简介
该模型根据文本提示生成高质量图像,特别擅长减少推理步骤,适用于创意设计、教育工具开发等场景。
模型特点
对抗扩散蒸馏(ADD)技术
支持4步采样即可生成高质量图像,显著提升推理效率。
多模态扩散变换器(MMDiT)
结合文本和图像模态,提升复杂提示理解和图像生成质量。
QK归一化技术
提升训练稳定性,优化模型性能。
多文本编码器支持
集成CLIP和T5文本编码器,支持不同上下文长度,增强文本理解能力。
模型能力
文本生成图像
复杂提示理解
高质量图像生成
快速推理
使用案例
创意设计
艺术作品生成
根据文本描述生成独特的艺术作品。
生成具有高美学质量的图像。
设计辅助
为设计师提供创意灵感和快速原型生成。
加速设计流程,提升创意表达。
教育与研究
教育工具开发
开发基于文本生成图像的教育应用。
增强学习体验,提供可视化教学材料。
生成模型研究
探索文本生成图像模型的局限性和改进方向。
推动AI生成技术的研究进展。
🚀 Stable Diffusion 3.5 Large Turbo
Stable Diffusion 3.5 Large Turbo 是一款文本到图像的生成模型,它采用了多模态扩散变换器(MMDiT)架构,并结合了对抗扩散蒸馏(ADD)技术。该模型在图像质量、排版、复杂提示理解和资源效率方面有显著提升,尤其专注于减少推理步骤。
🚀 快速开始
使用 Diffusers 库
首先,将 🧨 diffusers 库 升级到最新版本:
pip install -U diffusers
然后,运行以下代码:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large-turbo", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A capybara holding a sign that reads Hello Fast World",
num_inference_steps=4,
guidance_scale=0.0,
).images[0]
image.save("capybara.png")
使用 Diffusers 对模型进行量化
为了减少显存使用,使模型能够在低显存 GPU 上运行,可以进行如下操作:
pip install bitsandbytes
from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch
model_id = "stabilityai/stable-diffusion-3.5-large-turbo"
nf4_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
model_id,
subfolder="transformer",
quantization_config=nf4_config,
torch_dtype=torch.bfloat16
)
t5_nf4 = T5EncoderModel.from_pretrained("diffusers/t5-nf4", torch_dtype=torch.bfloat16)
pipeline = StableDiffusion3Pipeline.from_pretrained(
model_id,
transformer=model_nf4,
text_encoder_3=t5_nf4,
torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()
prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree. As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"
image = pipeline(
prompt=prompt,
num_inference_steps=4,
guidance_scale=0.0,
max_sequence_length=512,
).images[0]
image.save("whimsical.png")
✨ 主要特性
- 高性能:基于 Stable Diffusion 3.5 Large Turbo 的多模态扩散变换器(MMDiT)架构,结合 对抗扩散蒸馏(ADD) 技术,在图像质量、排版、复杂提示理解和资源效率方面表现出色,尤其专注于减少推理步骤。
- 多用途:可用于生成艺术作品、设计、教育或创意工具,以及对生成模型的研究。
📦 安装指南
使用 Diffusers 库时,需将其升级到最新版本:
pip install -U diffusers
若要对模型进行量化,还需安装 bitsandbytes
:
pip install bitsandbytes
📚 详细文档
模型描述
- 开发者:Stability AI
- 模型类型:MMDiT 文本到图像生成模型
- 模型说明:该模型根据文本提示生成图像,是一个经过 ADD 蒸馏的 多模态扩散变换器,使用三个固定的预训练文本编码器,并采用 QK 归一化。
许可证
- 社区许可证:适用于研究、非商业用途,以及年总收入低于 100 万美元的组织或个人。更多详情请见 社区许可协议。请访问 Stability AI 了解更多信息,或 联系我们 获取商业许可详情。
- 年总收入超过 100 万美元的个人或组织:请 联系我们 获取企业许可证。
模型来源
- ComfyUI:Github,示例工作流
- Huggingface Space:Space
- Diffusers:见 使用 Diffusers 部分
- GitHub:GitHub
- API 端点:
文件结构
点击此处访问 文件和版本标签
│
├── text_encoders/ (text_encoder/text_encoder_1/text_encoder_2 are for diffusers)
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── README.md
├── LICENSE
├── sd3_large_turbo.safetensors
├── SD3.5L_Turbo_example_workflow.json
└── sd3_large_turbo_demo.png
** 以下文件结构用于 Diffusers 集成 **
├── scheduler/
├── text_encoder/
├── text_encoder_2/
├── text_encoder_3/
├── tokenizer/
├── tokenizer_2/
├── tokenizer_3/
├── transformer/
├── vae/
└── model_index.json
模型性能
有关提示遵循度和美学质量的比较性能研究,请参阅 博客。
预期用途
- 生成艺术作品,并用于设计和其他艺术过程。
- 应用于教育或创意工具。
- 对生成模型进行研究,包括了解生成模型的局限性。
所有对模型的使用都必须符合我们的 可接受使用政策。
非预期用途
该模型并非用于生成事实性或真实反映人物或事件的内容。因此,使用该模型生成此类内容超出了其能力范围。
安全性
作为我们设计安全和负责任的 AI 部署方法的一部分,我们采取了深思熟虑的措施,确保从开发的早期阶段就保证完整性。我们在模型开发的整个过程中实施了安全措施。我们已经实施了旨在降低某些危害风险的安全缓解措施,但我们建议开发人员根据其特定用例进行自己的测试并应用额外的缓解措施。有关我们的安全方法的更多信息,请访问我们的 安全页面。
完整性评估
我们的完整性评估方法包括结构化评估和针对某些危害的红队测试。测试主要以英语进行,可能无法涵盖所有可能的危害。
已识别的风险和缓解措施
- 有害内容:我们在训练模型时使用了过滤后的数据集,并实施了保障措施,试图在实用性和防止危害之间取得适当的平衡。然而,这并不能保证所有可能的有害内容都已被移除。所有开发人员和部署人员应谨慎行事,并根据其特定的产品政策和应用用例实施内容安全防护措施。
- 滥用:技术限制以及对开发人员和最终用户的教育有助于减轻模型的恶意应用。所有用户都必须遵守我们的 可接受使用政策,包括在应用微调和平提示工程机制时。请参考 Stability AI 可接受使用政策了解我们产品的违规使用信息。
- 隐私侵犯:鼓励开发人员和部署人员采用尊重数据隐私的技术,遵守隐私法规。
联系我们
请报告模型的任何问题或联系我们:
- 安全问题:safety@stability.ai
- 安全漏洞:security@stability.ai
- 隐私问题:privacy@stability.ai
- 许可证和一般问题:https://stability.ai/license
- 企业许可证:https://stability.ai/enterprise
🔧 技术细节
实现细节
- QK 归一化:实现 QK 归一化技术以提高训练稳定性。
- 对抗扩散蒸馏(ADD):(见 技术报告),允许在 4 步采样时获得高质量图像。
- 文本编码器:
- CLIPs:OpenCLIP-ViT/G,CLIP-ViT/L,上下文长度 77 个标记
- T5:T5-xxl,在训练的不同阶段上下文长度为 77/256 个标记
- 训练数据和策略:该模型在各种数据上进行训练,包括合成数据和经过过滤的公开可用数据。
有关原始 MMDiT 架构的更多技术细节,请参考 研究论文。
📄 许可证
本模型根据 Stability 社区许可证 发布。请访问 Stability AI 了解更多信息,或 联系我们 获取商业许可详情。
Clip Vit Large Patch14 336
基于Vision Transformer架构的大规模视觉语言预训练模型,支持图像与文本的跨模态理解
文本生成图像
Transformers

C
openai
5.9M
241
Fashion Clip
MIT
FashionCLIP是基于CLIP开发的视觉语言模型,专门针对时尚领域进行微调,能够生成通用产品表征。
文本生成图像
Transformers 英语

F
patrickjohncyh
3.8M
222
Gemma 3 1b It
Gemma 3是Google推出的轻量级先进开放模型系列,基于与Gemini模型相同的研究和技术构建。该模型是多模态模型,能够处理文本和图像输入并生成文本输出。
文本生成图像
Transformers

G
google
2.1M
347
Blip Vqa Base
Bsd-3-clause
BLIP是一个统一的视觉语言预训练框架,擅长视觉问答任务,通过语言-图像联合训练实现多模态理解与生成能力
文本生成图像
Transformers

B
Salesforce
1.9M
154
CLIP ViT H 14 Laion2b S32b B79k
MIT
基于OpenCLIP框架在LAION-2B英文数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索任务
文本生成图像
Safetensors
C
laion
1.8M
368
CLIP ViT B 32 Laion2b S34b B79k
MIT
基于OpenCLIP框架在LAION-2B英语子集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
文本生成图像
Safetensors
C
laion
1.1M
112
Pickscore V1
PickScore v1 是一个针对文本生成图像的评分函数,可用于预测人类偏好、评估模型性能和图像排序等任务。
文本生成图像
Transformers

P
yuvalkirstain
1.1M
44
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一种零样本文本条件目标检测模型,可通过文本查询在图像中定位对象。
文本生成图像
Transformers

O
google
932.80k
99
Llama 3.2 11B Vision Instruct
Llama 3.2 是 Meta 发布的多语言多模态大型语言模型,支持图像文本到文本的转换任务,具备强大的跨模态理解能力。
文本生成图像
Transformers 支持多种语言

L
meta-llama
784.19k
1,424
Owlvit Base Patch32
Apache-2.0
OWL-ViT是一个零样本文本条件目标检测模型,可以通过文本查询搜索图像中的对象,无需特定类别的训练数据。
文本生成图像
Transformers

O
google
764.95k
129
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文