许可证:其他
许可证名称:stabilityai-ai-community
许可证链接:LICENSE.md
标签:
- 文本到图像
- 稳定扩散
- 扩散器
推理:true
语言:
- 英语
管道标签:文本到图像
Stable Diffusion 3.5 Large Turbo 无门控访问限制!
与原版完全相同,只是重新上传时移除了门控机制。

模型

Stable Diffusion 3.5 Large Turbo 是一个基于多模态扩散变换器(MMDiT)的文本到图像模型,采用了对抗扩散蒸馏(ADD)技术,在图像质量、排版、复杂提示理解和资源效率方面表现更优,尤其专注于减少推理步骤。
请注意:本模型根据Stability社区许可证发布。访问Stability AI了解更多,或联系我们获取商业许可详情。
模型描述
- 开发者: Stability AI
- 模型类型: MMDiT文本到图像生成模型
- 模型描述: 该模型根据文本提示生成图像。它是一个经过ADD蒸馏的多模态扩散变换器,使用了三个固定的预训练文本编码器,并采用QK归一化技术。
许可证
- 社区许可证: 免费用于研究、非商业用途,以及年总收入低于100万美元的组织或个人的商业用途。更多详情请参阅社区许可证协议。了解更多请访问 https://stability.ai/license。
- 年收入超过100万美元的个人或组织: 请联系我们获取企业许可证。
模型来源
对于本地或自托管使用,我们推荐ComfyUI进行基于节点的UI推理,或使用diffusers或GitHub进行编程式使用。
实现细节
-
QK归一化: 采用QK归一化技术以提高训练稳定性。
-
对抗扩散蒸馏(ADD)(参见技术报告),支持仅用4步推理即可生成高质量图像。
-
文本编码器:
-
训练数据与策略:
该模型在包括合成数据和过滤后的公开数据在内的多种数据上进行了训练。
关于原始MMDiT架构的更多技术细节,请参阅研究论文。
模型性能
查看博客了解我们在提示遵循和美学质量方面的比较性能研究。
文件结构
点击此处访问文件和版本标签
├── text_encoders/ (text_encoder/text_encoder_1/text_encoder_2 用于diffusers)
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── README.md
├── LICENSE
├── sd3_large_turbo.safetensors
├── SD3.5L_Turbo_example_workflow.json
└── sd3_large_turbo_demo.png
** 以下文件结构用于diffusers集成 **
├── scheduler/
├── text_encoder/
├── text_encoder_2/
├── text_encoder_3/
├── tokenizer/
├── tokenizer_2/
├── tokenizer_3/
├── transformer/
├── vae/
└── model_index.json
使用Diffusers
升级至最新版本的🧨 diffusers库
pip install -U diffusers
然后可以运行
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large-turbo", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"一只举着写有'Hello Fast World'牌子的水豚",
num_inference_steps=4,
guidance_scale=0.0,
).images[0]
image.save("capybara.png")
使用diffusers量化模型
减少VRAM使用,使模型适配低VRAM GPU
pip install bitsandbytes
from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch
model_id = "stabilityai/stable-diffusion-3.5-large-turbo"
nf4_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
model_id,
subfolder="transformer",
quantization_config=nf4_config,
torch_dtype=torch.bfloat16
)
t5_nf4 = T5EncoderModel.from_pretrained("diffusers/t5-nf4", torch_dtype=torch.bfloat16)
pipeline = StableDiffusion3Pipeline.from_pretrained(
model_id,
transformer=model_nf4,
text_encoder_3=t5_nf4,
torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()
prompt = "一幅充满奇思妙想的创意图像,描绘了一只华夫饼与河马的混合生物,沐浴在黄油河流中,背景是早餐主题的景观。它具有河马特有的笨重体型,但皮肤不是常见的灰色,而是像刚出炉的金黄色酥脆华夫饼,表面纹理呈现熟悉的网格图案,每个方格上闪烁着糖浆的光泽。环境结合了河马的自然栖息地与早餐桌的元素,黄油河流温暖流淌,背景中巨大的餐具或盘子从煎饼般的茂密植被中探出,一座胡椒磨坊高耸如树。在这个奇幻世界中,太阳升起,将温暖如黄油的光芒洒向场景。这只生物满足地躺在黄油河中打着哈欠,附近一群鸟儿飞过"
image = pipeline(
prompt=prompt,
num_inference_steps=4,
guidance_scale=0.0,
max_sequence_length=512,
).images[0]
image.save("whimsical.png")
用途
预期用途
预期用途包括:
- 艺术品生成及设计和艺术创作过程中的使用。
- 教育或创意工具中的应用。
- 生成模型的研究,包括理解生成模型的局限性。
所有模型使用必须符合我们的可接受使用政策。
非预期用途
该模型未训练用于生成人物或事件的真实表述。因此,使用模型生成此类内容超出了该模型的能力范围。
安全性
作为我们安全设计和负责任AI部署方法的一部分,我们在开发的早期阶段就采取了深思熟虑的措施确保完整性。我们在模型开发的整个过程中实施了安全措施。虽然我们已经实施了旨在降低某些风险的安全缓解措施,但我们建议开发者根据具体用例进行自己的测试并应用额外的缓解措施。
有关我们安全方法的更多信息,请访问我们的安全页面。
完整性评估
我们的完整性评估方法包括结构化评估和针对特定危害的红队测试。测试主要在英语环境下进行,可能无法覆盖所有潜在危害。
已识别的风险及缓解措施:
- 有害内容:我们在训练模型时使用了过滤数据集,并实施了旨在平衡实用性与防止危害的安全措施。但这不能保证所有有害内容已被完全移除。所有开发者和部署者应根据其具体产品政策和应用用例谨慎行事并实施内容安全护栏。
- 滥用:技术限制以及开发者和终端用户教育有助于减轻模型的恶意应用。所有用户必须遵守我们的可接受使用政策,包括应用微调和提示工程机制时。请参考Stability AI可接受使用政策了解我们产品的违规使用情况。
- 隐私侵犯:鼓励开发者和部署者遵守隐私法规,采用尊重数据隐私的技术。
联系方式
请报告模型相关问题或联系我们:
- 安全问题:safety@stability.ai
- 安全问题:security@stability.ai
- 隐私问题:privacy@stability.ai
- 许可证及一般问题:https://stability.ai/license
- 企业许可证:https://stability.ai/enterprise