Stable Diffusion 3.5 Medium开源图像生成模型 - 免费生成高质量排版清晰的图像

首页

Stable Diffusion 3.5 Medium

由 ckpt 开发

采用改进型多模态扩散变换器（MMDiT-X）的文本生成图像模型，在图像质量、排版效果、复杂提示理解及资源效率方面均有显著提升

文本生成图像英语开源协议:其他 #多分辨率图像生成 #复杂提示理解 #排版优化

下载量 371

发布时间 : 10/29/2024

模型简介

基于文本提示生成高质量图像的扩散模型，支持复杂场景理解和多分辨率生成

模型特点

MMDiT-X架构

在变换器前13层引入自注意力模块，显著提升多分辨率生成能力与图像整体协调性

QK归一化

采用QK归一化技术增强训练稳定性

混合分辨率训练

渐进式训练策略支持256→1440像素的多分辨率生成，采用随机裁剪增强技术提升鲁棒性

多文本编码器集成

整合CLIP系列和T5-xxl三种文本编码器，支持77-256个token的上下文长度

模型能力

文本生成图像

复杂场景理解

多分辨率图像生成

艺术创作辅助

排版效果优化

使用案例

创意设计

概念艺术创作

为游戏/影视行业快速生成概念艺术图

生成具有统一艺术风格的场景/角色设计

平面设计辅助

生成广告/海报的视觉元素

快速产出符合文案主题的视觉方案

教育研究

生成模型研究

探索扩散模型的局限性与改进方向

🚀 Stable Diffusion 3.5 Medium

Stable Diffusion 3.5 Medium是一款文本到图像的生成模型，它基于改进的多模态扩散变换器（MMDiT-X）架构，在图像质量、排版、复杂提示理解和资源效率方面表现出色。

3.5 Medium Demo Image

🚀 快速开始

若要使用此模型，你可以按照以下步骤操作：

升级到最新版本的 🧨 diffusers库：

pip install -U diffusers

运行以下代码：

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello World",
    num_inference_steps=40,
    guidance_scale=4.5,
).images[0]
image.save("capybara.png")

✨ 主要特性

高性能：在图像质量、排版、复杂提示理解和资源效率方面有显著提升。
多文本编码器：使用三个固定的预训练文本编码器，包括 OpenCLIP-ViT/G、CLIP-ViT/L 和 T5-xxl。
多分辨率训练：通过渐进式训练阶段（256 → 512 → 768 → 1024 → 1440 分辨率）和混合分辨率训练，提升多分辨率图像生成性能。
QK归一化：实现QK归一化技术，提高训练稳定性。

📦 安装指南

安装依赖库

pip install -U diffusers

量化模型（可选）

若要减少VRAM使用，可以对模型进行量化：

pip install bitsandbytes

💻 使用示例

基础用法

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello World",
    num_inference_steps=40,
    guidance_scale=4.5,
).images[0]
image.save("capybara.png")

高级用法

from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch

model_id = "stabilityai/stable-diffusion-3.5-medium"

nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
    model_id,
    subfolder="transformer",
    quantization_config=nf4_config,
    torch_dtype=torch.bfloat16
)

pipeline = StableDiffusion3Pipeline.from_pretrained(
    model_id, 
    transformer=model_nf4,
    torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree.  As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"

image = pipeline(
    prompt=prompt,
    num_inference_steps=40,
    guidance_scale=4.5,
    max_sequence_length=512,
).images[0]
image.save("whimsical.png")

📚 详细文档

模型

MMDiT-X

Stable Diffusion 3.5 Medium 是一个基于改进的多模态扩散变换器（MMDiT-X）的文本到图像生成模型。

模型描述

属性	详情
开发方	Stability AI
模型类型	MMDiT-X 文本到图像生成模型
模型描述	该模型根据文本提示生成图像。它是一个改进的多模态扩散变换器（https://arxiv.org/abs/2403.03206），使用三个固定的预训练文本编码器，采用QK归一化提高训练稳定性，并在Transformer的前12层使用双注意力块。

许可证

社区许可证：适用于研究、非商业用途以及年收入低于100万美元的组织或个人。更多详情请见社区许可协议。请访问 https://stability.ai/license 了解更多信息。
企业许可证：对于年收入超过100万美元的个人或组织，请联系我们获取企业许可证。

模型来源

ComfyUI：Github，示例工作流
Huggingface Space：Space
Diffusers：见下文
GitHub：GitHub
API端点：Stability AI API

文件结构

点击此处访问文件和版本标签

│
├── text_encoders/  
│   ├── README.md
│   ├── clip_g.safetensors
│   ├── clip_l.safetensors
│   ├── t5xxl_fp16.safetensors
│   └── t5xxl_fp8_e4m3fn.safetensors
│
├── README.md
├── LICENSE
├── sd3.5_medium.safetensors
├── SD3.5M_example_workflow.json
├── SD3.5M_SLG_example_workflow.json
└── sd3_medium_demo.jpg

** 以下文件结构用于diffusers集成 **
├── scheduler/
├── text_encoder/
├── text_encoder_2/
├── text_encoder_3/
├── tokenizer/
├── tokenizer_2/
├── tokenizer_3/
├── transformer/
├── vae/
└── model_index.json

使用与限制

虽然该模型可以处理长提示，但当T5令牌超过256时，生成的图像边缘可能会出现伪影。在工作流程中使用该模型时，请注意令牌限制，如果伪影过于明显，请缩短提示。
中等模型的训练数据分布与大型模型不同，因此对相同提示的响应可能不同。
建议使用 Skip Layer Guidance 进行采样，以获得更好的结构和解剖学连贯性。

模型性能

有关提示遵循度和美学质量的比较性能研究，请参阅博客。

用途

预期用途

生成艺术作品并用于设计和其他艺术过程。
用于教育或创意工具。
研究生成模型，包括了解生成模型的局限性。

所有模型的使用都必须符合我们的可接受使用政策。

非预期用途

该模型并非用于生成真实或准确反映人物或事件的内容。因此，使用该模型生成此类内容超出了其能力范围。

安全

作为我们安全设计和负责任AI部署方法的一部分，我们采取了一系列措施来确保模型的安全性。我们在模型开发的各个阶段都实施了安全措施，并采取了安全缓解措施以降低某些危害的风险。然而，我们建议开发者根据具体用例进行自己的测试并应用额外的缓解措施。有关我们的安全方法的更多信息，请访问我们的安全页面。

完整性评估

我们的完整性评估方法包括结构化评估和针对某些危害的红队测试。测试主要以英语进行，可能无法涵盖所有可能的危害。

已识别的风险和缓解措施

有害内容：我们在训练模型时使用了过滤后的数据集，并实施了保障措施，试图在实用性和防止危害之间取得平衡。然而，这并不能保证所有可能的有害内容都已被去除。所有开发者和部署者都应谨慎行事，并根据具体产品政策和应用用例实施内容安全防护措施。
滥用：技术限制以及开发者和最终用户的教育可以帮助减轻模型的恶意应用。所有用户都必须遵守我们的可接受使用政策，包括在应用微调和平提示工程机制时。请参考Stability AI可接受使用政策以了解我们产品的违规使用信息。
隐私侵犯：鼓励开发者和部署者采用尊重数据隐私的技术，遵守隐私法规。

联系我们

如有任何与模型相关的问题，请通过以下方式联系我们：

安全问题：safety@stability.ai
安全漏洞：security@stability.ai
隐私问题：privacy@stability.ai
许可证和一般问题：https://stability.ai/license
企业许可证：https://stability.ai/enterprise

微调

请参阅此处的微调指南。

🔧 技术细节

实现细节

MMDiT-X：在Transformer的前13层引入自注意力模块，增强多分辨率生成和整体图像连贯性。
QK归一化：实现QK归一化技术，提高训练稳定性。
混合分辨率训练：
- 渐进式训练阶段：256 → 512 → 768 → 1024 → 1440 分辨率
- 最后阶段包括混合尺度图像训练，以提高多分辨率生成性能
- 在较低分辨率阶段将位置嵌入空间扩展到384x384（潜在）
- 在位置嵌入上采用随机裁剪增强，以提高Transformer层在整个混合分辨率和宽高比范围内的鲁棒性。例如，对于64x64的潜在图像，我们在训练期间从192x192嵌入空间中随机裁剪一个64x64的嵌入作为x流的输入。

这些改进共同提升了模型在多分辨率图像生成、连贯性和适应性方面的性能。