许可证: 其他
许可证名称: stabilityai-ai-community
许可证链接: LICENSE.md
标签:
- 文本到图像
- 稳定扩散
- 扩散器
推理: 是
额外授权提示: >-
点击“同意”即表示您同意许可协议
并确认已阅读Stability AI的隐私政策。
额外授权字段:
姓名: 文本
邮箱: 文本
国家: 国家
组织或隶属关系: 文本
是否接收Stability AI产品、服务和研究的电子邮件更新及促销?:
类型: 选择
选项:
- '是'
- '否'
您计划如何使用该模型?:
类型: 选择
选项:
- 研究
- 个人使用
- 创意专业人士
- 初创企业
- 企业
我同意许可协议并确认已阅读Stability AI的隐私政策: 复选框
语言:
稳定扩散3.5中型版

模型

稳定扩散3.5中型版是一款多模态扩散变换器改进版(MMDiT-X)的文本到图像模型,在图像质量、排版、复杂提示理解和资源效率方面均有提升。
请注意:本模型基于Stability社区许可协议发布。访问Stability AI了解详情或联系我们获取商业许可信息。
模型描述
- 开发方: Stability AI
- 模型类型: MMDiT-X文本到图像生成模型
- 模型说明: 该模型基于文本提示生成图像。作为多模态扩散变换器(https://arxiv.org/abs/2403.03206)的改进版本,采用三个固定预训练文本编码器,通过QK归一化提升训练稳定性,并在前12个变换层使用双重注意力模块。
许可协议
- 社区许可: 年总收入低于100万美元的组织或个人可免费用于研究、非商业及商业用途。详情参见社区许可协议。更多信息请访问https://stability.ai/license。
- 年收入超过100万美元的个人或组织: 请联系我们获取企业许可。
模型来源
对于本地或自托管使用,我们推荐:
实现细节
这些增强措施共同提升了模型在多分辨率图像生成、连贯性及各类文本到图像任务中的适应性表现。
本模型训练数据涵盖合成数据及过滤后的公开数据。
关于原始MMDiT架构的更多技术细节,请参阅研究论文。
使用与限制
- 虽然支持长提示词,但当T5 token超过256时可能在生成图像边缘出现伪影。使用时请注意token限制,若伪影明显可缩短提示词。
- 中型版训练数据分布与大型版不同,对相同提示词可能产生不同响应。
- 推荐使用**跳过层引导**采样以获得更好的结构和解剖连贯性。
模型性能
关于提示遵循和美学质量的对比研究,请参见博客。
文件结构
点击访问文件与版本页
├── text_encoders/
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── README.md
├── LICENSE
├── sd3.5_medium.safetensors
├── SD3.5M_example_workflow.json
├── SD3.5M_SLG_example_workflow.json
├── SD3.5L_plus_SD3.5M_upscaling_example_workflow.json
└── sd3_medium_demo.jpg
** 以下为diffusers集成文件结构 **
├── scheduler/
├── text_encoder/
├── text_encoder_2/
├── text_encoder_3/
├── tokenizer/
├── tokenizer_2/
├── tokenizer_3/
├── transformer/
├── vae/
└── model_index.json
使用Diffusers
升级至最新版🧨 diffusers库
pip install -U diffusers
然后可运行
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"举着'Hello World'标语的水豚",
num_inference_steps=40,
guidance_scale=4.5,
).images[0]
image.save("capybara.png")
使用diffusers量化模型
降低VRAM占用,使模型适配小显存GPU
pip install bitsandbytes
from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch
model_id = "stabilityai/stable-diffusion-3.5-medium"
nf4_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
model_id,
subfolder="transformer",
quantization_config=nf4_config,
torch_dtype=torch.bfloat16
)
pipeline = StableDiffusion3Pipeline.from_pretrained(
model_id,
transformer=model_nf4,
torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()
prompt = "一幅充满奇思妙想的创意图像,描绘了华夫饼与河马的混合生物,在早餐主题景观的融化黄油河流中休憩。它具有河马标志性的笨重体型,但皮肤并非常见的灰色,而是如同刚出炉的金黄酥脆华夫饼,表面呈现熟悉的网格纹路,每个方格都闪烁着糖浆光泽。环境将河马的自然栖息地与早餐桌元素结合——温暖的黄油河流,背景中煎饼般的茂密植被间露出超大餐具,胡椒磨化身参天大树。当太阳在这个奇幻世界升起时,投射出黄油般的温暖光芒。这只生物满足地在黄油河中打了个哈欠,附近一群鸟儿振翅飞过"
image = pipeline(
prompt=prompt,
num_inference_steps=40,
guidance_scale=4.5,
max_sequence_length=512,
).images[0]
image.save("whimsical.png")
微调
微调指南请见此处。
用途
预期用途
包括但不限于:
- 艺术作品生成及设计等创意流程
- 教育或创意工具开发
- 生成模型研究,包括理解模型局限性
所有使用必须符合我们的可接受使用政策。
非适用场景
本模型未针对人物或事件的真实再现进行训练,因此生成此类内容超出模型能力范围。
安全性
作为安全设计及负责任AI部署的一部分,我们在开发早期阶段即采取审慎措施。模型开发全程实施安全防护,虽然已部署缓解措施降低特定风险,仍建议开发者根据具体用例进行额外测试和防护。
更多安全策略请访问安全页面。
完整性评估
我们的完整性评估方法包括结构化评估和针对特定危害的红队测试。测试主要基于英语,可能无法覆盖所有潜在危害。
已识别风险及缓解措施:
- 有害内容:使用过滤数据集训练并实施防护机制,但无法保证完全消除。开发者应根据产品政策和应用场景部署内容安全措施。
- 滥用:技术限制结合开发者/终端用户教育可降低恶意应用风险。所有用户必须遵守可接受使用政策,包括微调和提示工程场景。
- 隐私侵犯:鼓励开发者遵守隐私法规,采用尊重数据隐私的技术。
联系方式
请报告模型问题或通过以下方式联系我们:
- 安全问题:safety@stability.ai
- 安全问题:security@stability.ai
- 隐私问题:privacy@stability.ai
- 许可及常规咨询:https://stability.ai/license
- 企业许可:https://stability.ai/enterprise