许可证:其他
许可证名称:stabilityai-ai-community
许可证链接:LICENSE.md
标签:
- 文本生成图像
- 稳定扩散
- 扩散模型
推理:true
额外授权提示:>-
点击"同意"即表示您同意许可协议并确认已知悉Stability AI的隐私政策。
额外授权字段:
姓名:文本
邮箱:文本
国家:国家选择
所属组织或机构:文本
是否接收Stability AI产品、服务及研究的邮件更新与推广?:
类型:下拉选择
选项:
- '是'
- '否'
您计划将该模型用于何种用途?:
类型:下拉选择
选项:
- 研究
- 个人使用
- 创意专业人士
- 初创企业
- 企业
我同意许可协议并确认已知悉Stability AI的隐私政策:复选框
语言:
稳定扩散3.5中型版

模型

稳定扩散3.5中型版是一款采用改进型多模态扩散变换器(MMDiT-X)的文本生成图像模型,在图像质量、排版效果、复杂提示理解及资源效率方面均有显著提升。
重要提示:本模型基于Stability社区许可协议发布。访问Stability AI官网了解详情,或联系我们获取商业授权信息。
模型说明
- 开发机构: Stability AI
- 模型类型: MMDiT-X文本生成图像模型
- 模型描述: 本模型基于文本提示生成图像,采用改进型多模态扩散变换器架构(详见[论文](https://arxiv.org/abs/2403.03206)),集成三项关键技术:使用三个固定预训练文本编码器、采用QK归一化提升训练稳定性、在前12层变换器中应用双重注意力机制。
许可协议
- 社区许可: 年营收低于100万美元的组织或个人可免费用于研究、非商业及商业用途。详见社区许可协议,更多信息请访问https://stability.ai/license。
- 年营收超100万美元的用户: 请联系商务团队获取企业授权。
模型资源
本地部署推荐使用以下工具:
技术细节
这些创新技术共同提升了模型在多分辨率图像生成、画面协调性及多样化文本生成图像任务中的表现。
使用与限制
- 虽然支持长文本提示,但当T5 token超过256时可能产生边缘伪影。使用时请注意token限制,如伪影明显建议缩短提示词。
- 中型版与大型版训练数据分布不同,对相同提示可能产生差异化响应。
- 推荐使用跳跃层引导采样以获得更佳的结构与解剖学一致性。
模型性能
详见技术博客中关于提示遵循度与美学质量的对比研究。
文件结构
点击访问文件与版本页
├── text_encoders/
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── README.md
├── LICENSE
├── sd3.5_medium.safetensors
├── SD3.5M_example_workflow.json
├── SD3.5M_SLG_example_workflow.json
└── sd3_medium_demo.jpg
** 以下为diffusers集成专用文件结构 **
├── scheduler/
├── text_encoder/
├── text_encoder_2/
├── text_encoder_3/
├── tokenizer/
├── tokenizer_2/
├── tokenizer_3/
├── transformer/
├── vae/
└── model_index.json
使用Diffusers库
请先升级至最新版🧨 diffusers库
pip install -U diffusers
运行示例:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"举着'Hello World'标牌的卡皮巴拉",
num_inference_steps=40,
guidance_scale=4.5,
).images[0]
image.save("capybara.png")
量化部署
通过量化减少显存占用,适配低显存GPU:
pip install bitsandbytes
from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch
model_id = "stabilityai/stable-diffusion-3.5-medium"
nf4_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
model_id,
subfolder="transformer",
quantization_config=nf4_config,
torch_dtype=torch.bfloat16
)
pipeline = StableDiffusion3Pipeline.from_pretrained(
model_id,
transformer=model_nf4,
torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()
prompt = "奇幻创意图像:描绘华夫饼与河马混合生物,在早餐主题景观的融化黄油河流中休憩。生物具有河马典型的敦实体型,但表皮呈现刚出炉华夫饼的金黄酥脆质感,布满糖浆光泽的网格纹路。环境融合河马自然栖息地与早餐桌元素——黄油河流、背景中若隐若现的巨型餐具、煎饼状植被间矗立的胡椒磨巨树。朝阳为这个幻想世界洒下温暖黄油色光芒,生物在河中惬意打哈欠,近处鸟群惊飞"
image = pipeline(
prompt=prompt,
num_inference_steps=40,
guidance_scale=4.5,
max_sequence_length=512,
).images[0]
image.save("whimsical.png")
微调指南
请参考微调教程。
用途说明
适用场景
包括但不限于:
- 艺术作品创作与设计流程
- 教育工具或创意软件开发
- 生成模型研究(含局限性探索)
所有使用行为须遵守可接受使用政策。
非适用场景
本模型未针对人物/事件的事实性呈现进行专项训练,因此生成此类内容超出模型设计范围。
安全机制
作为安全优先的负责任AI部署策略,我们从开发初期即实施完整性保障措施,贯穿模型全生命周期。虽然已部署安全缓解方案以降低特定风险,仍建议开发者根据具体应用场景进行额外测试与加固。
更多安全策略详见安全中心。
完整性评估
采用结构化评估与红队测试验证特定危害防护。测试主要基于英语环境,可能无法覆盖全部潜在风险。
已识别风险及对策:
- 有害内容:采用过滤数据集训练并部署防护机制,但无法保证完全消除。开发者应根据产品策略部署内容安全护栏。
- 滥用风险:通过技术限制与用户教育降低恶意应用可能。所有用户须遵守可接受使用政策,包括微调与提示工程场景。
- 隐私保护:开发者应遵守隐私法规并采用数据保护技术。
联系渠道
问题反馈请联系:
- 安全问题:safety@stability.ai
- 安全问题:security@stability.ai
- 隐私问题:privacy@stability.ai
- 许可咨询:https://stability.ai/license
- 企业授权:https://stability.ai/enterprise