许可证: 其他
许可证名称: stabilityai-ai-community
许可证链接: LICENSE.md
标签:
- 文本生成图像
- 稳定扩散
- 单文件扩散模型
推理: false
额外授权提示: >-
点击"同意"即表示您同意许可协议
并确认已阅读Stability AI的隐私政策。
额外授权字段:
姓名: 文本
邮箱: 文本
国家: 国家选择
所属机构: 文本
是否接收Stability AI产品、服务及研究的邮件更新与促销信息?:
类型: 选择
选项:
- '是'
- '否'
我同意许可协议并确认Stability AI的隐私政策: 复选框
语言:
- 英文
任务标签: 文本生成图像
稳定扩散3中型版

模型介绍

稳定扩散3中型版是一款多模态扩散变换器(MMDiT)文本生成图像模型,在图像质量、文字排版、复杂提示理解及资源效率方面均有显著提升。
技术细节请参阅研究报告。
请注意:本模型依据Stability社区许可证发布。企业授权请访问Stability.ai或联系我们获取商业授权详情。
模型说明
- 开发机构: Stability AI
- 模型类型: MMDiT文本生成图像模型
- 模型描述: 本模型可根据文本提示生成图像,采用多模态扩散变换器架构(https://arxiv.org/abs/2403.03206),集成三个固定预训练文本编码器(OpenCLIP-ViT/G、CLIP-ViT/L及T5-xxl)
授权条款
- 社区许可证: 年收入低于100万美元的组织或个人可免费用于研究、非商业及商业用途。年收入超过100万美元且将Stability AI模型用于商业产品或服务时需购买企业许可证。详情见:https://stability.ai/license
- 收入达标企业: 请联系我们:https://stability.ai/enterprise
模型资源
本地部署推荐使用ComfyUI进行推理。
本模型可通过Stability API平台使用。
Stable Assistant及Discord平台的Stable Artisan均提供SD3模型及工作流支持。
- ComfyUI: https://github.com/comfyanonymous/ComfyUI
- StableSwarmUI: https://github.com/Stability-AI/StableSwarmUI
- 技术报告: https://stability.ai/news/stable-diffusion-3-research-paper
- 演示空间: https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
- Diffusers支持: https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers
训练数据集
我们采用合成数据与筛选公开数据相结合的方式进行训练。模型预训练使用10亿张图像,微调数据包含3000万张高质量美学图像(聚焦特定视觉内容与风格)及300万张偏好数据图像。
文件结构
├── comfy_example_workflows/
│ ├── sd3_medium_example_workflow_basic.json
│ ├── sd3_medium_example_workflow_multi_prompt.json
│ └── sd3_medium_example_workflow_upscaling.json
│
├── text_encoders/
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── sd3_medium_incl_clips_t5xxlfp16.safetensors
我们提供三种SD3中型版封装方案(均含相同MMDiT&VAE权重):
sd3_medium.safetensors
仅含MMDiT和VAE权重
sd3_medium_incl_clips_t5xxlfp16.safetensors
包含全部权重(含fp16版T5XXL文本编码器)
sd3_medium_incl_clips_t5xxlfp8.safetensors
包含全部权重(含fp8版T5XXL文本编码器),平衡质量与资源需求
sd3_medium_incl_clips.safetensors
不含T5XXL文本编码器,资源需求最低但性能会受影响
text_encoders
文件夹包含三个文本编码器及其原始许可声明
example_workfows
文件夹提供ComfyUI工作流示例
Diffusers集成
本仓库对应原始发布权重,此处提供_diffusers_兼容版本。请确保安装最新版diffusers:pip install -U diffusers
,运行示例如下:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
image = pipe(
"举着'hello world'标牌的猫咪",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image
更多优化技巧及图生图支持请参阅官方文档。
使用范围
适用场景
- 艺术作品创作及设计流程
- 教育/创意工具开发
- 生成模型研究(包括局限性探索)
所有使用需遵守可接受使用政策。
非适用场景
本模型未针对人物/事件的事实性呈现进行训练,生成此类内容超出模型能力范围。
安全性
我们贯彻"安全设计"理念,从预训练到持续部署全程实施安全措施。虽然已部署多项风险缓解方案,仍建议开发者根据具体用例进行额外测试。
完整安全策略请见安全中心。
评估方法
我们通过结构化评估及内外部红队测试,重点检测儿童性剥削、极端暴力、色情内容等严重危害。测试主要基于英语环境,可能无法覆盖所有风险。
已知风险及对策
- 有害内容:采用过滤数据集并部署安全机制,但仍可能生成不良内容。建议开发者部署内容安全护栏。
- 滥用风险:技术限制与用户教育相结合防范恶意使用,所有用户须遵守可接受使用政策。
- 隐私保护:开发者应遵守隐私法规并采用数据保护技术。
联系方式
问题反馈渠道:
- 安全问题:safety@stability.ai
- 技术漏洞:security@stability.ai
- 隐私问题:privacy@stability.ai
- 授权咨询:https://stability.ai/license
- 企业合作:https://stability.ai/enterprise