Stable Diffusion 3 Medium开源文本生成图像模型

首页

Stable Diffusion 3 Medium

由 stabilityai 开发

一款多模态扩散变换器(MMDiT)文本生成图像模型，在图像质量、文字排版、复杂提示理解及资源效率方面均有显著提升

文本生成图像英语开源协议:其他 #多模态扩散变换器 #高质量文字生成图像 #复杂提示理解

下载量 15.28k

发布时间 : 5/30/2024

模型简介

本模型可根据文本提示生成图像，采用多模态扩散变换器架构，集成三个固定预训练文本编码器

模型特点

多模态架构

采用多模态扩散变换器(MMDiT)架构，集成三个预训练文本编码器

高质量图像生成

在图像质量、文字排版和复杂提示理解方面有显著提升

资源效率优化

提供多种权重封装方案，平衡质量与资源需求

商业友好授权

年收入低于100万美元的组织或个人可免费用于商业用途

模型能力

文本生成图像

复杂提示理解

高质量图像合成

文字排版生成

使用案例

创意设计

艺术作品创作

根据文本描述生成艺术作品

高质量美学图像

设计流程辅助

为设计师提供创意灵感

多样化设计概念

教育工具

创意教学工具

开发可视化教学材料

生动直观的教学内容

研究开发

生成模型研究

探索扩散模型的局限性和可能性

🚀 Stable Diffusion 3 Medium

Stable Diffusion 3 Medium 是一款文本到图像的生成模型，它在图像质量、排版、复杂提示理解和资源效率方面都有显著提升。该模型可根据文本提示生成图像，适用于艺术创作、教育工具和生成模型研究等领域。

🚀 快速开始

若要使用 Stable Diffusion 3 Medium 模型进行推理，我们推荐使用 ComfyUI 进行本地或自托管使用。同时，该模型也可在 Stability API 平台上使用。

使用 Diffusers 库的示例代码

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

image = pipe(
    "A cat holding a sign that says hello world",
    negative_prompt="",
    num_inference_steps=28,
    guidance_scale=7.0,
).images[0]
image

更多优化和图像到图像支持的详细信息，请参考文档。

✨ 主要特性

性能提升：在图像质量、排版、复杂提示理解和资源效率方面表现出色。
多模态融合：采用 Multimodal Diffusion Transformer (MMDiT) 架构，结合三个预训练的文本编码器。
丰富的应用场景：可用于艺术创作、教育工具和生成模型研究等领域。

📦 安装指南

使用 Diffusers 库时，请确保将其升级到最新版本：

pip install -U diffusers

📚 详细文档

模型描述

开发者：Stability AI
模型类型：MMDiT 文本到图像生成模型
模型说明：该模型可根据文本提示生成图像，是一个 Multimodal Diffusion Transformer (https://arxiv.org/abs/2403.03206)，使用了三个固定的预训练文本编码器（OpenCLIP-ViT/G、CLIP-ViT/L 和 T5-xxl）。

许可证

社区许可证：对于年收入低于 100 万美元的组织或个人，可免费用于研究、非商业和商业用途。如果您的年收入超过 100 万美元，并在商业产品或服务中使用 Stability AI 模型，则需要购买企业许可证。详情请见：https://stability.ai/license
年收入超过阈值的公司：请联系我们：https://stability.ai/enterprise

模型来源

ComfyUI：https://github.com/comfyanonymous/ComfyUI
StableSwarmUI：https://github.com/Stability-AI/StableSwarmUI
技术报告：https://stability.ai/news/stable-diffusion-3-research-paper
演示：https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
Diffusers 支持：https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers

训练数据集

我们使用合成数据和经过筛选的公开可用数据来训练模型。该模型在 10 亿张图像上进行了预训练，微调数据包括 3000 万张专注于特定视觉内容和风格的高质量美学图像，以及 300 万张偏好数据图像。

文件结构

├── comfy_example_workflows/
│   ├── sd3_medium_example_workflow_basic.json
│   ├── sd3_medium_example_workflow_multi_prompt.json
│   └── sd3_medium_example_workflow_upscaling.json
│
├── text_encoders/
│   ├── README.md
│   ├── clip_g.safetensors
│   ├── clip_l.safetensors
│   ├── t5xxl_fp16.safetensors
│   └── t5xxl_fp8_e4m3fn.safetensors
│
├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── sd3_medium_incl_clips_t5xxlfp16.safetensors

我们为 SD3 Medium 模型准备了三种打包变体，每种都配备了相同的 MMDiT 和 VAE 权重，以方便用户使用。

sd3_medium.safetensors：包含 MMDiT 和 VAE 权重，但不包含任何文本编码器。
sd3_medium_incl_clips_t5xxlfp16.safetensors：包含所有必要的权重，包括 T5XXL 文本编码器的 fp16 版本。
sd3_medium_incl_clips_t5xxlfp8.safetensors：包含所有必要的权重，包括 T5XXL 文本编码器的 fp8 版本，在质量和资源需求之间取得了平衡。
sd3_medium_incl_clips.safetensors：包含所有必要的权重，但不包括 T5XXL 文本编码器。该模型所需资源最少，但在没有 T5XXL 文本编码器的情况下，模型性能会有所不同。
text_encoders 文件夹包含三个文本编码器及其原始模型卡链接，方便用户使用。text_encoders 文件夹中的所有组件（以及嵌入在其他包中的等效组件）均受其各自的原始许可证约束。
example_workfows 文件夹包含示例工作流程。

预期用途

生成艺术作品，并用于设计和其他艺术创作过程。
应用于教育或创意工具。
研究生成模型，包括了解生成模型的局限性。

所有对模型的使用都应符合我们的可接受使用政策。

非预期用途

该模型并非用于对人物或事件进行事实性或真实性的呈现。因此，使用该模型生成此类内容超出了该模型的能力范围。

🔧 技术细节

安全措施

作为我们以安全为设计理念和负责任的人工智能部署方法的一部分，我们在模型开发的整个过程中实施了安全措施，从开始预训练模型到每个模型的持续开发、微调与部署。我们实施了一系列安全缓解措施，旨在降低严重危害的风险，但我们建议开发人员根据其特定用例进行自己的测试并应用额外的缓解措施。更多关于我们的安全方法，请访问我们的安全页面。

评估方法

我们的评估方法包括结构化评估以及针对特定严重危害（如儿童性虐待和剥削、极端暴力和血腥、色情内容和非自愿裸露）的内部和外部红队测试。测试主要以英语进行，可能无法涵盖所有可能的危害。与任何模型一样，该模型有时可能会对用户提示产生不准确、有偏见或令人反感的响应。

已识别的风险和缓解措施

有害内容：我们在训练模型时使用了经过筛选的数据集，并实施了保障措施，试图在实用性和防止危害之间取得平衡。然而，这并不能保证所有可能的有害内容都已被去除。该模型有时可能会生成有毒或有偏见的内容。所有开发人员和部署人员都应谨慎行事，并根据其特定的产品政策和应用用例实施内容安全防护措施。
滥用：技术限制以及对开发人员和最终用户的教育有助于减轻模型的恶意应用。所有用户都必须遵守我们的可接受使用政策，包括在应用微调与提示工程机制时。请参考 Stability AI 可接受使用政策，了解我们产品的违规使用信息。
隐私侵犯：鼓励开发人员和部署人员采用尊重数据隐私的技术，遵守隐私法规。