S

Stable Diffusion 3.5 Medium

由 stabilityai 开发
基于改进型多模态扩散变换器(MMDiT-X)的文生图模型,在图像质量、文字排版、复杂提示词理解和资源效率方面均有显著提升
下载量 426.00k
发布时间 : 10/29/2024
模型介绍
内容详情
替代品

模型简介

可根据文本提示生成高质量图像,采用改进型多模态扩散变换器架构,集成三项关键技术:三个固定预训练文本编码器、提升训练稳定性的QK归一化技术,以及前12层变换器中的双重注意力模块

模型特点

改进型多模态扩散变换器
采用MMDiT-X架构,在变换器前13层引入自注意力模块,显著提升多分辨率生成能力和图像整体协调性
QK归一化技术
采用QK归一化技术确保训练过程稳定
混合分辨率训练
渐进式训练阶段从256到1440分辨率,增强多分辨率生成能力
多文本编码器集成
集成CLIP和T5三种文本编码器,支持77/256个token的上下文长度

模型能力

文本到图像生成
复杂提示词理解
高质量图像生成
多分辨率支持
文字排版

使用案例

艺术创作
概念艺术设计
为游戏、电影等创作概念艺术图像
生成具有创意和艺术性的图像
插画创作
为书籍、杂志等创作插画
快速生成符合主题的插画作品
商业设计
广告创意
为广告活动生成创意视觉内容
快速迭代广告创意视觉方案
产品设计
为产品设计提供概念可视化
加速产品设计流程
教育研究
生成模型研究
研究文本到图像生成模型的性能和局限性
为AI研究提供实验平台