S

Stable Diffusion 3.5 Medium

由 ckpt 开发
采用改进型多模态扩散变换器(MMDiT-X)的文本生成图像模型,在图像质量、排版效果、复杂提示理解及资源效率方面均有显著提升
下载量 371
发布时间 : 10/29/2024
模型介绍
内容详情
替代品

模型简介

基于文本提示生成高质量图像的扩散模型,支持复杂场景理解和多分辨率生成

模型特点

MMDiT-X架构
在变换器前13层引入自注意力模块,显著提升多分辨率生成能力与图像整体协调性
QK归一化
采用QK归一化技术增强训练稳定性
混合分辨率训练
渐进式训练策略支持256→1440像素的多分辨率生成,采用随机裁剪增强技术提升鲁棒性
多文本编码器集成
整合CLIP系列和T5-xxl三种文本编码器,支持77-256个token的上下文长度

模型能力

文本生成图像
复杂场景理解
多分辨率图像生成
艺术创作辅助
排版效果优化

使用案例

创意设计
概念艺术创作
为游戏/影视行业快速生成概念艺术图
生成具有统一艺术风格的场景/角色设计
平面设计辅助
生成广告/海报的视觉元素
快速产出符合文案主题的视觉方案
教育研究
生成模型研究
探索扩散模型的局限性与改进方向