SANA1.5_4.8B_1024px开源图像生成模型 - 免费部署，支持1024px高分辨率图像创作

首页

SANA1.5 4.8B 1024px

由 Efficient-Large-Model 开发

SANA-1.5是一个高效的文本生成图像模型，基于线性扩散Transformer架构，支持1024px高分辨率图像生成。

文本生成图像支持多种语言#高效模型扩展 #1024px高清图像生成 #线性扩散Transformer

下载量 268

发布时间 : 3/16/2025

模型简介

SANA-1.5是一个融合训练时与推理时扩展技术的高效文生图模型，具有4.8B参数，支持多尺度长宽比图像生成。

模型特点

高效模型扩展

从1.6B参数扩展到4.8B，性能持平或优于从头训练，节省60%训练成本

深度剪枝支持

支持任意尺寸的模型瘦身

推理扩展技术

小模型+推理扩展 > 大模型

高分辨率生成

支持基于1024px的多尺度长宽图像生成

模型能力

文本生成图像

高分辨率图像生成

多尺度图像生成

使用案例

艺术创作

艺术创作辅助

根据文本提示生成艺术作品

生成具有艺术风格的图像

教育工具

创意教育工具

开发教育用创意工具

帮助学生可视化学习内容

研究

生成模型研究

研究生成模型的性能和局限性

推动生成模型技术进步

🚀 萨纳（Sana）模型

萨纳（Sana）模型是一个高效的文本到图像生成模型，它采用了可扩展的线性扩散变压器架构，在训练和推理时间技术上进行了优化，能够基于文本提示生成和修改图像。

✨ 主要特性

我们推出了 SANA - 1.5，这是一个采用了训练时间和推理时间缩放技术的高效模型。SANA - 1.5 具备以下特性：

高效的模型增长：从 16 亿参数的 Sana - 1.0 模型扩展到 48 亿参数，实现了与从头开始训练相似甚至更好的性能，同时节省了 60% 的训练成本。
高效的模型深度剪枝：可以根据需求精简任何模型大小。
强大的基于视觉语言模型（VLM）选择的推理缩放：较小的模型 + 推理缩放 > 较大的模型。
顶尖的 GenEval 和 DPGBench 结果。

model growth performance on GenEval 8-bit optimizer

源代码可在 https://github.com/NVlabs/Sana 获取。

📚 详细文档

模型描述

属性	详情
开发者	NVIDIA, Sana
模型类型	基于可扩展线性扩散变压器的文本到图像生成模型
模型大小	48 亿参数
模型精度	torch.bfloat16 (BF16)
模型分辨率	该模型旨在生成基于 1024px 的多尺度高宽图像
许可证	NSCL v2 - custom。适用条款：NVIDIA 许可证。附加信息：Gemma - 2 - 2B - IT 的 [Gemma 使用条款
模型说明	这是一个可用于根据文本提示生成和修改图像的模型。它是一个线性扩散变压器，使用一个固定的预训练文本编码器 ([Gemma2 - 2B - IT](https://huggingface.co/google/gemma - 2 - 2b - it)) 和一个 32 倍空间压缩的潜在特征编码器 ([DC - AE](https://hanlab.mit.edu/projects/dc - ae))
更多信息资源	查看我们的 GitHub 仓库和 arXiv 上的 SANA - 1.5 报告

模型来源

出于研究目的，我们推荐使用我们的 generative - models Github 仓库（https://github.com/NVlabs/Sana），它更适合训练和推理，并且集成了最先进的扩散采样器，如 Flow - DPM - Solver。[MIT Han - Lab](https://nv - sana.mit.edu/) 提供免费的 Sana 推理。