Sana_600M_1024px开源文本生成图像框架 - 快速合成4096×4096高质量图像

首页

Sana 600M 1024px

由 Efficient-Large-Model 开发

Sana是一个高效的文本生成图像框架，能够生成分辨率高达4096×4096的图像，具有快速合成高分辨率、高质量图像的能力。

文本生成图像支持多种语言#高分辨率图像生成 #快速文本转图像 #4096px超清输出

下载量 285

发布时间 : 11/30/2024

模型简介

Sana是一个基于线性扩散变换器的文本生成图像生成模型，使用Gemma2-2B-IT作为文本编码器和DC-AE作为潜在特征编码器，能够高效生成高分辨率图像。

模型特点

高分辨率图像生成

能够生成分辨率高达4096×4096的高质量图像。

高效推理

在笔记本电脑GPU上也能高效部署和运行。

强大的文本-图像对齐

生成的图像与输入文本具有高度一致性。

模型能力

文本生成图像

高分辨率图像合成

快速图像生成

使用案例

艺术创作

艺术作品生成

用于生成艺术作品和设计过程中的创意辅助。

生成高质量的艺术图像。

教育

教育工具

用于教育或创意工具中的图像生成。

提供直观的图像辅助教学。

研究

生成模型研究

用于探索和理解生成模型的局限性和偏见。

推动生成模型技术的发展。

🚀 萨纳（Sana）模型卡

萨纳（Sana）是一个文本到图像的生成框架，能够高效生成分辨率高达 4096 × 4096 的图像。它可以以极快的速度合成高分辨率、高质量且文本 - 图像对齐效果出色的图像，并且可以部署在笔记本电脑的 GPU 上。

teaser_page1

✨ 主要特性

我们推出的 萨纳（Sana） 是一个文本到图像的生成框架，能够高效生成分辨率高达 4096 × 4096 的图像。萨纳可以以极快的速度合成高分辨率、高质量且文本 - 图像对齐效果出色的图像，并且可以部署在笔记本电脑的 GPU 上。源代码可在 https://github.com/NVlabs/Sana 获取。

📚 详细文档

模型描述

属性	详情
开发者	NVIDIA, Sana
模型类型	基于线性扩散变压器的文本到图像生成模型
模型大小	16.48 亿参数
模型分辨率	该模型旨在生成基于 1024px 的多尺度高宽图像
许可证	NSCL v2 - 自定义。管理条款：NVIDIA 许可证。附加信息：[Gemma 使用条款
模型说明	这是一个可用于根据文本提示生成和修改图像的模型。它是一个线性扩散变压器，使用一个固定的预训练文本编码器 ([Gemma2 - 2B - IT](https://huggingface.co/google/gemma - 2 - 2b - it)) 和一个 32x 空间压缩潜在特征编码器 ([DC - AE](https://hanlab.mit.edu/projects/dc - ae))
更多信息资源	查看我们的 GitHub 仓库和 arXiv 上的萨纳报告

模型来源

出于研究目的，我们推荐我们的 generative - models Github 仓库 (https://github.com/NVlabs/Sana)，它更适合训练和推理，并且集成了最先进的扩散采样器，如 Flow - DPM - Solver。[麻省理工学院韩实验室](https://nv - sana.mit.edu/) 提供免费的萨纳推理。