Sana_1600M_1024px_MultiLing开源图像生成框架 - 支持多语言，可生成4096×4096高分辨率图像

首页

Sana 1600M 1024px MultiLing

由 Efficient-Large-Model 开发

Sana是一个高效的文本生成图像框架，能够生成分辨率高达4096×4096的图像，支持多语言输入。

文本生成图像支持多种语言#高分辨率图像生成 #多语言提示支持 #快速推理

下载量 111

发布时间 : 11/29/2024

模型简介

Sana是一个基于线性扩散Transformer的文本生成图像模型，能够快速合成高分辨率、高质量且文本-图像对齐良好的图像，支持英文、中文及表情符号混合提示词。

模型特点

高分辨率图像生成

支持生成分辨率高达4096×4096的高质量图像

多语言支持

支持英文、中文及表情符号混合提示词

高效推理

可在笔记本电脑GPU上部署，实现快速图像生成

文本-图像对齐良好

生成的图像与输入文本提示高度匹配

模型能力

文本生成图像

高分辨率图像合成

多语言提示支持

快速推理

使用案例

创意艺术

艺术作品生成

用于生成艺术作品和创意设计

高质量的艺术图像

设计辅助

在设计流程中快速生成视觉概念

加速设计过程

教育

教育工具开发

开发教育或创意工具

增强学习体验

研究

生成模型研究

用于探索和理解生成模型的局限性与偏差

推动模型技术进步

🚀 Sana

Sana是一个文本到图像的生成框架，能够高效生成高达4096×4096分辨率的图像。它可以以极快的速度合成高分辨率、高质量且文本与图像强对齐的图像，还能部署在笔记本电脑的GPU上。

✨ 主要特性

能够高效生成高达4096×4096分辨率的图像。
可以以极快的速度合成高分辨率、高质量且文本与图像强对齐的图像。
支持在笔记本电脑的GPU上部署。
支持Emoji、中文和英文以及所有混合提示。

📚 详细文档

与基础模型对比

模型	语言
Sana_1600M_1024px	英语
Sana_1600M_1024px_MultiLing	英语、中文、Emoji

模型	示例1	示例2	示例3	示例4
Sana_1600M_1024px
Sana_1600M_1024px_MultiLing
提示词	🐯 穿着 👕 吹 🎷	猫 Wearing 🕶 flying on the 彩虹 with 🌹 in the ❄️	🦁 teaching 🐯 to catch 🦋	金色 🌅 下的长城, traditional Chinese style

模型描述

属性	详情
开发者	NVIDIA, Sana
模型类型	基于线性扩散Transformer的文本到图像生成模型
模型大小	1648M参数
模型分辨率	该模型用于生成基于1024px的多尺度高宽图像
许可证	NSCL v2-custom。管理条款：NVIDIA许可证。附加信息：Gemma-2-2B-IT的[Gemma使用条款
模型说明	这是一个可根据文本提示生成和修改图像的模型。它是一个线性扩散Transformer，使用一个固定的预训练文本编码器(Gemma2-2B-IT)和一个32x空间压缩潜在特征编码器(DC-AE)
特殊之处	该模型是从基础模型Efficient-Large-Model/Sana_1600M_1024px微调而来，支持Emoji、中文和英文以及所有混合提示
更多信息资源	查看我们的GitHub仓库和arXiv上的Sana报告