Sana_1600M_4Kpx_BF16开源文本生成图像框架 - 免费部署快速合成4K高质量图像

首页

Sana 1600M 4Kpx BF16

由 Efficient-Large-Model 开发

Sana是一个高效生成4K分辨率图像的文本生成图像框架，能够快速合成高分辨率、高质量且文本-图像对齐性强的图像，并可在笔记本电脑GPU上部署。

文本生成图像支持多种语言#4K图像生成 #高效扩散变换器 #多语言提示支持

下载量 72

发布时间 : 1/8/2025

模型简介

Sana是一个基于线性扩散变换器的文本生成图像模型，专为生成4K分辨率的多尺度图像开发，支持中英文混合提示。

模型特点

4K分辨率支持

专为生成4096×4096分辨率的图像设计，支持多尺度图像生成。

高效生成

能够在笔记本电脑GPU上高效运行，快速生成高质量图像。

多语言支持

支持中英文混合提示，包括表情符号。

文本-图像对齐

生成的图像与文本提示高度对齐，适合创意设计。

模型能力

文本生成图像

高分辨率图像生成

多语言提示支持

使用案例

艺术与设计

艺术作品生成

生成具有艺术风格的图像，如赛博朋克风格的猫。

高质量、高分辨率的艺术作品。

室内设计

生成现代奢华住宅的室内设计图像。

逼真的室内设计效果图。

教育与创意工具

创意工具开发

用于教育或创意工具的开发，如生成教学素材。

丰富的视觉素材库。

🚀 Sana

Sana是一个文本到图像的框架，能够高效生成高达4096×4096分辨率的图像。它可以快速合成高分辨率、高质量且文本与图像高度对齐的图像，还能部署在笔记本电脑的GPU上。

🚀 快速开始

本项目的源代码可在 GitHub 上获取。

✨ 主要特性

能够高效生成高达4096×4096分辨率的图像。
可以快速合成高分辨率、高质量且文本与图像高度对齐的图像。
支持Emoji、中文和英文以及所有混合提示。
可部署在笔记本电脑的GPU上。

📦 安装指南

暂未提供相关安装步骤内容。

💻 使用示例

基础用法

参考原始 GitHub指南来使用Sana官方代码仓库中的 .pth 模型：

import torch
from app.sana_pipeline import SanaPipeline
from torchvision.utils import save_image

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
generator = torch.Generator(device=device).manual_seed(42)

sana = SanaPipeline("configs/sana_config/4096ms/Sana_1600M_img4096_bf16.yaml")
sana.from_pretrained("hf://Efficient-Large-Model/Sana_1600M_4Kpx_BF16/checkpoints/Sana_1600M_4Kpx_BF16.pth")
prompt = 'a cyberpunk cat with a neon sign that says "Sana"'

image = sana(
    prompt=prompt,
    height=4096,
    width=4096,
    guidance_scale=5.0,
    pag_guidance_scale=2.0,
    num_inference_steps=20,
    generator=generator,
)
save_image(image, 'output/sana_4K.png', nrow=1, normalize=True, value_range=(-1, 1))

📚 详细文档

模型描述

属性	详情
开发者	NVIDIA, Sana
模型类型	基于线性扩散Transformer的文本到图像生成模型
模型大小	1648M参数
模型分辨率	该模型旨在生成具有多尺度高度和宽度的4Kpx图像
许可证	NSCL v2-custom。管理条款：NVIDIA许可证。附加信息：[Gemma使用条款
模型描述	这是一个可根据文本提示生成和修改图像的模型。它是一个线性扩散Transformer，使用一个固定的预训练文本编码器 (Gemma2-2B-IT) 和一个32x空间压缩潜在特征编码器 (DC-AE)
特殊之处	该模型是从基础模型 Efficient-Large-Model/Sana_1600M_1024px_BF16 微调而来，支持Emoji、中文和英文以及所有混合提示
更多信息资源	查看我们的 GitHub仓库和 arXiv上的Sana报告

模型来源

出于研究目的，我们推荐使用我们的 generative-models GitHub仓库，它更适合训练和推理，并且集成了最先进的扩散采样器，如Flow-DPM-Solver。MIT Han-Lab 提供免费的Sana推理。

使用方式

该模型仅用于研究目的，可能的研究领域和任务包括：

生成艺术作品并用于设计和其他艺术过程。
在教育或创意工具中的应用。
生成模型的研究。
安全部署有可能生成有害内容的模型。
探索和理解生成模型的局限性和偏差。

适用范围外的使用

该模型并非用于真实地呈现人物或事件，因此使用该模型生成此类内容超出了该模型的能力范围。

🔧 技术细节

局限性

模型无法实现完美的照片级真实感。
模型无法渲染复杂的清晰文本。
一般来说，手指等可能无法正确生成。
模型的自动编码部分存在损失。

偏差

虽然图像生成模型的能力令人印象深刻，但它们也可能强化或加剧社会偏差。

📄 许可证

本模型使用 NSCL v2-custom 许可证。管理条款为NVIDIA许可证。附加信息：Gemma使用条款 | Google AI for Developers 适用于Gemma-2-2B-IT，Gemma禁止使用政策 | Google AI for Developers。

4K示例

图像
提示	一个心形的热气球。大峡谷	一个融化的苹果	一位亚裔中年妇女，她的黑发中夹杂着银丝，她的形象破碎而分散，错综复杂地嵌入一片破碎的瓷器之中。瓷器上溅满了油漆图案，光泽和哑光的蓝色、绿色、橙色和红色和谐交融，以超现实的动静并置捕捉到了她的舞蹈。她的肤色如瓷器般浅淡，为她的形象增添了一种近乎神秘的特质。	现代豪华当代豪华家居室内设计，风格模仿废墟材料、光线追踪、鬼屋和石头，捕捉到了自然的精髓，灰色和青铜色，动态的户外镜头。