库名称: sana
标签:
- 文本生成图像
- Sana
- 基于4K分辨率的图像尺寸
- 多语言支持
语言:
- 英文
- 中文
基础模型:
- Efficient-Large-Model/Sana_1600M_4Kpx_BF16
管道标签: 文本生成图像
模型卡片
我们推出Sana,一个能够高效生成分辨率高达4096×4096的文本生成图像框架。
Sana能以惊人的速度合成高分辨率、高质量且文本-图像对齐性强的图像,并可在笔记本电脑GPU上部署。
源代码位于:https://github.com/NVlabs/Sana。
注意事项
- 复杂场景生成的局限性:由于数据限制,我们的模型在生成复杂场景、文本和人类手部时能力有限。
- 提升能力:通过增加提示词的复杂度和长度可以改善模型表现。以下是一些提示词与生成示例。
4K示例
图像 |
 |
 |
 |
 |
提示词 |
心形热气球。大峡谷背景 |
正在融化的苹果 |
一位亚裔中年女性,深色头发间夹杂银丝,她的形象碎裂如瓷片般嵌入破碎的陶瓷海洋中。陶瓷表面闪烁着溅彩图案,光面与哑光的蓝、绿、橙、红色和谐交融,捕捉她舞动的瞬间,形成运动与静止的超现实并置。她如瓷器般浅淡的肤色为形象增添了近乎神秘的质感。 |
现代奢华住宅室内设计,采用仿破损材料风格,结合光线追踪技术、幽宅元素与石材,捕捉自然本质,灰铜色调,动态户外取景。 |
模型描述
模型来源
研究用途推荐使用generative-models
GitHub仓库(https://github.com/NVlabs/Sana),该仓库整合了Flow-DPM-Solver等先进扩散采样器,更适合训练和推理。MIT Han-Lab提供免费Sana推理服务。
- 代码库:https://github.com/NVlabs/Sana
使用方法
参考原始GitHub指南在Sana官方代码库中使用.pth模型:
import torch
from app.sana_pipeline import SanaPipeline
from torchvision.utils import save_image
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
generator = torch.Generator(device=device).manual_seed(42)
sana = SanaPipeline("configs/sana_config/4096ms/Sana_1600M_img4096_bf16.yaml")
sana.from_pretrained("hf://Efficient-Large-Model/Sana_1600M_4Kpx_BF16/checkpoints/Sana_1600M_4Kpx_BF16.pth")
prompt = '赛博朋克风格的猫,霓虹灯牌显示"Sana"'
image = sana(
prompt=prompt,
height=4096,
width=4096,
guidance_scale=5.0,
pag_guidance_scale=2.0,
num_inference_steps=20,
generator=generator,
)
save_image(image, 'output/sana_4K.png', nrow=1, normalize=True, value_range=(-1, 1))
用途
直接使用
本模型仅限研究用途,潜在研究方向包括:
- 艺术作品生成及设计创作
- 教育或创意工具开发
- 生成模型研究
- 有害内容生成模型的安全部署
- 生成模型局限性及偏见的探索
非适用范围
该模型未针对人物或事件的真实呈现进行训练,因此生成此类内容超出模型能力范围。
局限性与偏差
局限性
- 无法实现完美照片级真实感
- 无法生成复杂可读文本
- 手指等细节可能生成异常
- 模型自编码部分存在信息损失
偏差
尽管图像生成能力令人印象深刻,但可能强化或加剧社会偏见。