Lumina-Next-SFT-diffusers开源文生图模型 - 免费生成精美图像，功能实用！

首页

Lumina Next SFT Diffusers

由 Alpha-VLLM 开发

Lumina-Next-SFT是一款包含20亿参数的Next-DiT模型，采用Gemma-2B作为文本编码器，并通过高质量监督微调(SFT)进行增强的文生图模型。

文本生成图像开源协议:Apache-2.0 #文生图扩散模型 #Gemma-2B文本编码 #20亿参数规模

下载量 8,442

发布时间 : 6/20/2024

模型简介

Lumina-Next-SFT是基于Next-DiT架构的文生图扩散模型，使用Gemma-2B作为文本编码器，能够根据文本描述生成高质量图像。

模型特点

高质量监督微调

通过高质量监督微调(SFT)增强模型性能，提升生成图像的质量

高效架构

采用Next-DiT骨干网络，实现更快速度更低内存占用的图像生成

强大文本理解

使用Gemma-2B作为文本编码器，提供优秀的文本理解能力

高分辨率支持

支持最高2K分辨率的图像生成

模型能力

文本到图像生成

高分辨率图像生成

复杂场景理解

使用案例

创意设计

概念艺术创作

根据文字描述生成游戏或电影的概念艺术图

生成具有特定风格和细节的概念艺术作品

内容创作

社交媒体内容生成

为社交媒体帖子生成配图

快速生成与文本内容匹配的视觉图像

🚀 Lumina-Next-SFT

Lumina-Next-SFT 是一款包含 20 亿参数的 Next-DiT 模型，它采用 Gemma-2B 作为文本编码器，并通过高质量的监督微调（SFT）进行了优化。该模型以 Next-DiT 为骨干网络，文本编码器为 Gemma 2B 模型，变分自编码器（VAE）则使用了由 stabilityai 微调的 sdxl 版本。

✨ 主要特性

强大的生成能力：基于 Next-DiT 架构，能够生成高质量的图像。
优质的文本编码：采用 Gemma-2B 作为文本编码器，更精准地理解文本输入。
精细的图像生成：使用 stabilityai 微调的 sdxl-vae 进行图像生成，提升图像质量。

属性	详情
模型类型	Next-DiT
文本编码器	Gemma-2B
变分自编码器（VAE）	stabilityai/sdxl-vae

Lumina-T2X 论文

hero

📰 新闻动态

[2024-07-08] 🎉🎉🎉 Lumina-Next 现已在 diffusers 中得到支持！感谢 @yiyixuxu 和 @sayakpaul！
[2024-06-08] 🎉🎉🎉 我们发布了 Lumina-Next-SFT 模型。
[2024-05-28] 我们更新了 Lumina-Next-T2I 模型，以支持 2K 分辨率的图像生成。
[2024-05-16] 我们将 .pth 权重转换为 .safetensors 权重。请拉取最新代码，使用 demo.py 进行推理。
[2024-05-12] 我们发布了 Lumina-T2I 的下一个版本，名为 Lumina-Next-T2I，用于更快、更低内存使用的图像生成模型。

🎮 模型库

我们的模型将很快发布更多检查点~

分辨率	Next-DiT 参数	文本编码器	预测方式	下载链接
1024	20 亿	Gemma-2B	整流流	hugging face

📦 安装指南

1. 创建 conda 环境并安装 PyTorch

⚠️ 重要提示

你可能需要根据你的驱动版本调整 CUDA 版本。

conda create -n Lumina_T2X -y
conda activate Lumina_T2X
conda install python=3.11 pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia -y

2. 安装依赖项

pip install diffusers huggingface_hub

3. 安装 `flash-attn`

pip install flash-attn --no-build-isolation

💻 使用示例

基础用法

1. 准备预训练模型

⭐⭐（推荐）你可以使用 huggingface_cli 下载我们的模型：

huggingface-cli download --resume-download Alpha-VLLM/Lumina-Next-SFT-diffusers --local-dir /path/to/ckpt

2. 使用示例代码运行

from diffusers import LuminaText2ImgPipeline
import torch

pipeline = LuminaText2ImgPipeline.from_pretrained("/path/to/ckpt/Lumina-Next-SFT-diffusers", torch_dtype=torch.bfloat16).to("cuda")

# 或者你可以直接使用代码下载模型
# pipeline = LuminaText2ImgPipeline.from_pretrained("Alpha-VLLM/Lumina-Next-SFT-diffusers", torch_dtype=torch.bfloat16).to("cuda")

image = pipeline(prompt="Upper body of a young woman in a Victorian-era outfit with brass goggles and leather straps. "
                        "Background shows an industrial revolution cityscape with smoky skies and tall, metal structures").images[0]