ReasonGen - R1开源图像生成模型 - 融合推理提升图像生成逻辑性与质量

首页

Reasongen R1

由 Franklin0 开发

ReasonGen-R1是一个融合思维链推理的自回归图像生成模型，通过SFT和RL提升图像生成的逻辑性和质量。

文本生成图像

Transformers

开源协议:Apache-2.0 #思维链图像生成 #自回归推理 #强化学习优化

下载量 142

发布时间 : 5/27/2025

模型简介

ReasonGen-R1是一个两阶段的框架，首先通过有监督微调（SFT）赋予模型基于文本的显式'思考'能力，然后使用组相对策略优化（GRPO）来优化其输出。该模型在生成图像前能通过文本进行推理，实现对对象布局、风格和场景组合的可控规划。

模型特点

思维链推理

通过文本推理显式规划图像生成，提升逻辑性和可控性

两阶段训练框架

先进行有监督微调（SFT）学习推理能力，再通过强化学习（RL）优化生成质量

组相对策略优化（GRPO）

使用预训练视觉-语言模型的奖励信号评估和优化生成质量

可控图像生成

能对对象布局、风格和场景组合进行精确规划和控制

模型能力

文本到图像生成

基于推理的图像规划

可控图像合成

多风格图像生成

使用案例

创意设计

概念艺术生成

根据详细文本描述生成高质量概念艺术作品

生成符合逻辑且细节丰富的概念图

广告设计

根据产品描述自动生成广告图像

风格一致且符合营销需求的广告图

教育

教学材料生成

根据课程内容自动生成插图

准确表达抽象概念的视觉材料

🚀 ReasonGen-R1：基于思维链推理的自回归图像生成模型

ReasonGen-R1是一个融合了思维链推理的自回归图像生成模型。它是论文 "ReasonGen-R1: 通过SFT和RL实现自回归图像生成模型的思维链推理" 的官方模型。该模型利用思维链推理提升图像生成的逻辑性和质量，在多个图像生成基准测试中表现出色。

🚀 快速开始

安装

你可以通过运行以下命令来安装必要的依赖项：

cd ~
mkdir project
cd project
conda create -n image_rl python==3.12 -y
conda activate image_rl
pip3 install torch==2.6.0 torchvision --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn --no-build-isolation
git clone https://github.com/Franklin-Zhang0/ReasonGen-R1.git
cd ReasonGen-R1
pip install -r requirements.txt
pip install -e .
pip install -e ./Janus

评估环境安装（可选）

如果你想运行评估代码，可以通过运行以下命令来安装评估环境： ```shell # Geneval cd ~ mkdir project cd project git clone https://github.com/djghosh13/geneval.git cd geneval conda deactivate conda create -n geneval python=3.9 -y conda activate geneval pip install torch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pip install mmcv-full==1.7.0 -f https://download.openmmlab.com/mmcv/dist/cu117/torch1.13/index.html pip install mmengine==0.7.3

pip install pandas pip install numpy==1.23.1

pip install open-clip-torch pip install clip-benchmark

git clone https://github.com/open-mmlab/mmdetection.git cd mmdetection; git checkout 2.x pip install -v -e .

cd ../ bash ./evaluation/download_models.sh "./models"

```shell
# DPG
cd ~
cd project
git clone https://github.com/TencentQQGYLab/ELLA.git
cd ELLA
cp ~/project/ReasonGen-R1/benchmark/requirements-for-dpg_bench.txt .
conda deactivate
conda create -n dpg_test python=3.9 -y
conda activate dpg_test
conda install conda-forge::fairseq -y
pip install -r requirements-for-dpg_bench.txt

评估环境设置完成后，你可以使用以下命令运行评估：

bash -i benchmark/geneval.sh
bash -i benchmark/dpg_eval.sh

推理

要使用ReasonGen-R1模型进行推理，你可以使用以下命令：

python ReasonGen-R1/Janus/cot_generate_inference.py

SFT训练

要在ReasonGen-R1-SFT-200k数据集上从Janus-Pro-7B模型开始训练SFT模型，你可以使用以下命令：

bash ReasonGen-R1/examples/janus_sft.sh

RL训练

要从ReasonGen-R1-SFT模型开始训练RL模型，你可以使用以下命令：

bash ReasonGen-R1/Janus/janus_rl.py

✨ 主要特性

虽然思维链（CoT）推理和强化学习（RL）在自然语言处理（NLP）领域取得了突破，但将它们整合到生成式视觉模型中的研究仍相对较少。我们推出了ReasonGen-R1，这是一个两阶段的框架。首先，通过在新生成的书面推理数据集上进行有监督微调（SFT），赋予自回归图像生成器基于文本的显式“思考”能力；然后，使用组相对策略优化（GRPO）来优化其输出。为了使模型在生成图像之前能够通过文本进行推理，我们自动生成并发布了一个与视觉提示配对的模型推理语料库，从而能够对对象布局、风格和场景组合进行可控规划。我们的GRPO算法使用预训练的视觉 - 语言模型的奖励信号来评估整体视觉质量，并在每次更新中优化策略。在Geneval、DPG和T2I基准测试中的评估表明，ReasonGen-R1始终优于强大的基线模型和先前的最先进模型。我们将开源生成的推理数据集和训练代码，以加速基于文本推理驱动的图像生成的进一步发展。

📦 安装指南

Huggingface

模型	下载链接
ReasonGen-R1	🤗 Hugging Face
ReasonGen-R1-SFT-Only	🤗 Hugging Face

数据集	下载链接
ReasonGen-R1-Datasets	🤗 Hugging Face

📄 许可证

本项目采用Apache-2.0许可证。

📚 详细文档

模型信息

属性	详情
基础模型	deepseek-ai/Janus-Pro-7B
数据集	Franklin0/ReasonGen-R1-RL-Geneval-12k、Franklin0/ReasonGen-R1-RL-DPG-5k、Franklin0/ReasonGen-R1-RL-T2I-11k
库名称	transformers
许可证	apache-2.0
任务类型	文本到图像

项目链接

官网：https://aka.ms/reasongen
代码：https://github.com/Franklin-Zhang0/Image-RL
论文：ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL

🔧 技术细节

本项目的技术细节主要体现在ReasonGen-R1的两阶段框架上。第一阶段，通过有监督微调（SFT）在新生成的书面推理数据集上训练模型，使其具备基于文本的显式“思考”能力。第二阶段，使用组相对策略优化（GRPO）算法，利用预训练的视觉 - 语言模型的奖励信号来评估整体视觉质量，并在每次更新中优化策略。这种方法使得模型在生成图像之前能够通过文本进行推理，从而实现对对象布局、风格和场景组合的可控规划。在Geneval、DPG和T2I基准测试中的评估结果表明，该方法能够显著提升模型的性能，使其优于强大的基线模型和先前的最先进模型。

📝 致谢

我们要感谢 Verl，我们的项目是基于它构建的。

📚 引用

@misc{zhang2025reasongenr1cotautoregressiveimage,
      title={ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL}, 
      author={Yu Zhang and Yunqi Li and Yifan Yang and Rui Wang and Yuqing Yang and Dai Qi and Jianmin Bao and Dongdong Chen and Chong Luo and Lili Qiu},
      year={2025},
      eprint={2505.24875},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2505.24875}, 
}