🚀 ReasonGen-R1:基于思维链推理的自回归图像生成模型
ReasonGen-R1是一个融合了思维链推理的自回归图像生成模型。它是论文 "ReasonGen-R1: 通过SFT和RL实现自回归图像生成模型的思维链推理" 的官方模型。该模型利用思维链推理提升图像生成的逻辑性和质量,在多个图像生成基准测试中表现出色。
🚀 快速开始
安装
你可以通过运行以下命令来安装必要的依赖项:
cd ~
mkdir project
cd project
conda create -n image_rl python==3.12 -y
conda activate image_rl
pip3 install torch==2.6.0 torchvision --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn --no-build-isolation
git clone https://github.com/Franklin-Zhang0/ReasonGen-R1.git
cd ReasonGen-R1
pip install -r requirements.txt
pip install -e .
pip install -e ./Janus
评估环境安装(可选)
如果你想运行评估代码,可以通过运行以下命令来安装评估环境:
```shell
# Geneval
cd ~
mkdir project
cd project
git clone https://github.com/djghosh13/geneval.git
cd geneval
conda deactivate
conda create -n geneval python=3.9 -y
conda activate geneval
pip install torch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1
pip install mmcv-full==1.7.0 -f https://download.openmmlab.com/mmcv/dist/cu117/torch1.13/index.html
pip install mmengine==0.7.3
pip install pandas
pip install numpy==1.23.1
pip install open-clip-torch
pip install clip-benchmark
git clone https://github.com/open-mmlab/mmdetection.git
cd mmdetection; git checkout 2.x
pip install -v -e .
cd ../
bash ./evaluation/download_models.sh "./models"
```shell
# DPG
cd ~
cd project
git clone https://github.com/TencentQQGYLab/ELLA.git
cd ELLA
cp ~/project/ReasonGen-R1/benchmark/requirements-for-dpg_bench.txt .
conda deactivate
conda create -n dpg_test python=3.9 -y
conda activate dpg_test
conda install conda-forge::fairseq -y
pip install -r requirements-for-dpg_bench.txt
评估环境设置完成后,你可以使用以下命令运行评估:
bash -i benchmark/geneval.sh
bash -i benchmark/dpg_eval.sh
推理
要使用ReasonGen-R1模型进行推理,你可以使用以下命令:
python ReasonGen-R1/Janus/cot_generate_inference.py
SFT训练
要在ReasonGen-R1-SFT-200k数据集上从Janus-Pro-7B模型开始训练SFT模型,你可以使用以下命令:
bash ReasonGen-R1/examples/janus_sft.sh
RL训练
要从ReasonGen-R1-SFT模型开始训练RL模型,你可以使用以下命令:
bash ReasonGen-R1/Janus/janus_rl.py
✨ 主要特性
虽然思维链(CoT)推理和强化学习(RL)在自然语言处理(NLP)领域取得了突破,但将它们整合到生成式视觉模型中的研究仍相对较少。我们推出了ReasonGen-R1,这是一个两阶段的框架。首先,通过在新生成的书面推理数据集上进行有监督微调(SFT),赋予自回归图像生成器基于文本的显式“思考”能力;然后,使用组相对策略优化(GRPO)来优化其输出。
为了使模型在生成图像之前能够通过文本进行推理,我们自动生成并发布了一个与视觉提示配对的模型推理语料库,从而能够对对象布局、风格和场景组合进行可控规划。
我们的GRPO算法使用预训练的视觉 - 语言模型的奖励信号来评估整体视觉质量,并在每次更新中优化策略。
在Geneval、DPG和T2I基准测试中的评估表明,ReasonGen-R1始终优于强大的基线模型和先前的最先进模型。我们将开源生成的推理数据集和训练代码,以加速基于文本推理驱动的图像生成的进一步发展。
📦 安装指南
Huggingface
📄 许可证
本项目采用Apache-2.0许可证。
📚 详细文档
模型信息
属性 |
详情 |
基础模型 |
deepseek-ai/Janus-Pro-7B |
数据集 |
Franklin0/ReasonGen-R1-RL-Geneval-12k、Franklin0/ReasonGen-R1-RL-DPG-5k、Franklin0/ReasonGen-R1-RL-T2I-11k |
库名称 |
transformers |
许可证 |
apache-2.0 |
任务类型 |
文本到图像 |
项目链接
🔧 技术细节
本项目的技术细节主要体现在ReasonGen-R1的两阶段框架上。第一阶段,通过有监督微调(SFT)在新生成的书面推理数据集上训练模型,使其具备基于文本的显式“思考”能力。第二阶段,使用组相对策略优化(GRPO)算法,利用预训练的视觉 - 语言模型的奖励信号来评估整体视觉质量,并在每次更新中优化策略。这种方法使得模型在生成图像之前能够通过文本进行推理,从而实现对对象布局、风格和场景组合的可控规划。在Geneval、DPG和T2I基准测试中的评估结果表明,该方法能够显著提升模型的性能,使其优于强大的基线模型和先前的最先进模型。
📝 致谢
我们要感谢 Verl,我们的项目是基于它构建的。
📚 引用
@misc{zhang2025reasongenr1cotautoregressiveimage,
title={ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL},
author={Yu Zhang and Yunqi Li and Yifan Yang and Rui Wang and Yuqing Yang and Dai Qi and Jianmin Bao and Dongdong Chen and Chong Luo and Lili Qiu},
year={2025},
eprint={2505.24875},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2505.24875},
}