license: mit
library_name: transformers
pipeline_tag: reinforcement-learning
开放推理者零号
概述 🌊
我们推出开放推理者零号——首个专注于可扩展性、简洁性和易用性的大规模推理导向强化学习开源实现。采用与DeepSeek-R1-Zero-Qwen-32B相同的基础模型,我们的实现在AIME2024、MATH500和GPQA Diamond基准测试中展现卓越性能,同时表现出惊人的训练效率——仅需DeepSeek-R1-Zero流程十分之一的训练步数。
为促进更广泛参与我们见证的这一关键时刻,并加速通向通用人工智能(AGI)的研究,我们开源了全部源代码、参数配置、训练数据和模型权重。更多关于不同模型规模的深入分析请参阅我们的论文。
让推理者零号的浪潮席卷而来!
核心成果 🏆

图1 | Open-Reasoner-Zero-{7B, 32B}评估表现。训练过程中Open-Reasoner-Zero-{7B, 32B}在基准测试上的表现(16次响应平均值)。采用与DeepSeek-R1-Zero-Qwen-32B相同的基础模型,Open-Reasoner-Zero-32B在AIME2024、MATH500和GPQA Diamond基准上实现更优性能——仅需十分之一的训练步数。
图2 | Open-Reasoner-Zero (ORZ) - {0.5B, 1.5B, 7B, 32B}训练奖励与响应长度的规模扩展。训练奖励和响应长度稳步提升,展现跨模型尺寸的一致性扩展能力。值得注意的是,ORZ-32B的响应长度虽存在波动却未影响训练稳定性,凸显我们极简方案的鲁棒性。
版本发布 📦
[2025/03/31]
我们宣布Open-Reasoner-Zero
重大里程碑:
[2025/02/18]
我们发布Open-Reasoner-Zero
初始版本,开源内容包括:
代码库核心特性 🔑
- 采用单控制器训练器设计,灵活适配研究需求
- 训练与生成同GPU部署,最大化硬件利用率
快速开始 🚀
数据准备
我们于data
目录发布全部精选训练数据:
- 精选129k数据:
- 原始57k:来源包括AIME(至2023年)、MATH、Numina-Math合集及Tulu3 MATH
- 扩展72k:主要清洗自OpenR1-Math-220k
- 高难度13k:从ORZ-32B首阶段训练中挖掘
数据收集细节详见我们论文。
安装与训练
我们提供docker配置确保训练可复现。
安装命令:
pip install -e .
启动ORZ-32B训练
16节点集群启动流程:
主节点执行:
ray start --head
其他节点执行:
ray start --address='<主节点IP>:<主节点端口>'
最后主节点运行:
python -m playground.orz_32b_ppo
训练日志将显示于主节点终端。
启动ORZ-0.5B训练
单A800/H800节点启动:
python -m playground.orz_0p5b_ppo
甚至支持单张显卡运行:
python -m playground.orz_0p5b_ppo_1gpu
注:单节点无需ray start
操作。
启动ORZ-7B训练
4节点集群启动:
ray start --head
ray start --address='<主节点IP>:<主节点端口>'
python -m playground.orz_7b_ppo
启动ORZ-1.5B训练
2节点集群启动:
ray start --head
ray start --address='<主节点IP>:<主节点端口>'
python -m playground.orz_1p5b_ppo
调试模式
代码中设有DEBUG_MODE
环境变量便于研究迭代。(当前推荐使用python -m playground.orz_0p5b_ppo_1gpu
进行调试)
调试命令示例:
DEBUG_MODE=True python -m playground.orz_14m_ppo_mini
DEBUG_MODE=True python -m playground.orz_7b_ppo
模型使用指南
策略模型
策略模型使用方式与transformers/vllm中的聊天模型完全相同,我们已在tokenizer中配置对话模板。
评论家模型
评论家模型加载方式参见训练代码。
致谢 💖