license: mit
library_name: transformers
pipeline_tag: reinforcement-learning
开放推理者零号
概述 🌊
我们推出开放推理者零号,这是首个专注于可扩展性、简洁性和易用性的大规模推理导向强化学习的开源实现。
为促进更广泛参与我们见证的这一关键时刻,并加速通往通用人工智能(AGI)的研究,我们公开了源代码、参数设置、训练数据和模型权重。更多关于不同模型规模的深入分析请参阅我们的论文。
让推理者零号的浪潮高涨吧!
主要成果 🏆

图1 | 开放推理者零号-{70亿, 320亿}的评估表现。训练过程中开放推理者零号-{70亿, 320亿}在基准测试上的评估表现(16次响应平均值)。与DeepSeek-R1-Zero-Qwen-320亿采用相同基础模型的情况下,开放推理者零号-320亿在AIME2024、MATH500和GPQA Diamond基准上展现出更优性能——仅需十分之一的训练步数。
图2 | 开放推理者零号(ORZ) - {5亿, 15亿, 70亿, 320亿}在训练奖励和响应长度上的规模扩展。训练奖励和响应长度稳步提升,展示了跨模型规模的一致性扩展能力。值得注意的是,ORZ-320亿的响应长度虽出现波动却未影响训练稳定性,凸显了我们极简方案的鲁棒性。
发布内容 📦
[2025/03/31]
我们宣布开放推理者零号
的重大里程碑:
[2025/02/18]
我们发布开放推理者零号
。
本次发布内容包括:
代码库关键特性 🔑
- 采用单控制器训练器设计,灵活且研究者友好
- 训练与生成同GPU部署,最大化GPU利用率
快速开始 🚀
数据
我们在data
文件夹发布了全部精选高质量训练数据:
- 精选129k数据:
- 原始57k,收集自多个来源,包括AIME(截至2023年)、MATH、Numina-Math合集和Tulu3 MATH
- 扩展72k,主要清理自OpenR1-Math-220k
- 高难度13k,从ORZ-320亿首阶段训练中挖掘
数据收集细节详见我们论文。
安装与训练脚本
我们在docker文件夹发布了Dockerfile以便复现训练。
安装命令:
pip install -e .
启动ORZ-320亿PPO训练
16节点启动命令。
主节点运行:
ray start --head
其他所有节点运行:
ray start --address='<主节点IP>:<主节点端口>'
最后在主节点运行:
python -m playground.orz_32b_ppo
训练日志将显示在主节点终端。
启动ORZ-5亿PPO训练
单台A800/H800节点启动命令:
python -m playground.orz_0p5b_ppo
甚至可在单张A800/H800显卡运行:
python -m playground.orz_0p5b_ppo_1gpu
注:非多节点环境无需ray start
相关逻辑。
启动ORZ-70亿PPO训练
4节点训练:
ray start --head
ray start --address='<主节点IP>:<主节点端口>'
python -m playground.orz_7b_ppo
训练日志将显示在主节点终端。
启动ORZ-15亿PPO训练
2节点训练:
ray start --head
ray start --address='<主节点IP>:<主节点端口>'
python -m playground.orz_1p5b_ppo
调试设置
代码中保留DEBUG_MODE
环境变量供研究者调试使用。(目前推荐使用python -m playground.orz_0p5b_ppo_1gpu
进行调试)
调试运行示例:
DEBUG_MODE=True python -m playground.orz_14m_ppo_mini
DEBUG_MODE=True python -m playground.orz_7b_ppo
模型使用方法
策略模型
策略模型使用方式与transformers和vllm中的任何对话模型相同,我们已在tokenizer中配置聊天模板jinja。
评论家模型
评论家模型加载方式与训练代码相同。
致谢 💖
招聘时间 📣
我们正在招募优秀的研究员和工程师加入团队。如果您对我们的项目感兴趣,并希望为通往AGI的推理者规模化研究贡献力量,欢迎联系hanqer@stepfun.com

社区讨论 🍺
我们设有多个微信讨论群,扫描下方二维码加入最新群组。
引用
@misc{hu2025openreasonerzeroopensourceapproach,
title={开放推理者零号:基于基础模型规模化强化学习的开源方案},
author={胡靖程 and 张寅敏 and 韩琦 and 姜达欣 and 张翔宇 and 沈向洋},
year={2025},
eprint={2503.24290},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2503.24290},
}