基础模型:
- Qwen/Qwen2.5-32B-Instruct
许可证: apache-2.0
库名称: transformers
管道标签: text-generation
Light-R1:通过课程式SFT与DPO技术,以1000美元成本实现从零超越R1-Distill*
*指不具备长链思维(long COT)的基础模型
技术报告
GitHub页面
模型 |
训练基础 |
发布日期 |
AIME24 |
AIME25 |
DeepSeek-R1-Distill-Llama-70B |
Llama-3.3-70B-Instruct |
25.1.20 |
70.0 |
54.1 |
DeepSeek-R1-Distill-Qwen-32B |
Qwen2.5-32B |
25.1.20 |
72.6 |
54.9 |
LIMO (32B) |
Qwen2.5-32B-Instruct |
25.2.4 |
56.3 |
47.1 |
s1.1-32B |
Qwen2.5-32B-Instruct |
25.2.8 |
64.7 |
47.8 |
OpenThinker-32B |
Qwen2.5-32B-Instruct |
25.2.12 |
66.0 |
50.9 |
Light-R1-32B (本作) 🤗 |
Qwen2.5-32B-Instruct |
25.3.4 |
76.6 |
64.6 |
尽管已有诸多开源尝试在72B及以下规模模型复现DeepSeek-R1,但在高难度数学竞赛AIME24上,无一能达到DeepSeek-R1-Distill-Qwen-32B的72.6分水平。
我们推出的Light-R1-32B基于Qwen2.5-32B-Instruct训练,在AIME24上取得76.6分。从无长链思维的基础模型出发(就R1能力而言相当于从零开始),通过对净化数学数据进行课程式SFT(监督微调)和DPO(直接偏好优化)蒸馏,我们不仅超越了DeepSeek-R1-Distill-Qwen-32B在AIME24/25的表现,还通过模型融合实现了进一步突破。
更重要的是,
除开源当前最强从零训练模型Light-R1-32B外,我们首日即公开了全部课程式SFT与DPO训练数据集,以及基于360-LLaMA-Factory的训练代码。
在12台H800机器上预计训练时间不超过6小时——成本约1000美元。
我们认为Light-R1为从零训练强效长链思维模型(基于无长链思维的基础模型)提供了可行方案。虽然我们正通过强化学习进一步优化模型,但课程式SFT与DPO能在训练流程中提供更精细的控制,且更具成本效益。
随着训练与推理技术的快速发展,我们期待在不久的将来看到更多可用的长链思维模型,而Light-R1至少为专业领域提供了一条经过验证的透明训练路径。
点击加入微信群
发布详情
推理说明
Light-R1-32B的思维能力仅通过数学数据训练,因此不会持续保持思考状态。
按照DeepSeek建议,我们在聊天模板中硬编码<think>
标记以强制模型在输出前启动思考。
推荐使用vLLM或SGLang进行推理。
Light-R1-32B继承Qwen模型的聊天模板,新增<think>
和</think>
作为特殊标记,并通过硬编码<think>
强制触发思考。
课程式SFT与DPO训练流程
|
AIME24 pass@1 (64次平均) |
AIME25 |
GPQA钻石级 |
Qwen2.5-32B-Instruct |
16.6 |
13.6 |
48.8 |
DeepSeek-R1-Distill-Qwen-32B |
72.6 |
54.9 |
62.1 |
Light-R1-SFT阶段1 |
69.0 |
57.4 |
64.3 |
Light-R1-SFT阶段2 |
73.0 |
64.3 |
60.6 |
Light-R1-DPO |
75.8 |
63.4 |
61.8 |
Light-R1-32B |
76.6 |
64.6 |
61.8 |
我们采用课程学习策略结合SFT与DPO进行训练。
数学数据来源
训练题目收集自公开数学数据集,包括OpenR1-Math-220k、OpenThoughts-114k、LIMO、OpenMathInstruct-2、s1K-1.1、Omni-MATH、hendrycks_math及AIME(截至2023年)。我们对这些题目进行了去污染处理,确保与AIME24/25、MATH-500和GPQA钻石级等推理基准无重叠。
课程式SFT与DPO
我们收集DeepSeek-R1对这些题目的回答,并通过DeepScaleR-1.5B-Preview采样验证和难度评级进行筛选,构建包含76k数据的SFT阶段1数据集。
完成SFT阶段1后,我们从76k数据集中进一步筛选出更具挑战性的3k数据用于SFT阶段2。
该阶段数据可将DeepSeek-R1-Distill-Qwen-32B在AIME24/25的表现从72.6/54.9提升至0.779/0.675。
随后采样Light-R1-SFT阶段2在SFT阶段2后的回答,筛选每道题的正确与错误回答,基于验证结果和DeepSeek-R1的回答构建DPO配对。
DPO(或NCA)在SFT阶段2基础上进行,使用360-LLaMA-Factory实现序列并行。
上述训练步骤效率极高,在12台H800机器上预计6小时内完成,成本约1000美元。
模型融合
最终我们融合了SFT阶段2模型、DPO模型以及另一个AIME24得分74.7的DPO变体。两个DPO版本的区别在于其中一个在拒绝响应中跳过了特殊标记。有趣的是,融合后的版本展现出额外提升。
我们的方法实现了阶梯式改进,各阶段中间评估结果如上表所示。在完全未训练的科学问题评估GPQA上,数学专项训练导致了一定程度的遗忘,但Light-R1-32B仍展现出强大的泛化能力。
数据去污染
我们仔细评估了多个开源数据集的数据污染情况。虽然预训练中某些污染可能不可避免,但在训练后比较基准时绝不可接受。MATH-500存在数十道完全重复或仅数字变化的题目,AIME24/25保持完整,但在纳入截至2023年的AIME数据时需特别谨慎。Light-R1-32B通过精确匹配和N-gram匹配进行了彻底去污染。
许可与致谢
本项目所有发布内容遵循Apache 2.0开源协议。
训练实验基于360-LLaMA-Factory实现。评估脚本基于DeepScaleR和verl。
Light-R1-32B训练自Qwen2.5-32B-Instruct。训练数据收集自多个公开来源。
引用
@misc{lightr1proj,
title={Light-R1:通过课程式SFT与DPO技术,以1000美元成本实现从零超越R1-Distill},
author={温亮, 肖奋锐, 何鑫, 蔡云柯, 安琪, 段振宇, 杜一民, 刘俊辰, 唐立夫, 吕晓伟, 邹浩生, 邓永超, 贾守胜, 张向正},
year={2025},
eprint={},
archivePrefix={},
url={https://github.com/Qihoo360/Light-R1},
}