license: mit
library_name: transformers
🧮 Fathom-R1-14B:以499美元训练成本解锁o4-mini级数学推理能力,基于R1蒸馏14B模型的16K上下文方案
概述
传统推理模型往往需要高昂的训练预算和超长推理链(如32K/64K)才能实现最佳性能。我们能否在同时限制这两个参数的情况下实现模型提升?
为此,我们首次推出:Fathom-R1-14B——基于Deepseek-R1-Distilled-Qwen-14B的140亿参数推理模型,仅以499美元的训练成本,在16K上下文窗口内实现SOTA数学推理性能。在最新奥数竞赛AIME-25和HMMT-25上,我们的模型不仅以pass@1分数(64次运行平均值)超越o3-mini-low、o1-mini和LightR1-14B(16k),更在cons@64指标上达到媲美闭源o4-mini(low)的水平——全程保持16K上下文限制。其在AIME2025达到52.71% Pass@1准确率,HMMT25达到35.26%(较基础模型分别提升7.2%和5.2%)。当采用cons@64测试时计算增强时,AIME2025准确率跃升至76.7%,HMMT25达56.7%(较基础模型提升13.4%和6.7%)。我们通过特定训练方法对精选数据集进行监督微调(SFT),再经模型融合,最终以总成本499美元实现这一突破!
我们还推出Fathom-R1-14B-RS,通过多阶段低成本训练(含强化学习和监督微调)及模型融合,以总成本967美元达成相近性能。
我们将开源模型、训练方案及数据集,助力推理领域研究发展。
🧪 研究动机
现有研究表明,延长推理时间能释放模型在复杂任务上的专家级表现。自DeepSeek R1系列开源以来,多个开源项目[s1, LIMO, Light-R1]尝试通过蒸馏或RL微调复现效果(尤其在≤32B规模),但最多只能接近R1原版性能。同时,部分新方法[DeepScaleR, DeepCoder, Light-R1]基于现有推理模型实现了性能扩展,但依赖高昂训练成本和长序列支持。
最新研究[Proof or Bluff ?, 推理模型的真实思考]对长推理链的中间步骤可靠性提出质疑。从可解释性、可靠性和安全性出发,必须确保推理链不会过度冗长。因此,本研究致力于在不突破16K上下文限制的条件下提升推理模型性能。我们认为,在挑战极限长推理之前,优先挖掘低上下文潜力至关重要。
训练数据集
我们从以下开源数据集构建高质量数学语料库:
- Open-R1 - 默认子集
- Numina – 奥赛&AOPS论坛(文字题,浮点答案)
经严格去重净化后,整合约10万道唯一题目作为训练基础。
🏗️ 训练策略
Fathom-R1-14B-v0.6训练方案
针对难题的SFT已被证明能有效提升推理能力。本阶段通过迭代课程学习策略在16K序列内提升模型多难度数学题表现。课程学习(CL)通过渐进式任务难度提升增强泛化能力,而我们采用迭代式CL——即进行多轮CL循环。
数据集构建中,我们使用OpenAI o3mini标注题目难度,保留相对高难度且解题率在0.2-0.7之间的题目,形成含5K样本的迭代课程学习数据集。
总H100 GPU耗时:48小时
成本:136美元
Fathom-R1-14B-v0.4-RS训练方案
采用两阶段流程:首先在6K序列下用GRPO优化Deepseek-R1-Distilled-Qwen-14B的推理效率;随后在16K序列下对难题集进行最短推理链SFT。
- 第一阶段(RL压缩推理):构建含7.7K题目的RL压缩数据集(解题率位于特定区间)。基于GRPO算法在6K序列限制下训练,模型学会生成简洁响应(如图表所示响应长度下降、奖励提升)。
- 第二阶段(高效长序列SFT):在16K窗口下对低解题率(0-0.4)难题进行最短推理链SFT(9.5K样本),得到稳定支持16K推理的Fathom-R1-14B-v0.4。
总H100 GPU耗时:293小时
成本:831美元
Fathom-R1-14B-v0.4训练方案
为降低成本,我们跳过RL阶段,直接在基础模型上实施第二阶段SFT。
总H100 GPU耗时:128小时
成本:363美元
模型融合
通过线性融合不同训练路径的模型:
- Fathom-R1-14B:融合V0.6(迭代课程SFT)与V0.4(最短链SFT)
- Fathom-R1-14B-RS:融合V0.6与V0.4-RS(RL压缩+最短链SFT)
💰 训练成本
模型 |
H100 GPU小时 |
成本(美元) |
Fathom-R1-14B-V0.4-RS |
293 |
831 |
Fathom-R1-14B-V0.4 |
128 |
363 |
Fathom-R1-14B-V0.6 |
48 |
136 |
Fathom-R1-14B-RS |
341 |
967 |
Fathom-R1-14B |
176 |
499 |
最终模型仅耗499美元即在16K限制下达到媲美o4-mini的数学推理能力。
📊 评估
采用DeepSeek‑R1论文的pass@1和cons@64指标,但将输出限制设为16,384 tokens以反映实际部署条件。
评估配置:
- 温度:0.6
- top_p:0.95
- 采样链数量:64
- 上下文:16,384 tokens
使用LIMO框架进行评估,详见eval/README.md
。
结果
在AIME25、HMMT25和GPQA上的对比表现:
模型 |
AIME25-pass@1 |
cons@64 |
HMMT25-pass@1 |
cons@64 |
闭源模型 |
|
|
|
|
o1‑mini |
50.71 |
63.33 |
35.15 |
46.67 |
o3‑mini‑low |
42.60 |
53.33 |
26.61 |
33.33 |
o4-mini-low |
60.20 |
76.67 |
39.11 |
53.33 |
开源模型 |
|
|
|
|
DeepSeek-R1-14B |
45.50 |
63.33 |
30.00 |
50.00 |
LightR1‑14B |
51.15 |
76.67 |
33.75 |
50.00 |
Fathom‑R1-14B |
52.71 |
76.67 |
35.26 |
56.67 |
我们的模型在所有开源模型中表现最佳(除R1-670B外),甚至超越o1-mini和o3-mini-low,接近o4-mini-low。
🌍 跨领域泛化:GPQA-Diamond
尽管训练数据不含非数学题,GPQA-Diamond表现仍有提升:
模型 |
pass@1 |
cons@64 |
DeepSeek-R1-14B |
54.19 |
64.14 |
Fathom‑R1-14B |
59.46 |
66.16 |
✂️ 推理效率分析
在16K上下文下对比平均响应token数:
模型 |
AIME25 |
HMMT25 |
LightR1-14B |
11330 |
12680 |
Fathom‑R1-14B-RS |
10083 |
12100 |
数据净化
所有测试集(AIME25/HMMT25)均在基础模型发布后公开,训练数据(Numina-Math 1.5 & OpenR1-Math)截至于2024年,经严格污染检测。
发布资源
📜 许可协议
本仓库所有资源采用MIT许可证,致力于推动开放AI创新。
致谢
感谢以下项目支持:
📖 引用
@misc{fathom14b2025,
title={Fathom-R1: 以499美元训练成本实现14B参数模型在16K上下文下的o4-mini级数学推理},
author={Kunal Singh and Pradeep Moturi and Ankan Biswas and Siva Gollapalli and Sayandeep Bhowmick},
howpublished={\url{https://huggingface.co/FractalAIResearch/Fathom-R1-14B}},
note={Hugging Face},
year={2025}
}
拉马努金计划
我们一年前启动的拉马努金计划,已在高级推理领域取得突破: