license: mit
library_name: transformers
✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦
解锁语言模型的推理潜能
从预训练到后训练
✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦
本模型仓库采用MIT许可证授权。
一、引言
当前大多数成功的强化学习(RL)研究(包括开源项目)都依赖于较大的基础模型(如32B参数模型),特别是在提升代码推理能力方面。此外,业界普遍认为在小模型中同时实现数学与代码能力的均衡提升具有挑战性。但我们认为,RL训练推理模型的效果取决于基础模型与生俱来的推理潜力。要彻底释放语言模型的推理潜能,不仅需要关注后训练策略,还需针对推理特性优化预训练方案。
在本工作中,我们推出MiMo-7B系列——专为推理任务从头训练的模型。基于MiMo-7B-Base的RL实验表明,该模型展现出非凡的推理潜力,甚至超越了许多32B大模型。我们还对冷启动的SFT模型进行RL训练,最终获得的MiMo-7B-RL在数学和代码推理任务上均表现出色,性能可媲美OpenAI o1-mini。
我们开源了MiMo-7B全系列模型,包括基础模型、SFT模型、基于基础模型训练的RL模型,以及基于SFT模型训练的RL模型。相信本报告与相关模型将为开发强大推理LLM提供宝贵洞见,助力社区发展。
üåü 核心亮点
-
预训练:为推理而生的基础模型
- 优化数据预处理流程,增强文本提取工具包并应用多维数据过滤,提升预训练数据中的推理模式密度
- 采用多种策略生成海量多样化合成推理数据
- 实施三阶段数据混合策略,MiMo-7B-Base总计训练约25万亿token
- 引入多token预测(MTP)作为辅助训练目标,既提升模型性能又加速推理
-
后训练方案:开创性推理模型
- 精选13万道数学与编程题作为RL训练数据,所有题目均可通过规则验证器检验。每道题均经过严格清洗与难度评估
- 仅采用基于规则的准确性奖励,避免潜在的奖励破解问题
- 针对高难度代码题的稀疏奖励问题,引入测试难度驱动的代码奖励机制。通过为不同难度测试用例分配细粒度分数,利用密集奖励信号更有效优化策略
- 对简单题实施数据重采样策略,提升rollout采样效率并稳定策略更新(尤其在RL训练后期)
-
RL基础设施
- 开发无缝rollout引擎加速RL训练与验证。通过整合持续rollout、异步奖励计算和提前终止机制,将GPU空闲时间最小化,实现训练速度提升2.29倍、验证速度提升1.96倍
- 在vLLM中支持MTP并增强RL系统推理引擎的鲁棒性
二、模型详情
MiMo-7B的MTP层在预训练和SFT阶段进行调优,在RL阶段保持冻结。使用单层MTP进行推测解码时,接受率约为90%。
模型下载地址:HuggingFace | ModelScope
三、评估结果
评测基准 |
GPT-4o-0513 |
Claude-3.5-Sonnet-1022 |
OpenAI o1-mini |
QwQ-32B-Preview |
R1-Distill-Qwen-14B |
R1-Distill-Qwen-7B |
MiMo-7B-RL |
通用能力 |
|
|
|
|
|
|
|
GPQA钻石题 (Pass@1) |
49.9 |
65.0 |
60.0 |
54.5 |
59.1 |
49.1 |
54.4 |
SuperGPQA (Pass@1) |
42.4 |
48.2 |
45.2 |
43.6 |
40.6 |
28.9 |
40.5 |
DROP (3-shot F1) |
83.7 |
88.3 |
83.9 |
71.2 |
85.5 |
77.0 |
78.7 |
MMLU-Pro (EM) |
72.6 |
78.0 |
80.3 |
52.0 |
68.8 |
53.5 |
58.6 |
IF-Eval (Prompt严格模式) |
84.3 |
86.5 |
84.8 |
40.4 |
78.3 |
60.5 |
61.0 |
数学能力 |
|
|
|
|
|
|
|
MATH-500 (Pass@1) |
74.6 |
78.3 |
90.0 |
90.6 |
93.9 |
92.8 |
95.8 |
AIME 2024 (Pass@1) |
9.3 |
16.0 |
63.6 |
50.0 |
69.7 |
55.5 |
68.2 |
AIME 2025 (Pass@1) |
11.6 |
7.4 |
50.7 |
32.4 |
48.2 |
38.8 |
55.4 |
代码能力 |
|
|
|
|
|
|
|
LiveCodeBench v5 (Pass@1) |
32.9 |
38.9 |
53.8 |
41.9 |
53.1 |
37.6 |
57.8 |
LiveCodeBench v6 (Pass@1) |
30.9 |
37.2 |
46.8 |
39.1 |
31.9 |
23.9 |
49.3 |
MiMo-7B系列模型表现
评测基准 |
MiMo-7B-Base |
MiMo-7B-RL-Zero |
MiMo-7B-SFT |
MiMo-7B-RL |
数学能力 |
|
|
|
|
MATH500 (Pass@1) |
37.4 |
93.6 |
93.0 |
95.8 |
AIME 2024 (Pass@1) |
32.9 |
56.4 |
58.7 |
68.2 |
AIME 2025 (Pass@1) |
24.3 |
46.3 |
44.3 |
55.4 |
代码能力 |
|
|
|
|
LiveCodeBench v5 (Pass@1) |
32.9 |
49.1 |
52.3 |
57.8 |
LiveCodeBench v6 (Pass@1) |
29.1 |
42.9 |
45.5 |
49.3 |
[!重要提示]
所有评测均在temperature=0.6
条件下进行
AIME24/AIME25取32次重复的平均分,LiveCodeBench v5(20240801-20250201)/v6(20250201-20250501)、GPQA-Diamond和IF-Eval取8次重复平均分,MATH500和SuperGPQA为单次运行结果
四、部署指南
SGLang推理
感谢SGLang团队的贡献,我们在24小时内实现了MiMo在SGLang主线版本的支持(MTP功能即将上线)。
示例脚本:
python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python"
python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-Base --host 0.0.0.0 --trust-remote-code
详细用法参见SGLang文档,MTP支持也将在24小时内上线。
vLLM推理
- [推荐] 使用[我们维护的vLLM分支](https://github.com/XiaomiMiMo