license: mit
library_name: transformers
★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆
解锁语言模型的推理潜能
从预训练到后训练
★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆
本模型仓库遵循MIT开源协议
一、引言
当前大多数成功的强化学习(RL)研究(包括开源成果)都依赖于较大的基础模型(如320亿参数模型),特别是在提升代码推理能力方面。业界普遍认为,在小型模型中同时实现数学与代码能力的均衡提升具有挑战性。但我们认为,RL训练效果本质上取决于基础模型与生俱来的推理潜力。要全面释放语言模型的推理潜能,不仅需要关注后训练策略,更需要定制面向推理的预训练方案。
在本工作中,我们推出MiMo-7B系列——专为推理任务而生的原创模型。实验表明,基于MiMo-7B-Base的RL训练展现出超越320亿大模型的非凡推理潜力。我们还对冷启动SFT模型进行RL训练,最终获得的MiMo-7B-RL在数学与代码推理任务上均达到与OpenAI o1-mini比肩的性能。
我们开源了MiMo-7B全系列模型,包括基础模型、SFT模型、基于基础模型的RL模型,以及基于SFT模型的RL模型。相信本报告与开源模型将为开发者构建强大推理LLM提供宝贵洞见。
üåü 核心亮点
-
预训练:为推理而生的基础模型
- 优化数据预处理流程,增强文本提取工具链,通过多维数据过滤提升预训练数据中的推理模式密度
- 采用多种策略生成海量多样化合成推理数据
- 实施三阶段数据混合策略,模型预训练总token量约2.5万亿
- 引入多token预测(MTP)作为辅助训练目标,既提升性能又加速推理
-
后训练方案:开创性推理模型配方
- 精选13万道可验证的数学与编程题作为RL数据,每道题均经过严格清洗与难度评估
- 仅采用基于规则的准确性奖励,避免潜在奖励破解问题
- 针对高难度代码题设计测试难度驱动的细粒度奖励机制
- 实施易题重采样策略,提升训练效率并稳定策略更新
-
RL基础设施
- 开发无缝rollout引擎,整合持续rollout、异步奖励计算与提前终止机制,训练速度提升2.29倍
- 在vLLM中支持MTP特性,增强RL系统推理引擎的鲁棒性
二、模型详情
MiMo-7B的MTP层在预训练和SFT阶段进行调优,在RL阶段保持冻结。当使用单层MTP进行推测解码时,接受率约90%。
模型下载地址:HuggingFace | ModelScope
三、评估结果
评测基准 |
GPT-4o-0513 |
Claude-3.5-Sonnet-1022 |
OpenAI o1-mini |
QwQ-32B-Preview |
R1-Distill-Qwen-14B |
R1-Distill-Qwen-7B |
MiMo-7B-RL |
通用能力 |
|
|
|
|
|
|
|
GPQA钻石题 (Pass@1) |
49.9 |
65.0 |
60.0 |
54.5 |
59.1 |
49.1 |
54.4 |
SuperGPQA (Pass@1) |
42.4 |
48.2 |
45.2 |
43.6 |
40.6 |
28.9 |
40.5 |
DROP (3-shot F1) |
83.7 |
88.3 |
83.9 |
71.2 |
85.5 |
77.0 |
78.7 |
MMLU-Pro (准确率) |
72.6 |
78.0 |
80.3 |
52.0 |
68.8 |
53.5 |
58.6 |
IF-Eval (严格提示遵循) |
84.3 |
86.5 |
84.8 |
40.4 |
78.3 |
60.5 |
61.0 |
数学能力 |
|
|
|
|
|
|
|
MATH-500 (Pass@1) |
74.6 |
78.3 |
90.0 |
90.6 |
93.9 |
92.8 |
95.8 |
AIME 2024 (Pass@1) |
9.3 |
16.0 |
63.6 |
50.0 |
69.7 |
55.5 |
68.2 |
AIME 2025 (Pass@1) |
11.6 |
7.4 |
50.7 |
32.4 |
48.2 |
38.8 |
55.4 |
代码能力 |
|
|
|
|
|
|
|
LiveCodeBench v5 (Pass@1) |
32.9 |
38.9 |
53.8 |
41.9 |
53.1 |
37.6 |
57.8 |
LiveCodeBench v6 (Pass@1) |
30.9 |
37.2 |
46.8 |
39.1 |
31.9 |
23.9 |
49.3 |
MiMo-7B系列模型表现
评测基准 |
MiMo-7B-Base |
MiMo-7B-RL-Zero |
MiMo-7B-SFT |
MiMo-7B-RL |
数学能力 |
|
|
|
|
MATH500 (Pass@1) |
37.4 |
93.6 |
93.0 |
95.8 |
AIME 2024 (Pass@1) |
32.9 |
56.4 |
58.7 |
68.2 |
AIME 2025 (Pass@1) |
24.3 |
46.3 |
44.3 |
55.4 |
代码能力 |
|
|
|
|
LiveCodeBench v5 (Pass@1) |
32.9 |
49.1 |
52.3 |
57.8 |
LiveCodeBench v6 (Pass@1) |
29.1 |
42.9 |
45.5 |
49.3 |
[!重要提示]
评估温度参数设为0.6
AIME24/25取32次平均,LiveCodeBench v5/v6、GPQA钻石题、IF-Eval取8次平均,MATH500和SuperGPQA为单次运行结果
四、部署指南
SGLang推理
感谢SGLang团队的贡献,我们在24小时内实现了MiMo模型的主流支持,MTP功能即将上线。
示例脚本:
python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python"
python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-SFT --host 0.0.0.0 --trust-remote-code
详细用法参见SGLang文档,MTP支持将在24小时内上线。
vLLM推理
- [推荐] 使用我们维护的vLLM分支支持MiMo-MTP特性
示例代码:
from vllm import LLM, SamplingParams
model_path = "/path/to/MiMo"
llm = LLM(
model=model_path,
trust_remote_code=True,
num_speculative_tokens=1,
disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)
conversation = [
{"role": "system", "content": ""},
{"role": "user", "content": "撰写一篇关于高等教育