MiMo-7B-Base开源语言模型 - 优化策略提升数学与代码推理能力

首页

Mimo 7B Base

由 XiaomiMiMo 开发

小米推出的7B参数规模推理专用语言模型系列，通过优化预训练和后训练策略显著提升数学与代码推理能力

大型语言模型

Transformers

开源协议:MIT #推理优化 #数学代码双优 #多token预测

下载量 12.75k

发布时间 : 4/29/2025

模型简介

专为推理任务设计的语言模型系列，包含基础模型、SFT模型和RL训练模型，在数学和代码推理任务上表现优异

模型特点

推理优化预训练

通过数据过滤和合成数据增强预训练数据中的推理模式密度

多token预测

采用MTP作为辅助训练目标，提升模型性能并加速推理

强化学习优化

针对数学和编程题设计专门的RL训练策略，包括难度感知奖励机制

高效推理架构

优化后的推理引擎实现2.29倍训练加速和1.96倍验证加速

模型能力

数学问题求解

编程代码生成

复杂推理任务

多轮对话

知识问答

使用案例

教育

数学题解答

解答高中及以上难度的数学问题

在MATH-500测试集上达到95.8%准确率

编程教学辅助

生成和解释编程代码

在LiveCodeBench测试集上表现优异

科研

科学问题推理

处理需要多步推理的科学问题

在GPQA钻石题测试中表现良好

🚀 MiMo-7B：解锁语言模型推理潜力

MiMo-7B 是一系列从头开始训练、专为推理任务而生的模型。该系列模型在预训练和后训练阶段采用了创新策略，充分挖掘语言模型的推理潜力。实验表明，MiMo-7B 模型在数学和代码推理任务上表现出色，甚至超越了一些更大规模的模型。本项目开源了 MiMo-7B 系列的模型，包括基础模型、SFT 模型、基于基础模型训练的 RL 模型以及基于 SFT 模型训练的 RL 模型，为开发强大的推理大语言模型提供了有价值的参考。

🚀 快速开始

模型下载

你可以从以下平台下载 MiMo-7B 系列模型：

推理部署

SGLang 推理

# 从主分支安装最新的 SGlang
python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python"

# 启动 SGLang 服务器
python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-Base --host 0.0.0.0 --trust-remote-code

详细使用方法可参考 SGLang 文档，MTP 功能也将在 24 小时内支持。

vLLM 推理

推荐方式：使用我们的 vLLM 分支进行推理。

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

conversation = [
    {
        "role": "system",
        "content": ""
    },
    {
        "role": "user",
        "content": "Write an essay about the importance of higher education.",
    },
]

outputs = llm.chat(conversation,
                   sampling_params=sampling_params,
                   use_tqdm=False)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

print("=" * 80)

或者，你可以在不加载 MTP 参数的情况下为 MiMo 注册 vLLM 加载器。

import register_mimo_in_vllm

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    # num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

HuggingFace 推理

from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer

model_id = "XiaomiMiMo/MiMo-7B-Base"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
inputs = tokenizer(["Today is"], return_tensors='pt')
output = model.generate(**inputs, max_new_tokens = 100)
print(tokenizer.decode(output.tolist()[0]))

✨ 主要特性

预训练：为推理而生的基础模型

优化数据预处理流程：增强文本提取工具包，应用多维数据过滤，提高预训练数据中推理模式的密度。同时，采用多种策略生成大量多样化的合成推理数据。
三阶段数据混合策略：预训练阶段采用三阶段数据混合策略，MiMo-7B-Base 大约在 25 万亿个标记上进行预训练。
引入多标记预测目标：将多标记预测（Multiple-Token Prediction）作为额外的训练目标，提升模型性能并加速推理。

后训练策略：开创性的推理模型

精心策划训练数据：精心挑选 130K 个数学和代码问题作为 RL 训练数据，这些问题可由基于规则的验证器进行验证。每个问题都经过仔细清理和难度评估，以确保数据质量。仅使用基于规则的准确性奖励，避免潜在的奖励破解问题。
引入测试难度驱动的代码奖励：为缓解具有挑战性的代码问题的稀疏奖励问题，引入测试难度驱动的代码奖励。通过为不同难度级别的测试用例分配细粒度分数，可通过密集奖励信号更有效地优化策略。
实施数据重采样策略：对简单问题实施数据重采样策略，提高滚动采样效率并稳定策略更新，特别是在 RL 训练的后期阶段。

RL 基础设施

开发无缝滚动引擎：开发无缝滚动引擎（Seamless Rollout Engine）以加速 RL 训练和验证。该设计集成了连续滚动、异步奖励计算和提前终止功能，最大限度减少 GPU 空闲时间，实现训练速度提升 2.29 倍，验证速度提升 1.96 倍。
支持 MTP 并增强推理引擎鲁棒性：在 vLLM 中支持 MTP，并增强 RL 系统中推理引擎的鲁棒性。

📦 安装指南

SGLang 推理安装

python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python"

💻 使用示例

基础用法

SGLang 推理

python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-Base --host 0.0.0.0 --trust-remote-code

vLLM 推理

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

conversation = [
    {
        "role": "system",
        "content": ""
    },
    {
        "role": "user",
        "content": "Write an essay about the importance of higher education.",
    },
]

outputs = llm.chat(conversation,
                   sampling_params=sampling_params,
                   use_tqdm=False)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

print("=" * 80)

HuggingFace 推理

from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer

model_id = "XiaomiMiMo/MiMo-7B-Base"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
inputs = tokenizer(["Today is"], return_tensors='pt')
output = model.generate(**inputs, max_new_tokens = 100)
print(tokenizer.decode(output.tolist()[0]))

📚 详细文档

模型详情

MiMo-7B 的 MTP 层在预训练和 SFT 阶段进行调整，在 RL 阶段冻结。使用一个 MTP 层进行推测解码时，接受率约为 90%。

模型	描述	HuggingFace 下载地址	ModelScope 下载地址
MiMo-7B-Base	具有非凡推理潜力的基础模型	XiaomiMiMo/MiMo-7B-Base	XiaomiMiMo/MiMo-7B-Base
MiMo-7B-RL-Zero	基于基础模型训练的 RL 模型	XiaomiMiMo/MiMo-7B-RL-Zero	XiaomiMiMo/MiMo-7B-RL-Zero
MiMo-7B-SFT	基于基础模型训练的 SFT 模型	XiaomiMiMo/MiMo-7B-SFT	XiaomiMiMo/MiMo-7B-SFT
MiMo-7B-RL	基于 SFT 模型训练的 RL 模型，性能优越，可与 OpenAI o1-mini 相媲美	XiaomiMiMo/MiMo-7B-RL	XiaomiMiMo/MiMo-7B-RL

评估结果

综合评估

基准测试	GPT-4o-0513	Claude-3.5-Sonnet-1022	OpenAI o1-mini	QwQ-32B-Preview	R1-Distill-Qwen-14B	R1-Distill-Qwen-7B	MiMo-7B-RL
GPQA Diamond (Pass@1)	49.9	65.0	60.0	54.5	59.1	49.1	54.4
SuperGPQA (Pass@1)	42.4	48.2	45.2	43.6	40.6	28.9	40.5
DROP (3-shot F1)	83.7	88.3	83.9	71.2	85.5	77.0	78.7
MMLU-Pro (EM)	72.6	78.0	80.3	52.0	68.8	53.5	58.6
IF-Eval (Prompt Strict)	84.3	86.5	84.8	40.4	78.3	60.5	61.0

数学评估

基准测试	GPT-4o-0513	Claude-3.5-Sonnet-1022	OpenAI o1-mini	QwQ-32B-Preview	R1-Distill-Qwen-14B	R1-Distill-Qwen-7B	MiMo-7B-RL
MATH-500 (Pass@1)	74.6	78.3	90.0	90.6	93.9	92.8	95.8
AIME 2024 (Pass@1)	9.3	16.0	63.6	50.0	69.7	55.5	68.2
AIME 2025 (Pass@1)	11.6	7.4	50.7	32.4	48.2	38.8	55.4

代码评估

基准测试	GPT-4o-0513	Claude-3.5-Sonnet-1022	OpenAI o1-mini	QwQ-32B-Preview	R1-Distill-Qwen-14B	R1-Distill-Qwen-7B	MiMo-7B-RL
LiveCodeBench v5 (Pass@1)	32.9	38.9	53.8	41.9	53.1	37.6	57.8
LiveCodeBench v6 (Pass@1)	30.9	37.2	46.8	39.1	31.9	23.9	49.3

MiMo-7B 系列评估

基准测试	MiMo-7B-Base	MiMo-7B-RL-Zero	MiMo-7B-SFT	MiMo-7B-RL
MATH500 (Pass@1)	37.4	93.6	93.0	95.8
AIME 2024 (Pass@1)	32.9	56.4	58.7	68.2
AIME 2025 (Pass@1)	24.3	46.3	44.3	55.4
LiveCodeBench v5 (Pass@1)	32.9	49.1	52.3	57.8
LiveCodeBench v6 (Pass@1)	29.1	42.9	45.5	49.3

评估说明

评估使用 temperature=0.6 进行。
AIME24 和 AIME25 的评估结果是 32 次重复的平均得分。LiveCodeBench v5（20240801 - 20250201）、LiveCodeBench v6（20250201 - 20250501）、GPQA-Diamond 和 IF-Eval 的评估结果是 8 次重复的平均得分。MATH500 和 SuperGPQA 进行单次运行评估。

🔧 技术细节

预训练阶段

数据处理：通过优化数据预处理流程，提高推理模式在预训练数据中的密度。采用多维数据过滤和多种数据生成策略，确保数据的多样性和质量。
训练目标：引入多标记预测（Multiple-Token Prediction）作为额外的训练目标，提升模型的推理能力和推理速度。

后训练阶段

训练数据：精心挑选数学和代码问题作为 RL 训练数据，确保数据的可验证性和质量。
奖励机制：采用基于规则的准确性奖励，避免奖励破解问题。同时，引入测试难度驱动的代码奖励，解决稀疏奖励问题。
数据策略：对简单问题实施数据重采样策略，提高训练效率和稳定性。

RL 基础设施

无缝滚动引擎：无缝滚动引擎集成了连续滚动、异步奖励计算和提前终止功能，减少 GPU 空闲时间，加速训练和验证过程。
推理引擎：在 vLLM 中支持 MTP，并增强推理引擎的鲁棒性，确保模型在实际应用中的稳定性。

📄 许可证

本模型仓库遵循 MIT 许可证。

🔍 引用

@misc{coreteam2025mimounlockingreasoningpotential,
      title={MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining}, 
      author={{Xiaomi LLM-Core Team}},
      year={2025},
      eprint={2505.07608},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.07608}, 
}

📞 联系我们

如果您有任何问题，请通过 mimo@xiaomi.com 联系我们，或在项目中提交 issue。

⚠️ 重要提示

评估是在 temperature=0.6 的条件下进行的。AIME24 和 AIME25 的评估结果是 32 次重复的平均得分。LiveCodeBench v5（20240801 - 20250201）、LiveCodeBench v6（20250201 - 20250501）、GPQA-Diamond 和 IF-Eval 的评估结果是 8 次重复的平均得分。MATH500 和 SuperGPQA 进行单次运行评估。