M

Mimo 7B SFT

由 XiaomiMiMo 开发
MiMo-7B-RL是基于MiMo-7B-SFT模型训练的强化学习模型,在数学与代码推理任务上达到与OpenAI o1-mini比肩的性能。
下载量 1,183
发布时间 : 4/29/2025
模型介绍
内容详情
替代品

模型简介

专为推理任务优化的7B参数语言模型,通过强化学习训练显著提升数学和代码推理能力

模型特点

强化学习优化
通过精心设计的RL训练流程,显著提升数学和代码推理能力
多token预测
采用MTP技术作为辅助训练目标,既提升性能又加速推理
高效推理
优化后的模型在保持高性能的同时具备更快的推理速度

模型能力

数学问题求解
代码生成与补全
逻辑推理
文本理解与生成
复杂问题解答

使用案例

教育
数学题解答
帮助学生解答各类数学题目,包括高等数学竞赛题
在AIME数学竞赛题上达到68.2%的准确率
编程辅助
代码生成
根据自然语言描述生成可运行的代码
在LiveCodeBench测试中达到57.8%的准确率