M

Mimo 7B RL

由 XiaomiMiMo 开发
MiMo-7B-RL是基于MiMo-7B-SFT模型训练的强化学习模型,在数学与代码推理任务上表现出色,性能媲美OpenAI o1-mini。
下载量 11.79k
发布时间 : 4/29/2025
模型介绍
内容详情
替代品

模型简介

专为推理任务优化的7B参数语言模型,通过强化学习训练在数学和编程任务上展现卓越性能

模型特点

推理优化预训练
采用三阶段数据混合策略和多样化合成推理数据进行预训练,增强模型推理能力
多token预测
引入MTP作为辅助训练目标,提升模型性能并加速推理
测试难度驱动奖励
针对高难度代码题设计细粒度奖励机制,优化密集奖励信号

模型能力

数学问题求解
代码生成与补全
逻辑推理
复杂问题分解

使用案例

教育
数学竞赛题解答
解答AIME等数学竞赛题目
在AIME 2024/2025测试中达到68.2%/55.4%准确率
编程
编程题解答
解决LiveCodeBench上的编程问题
在LiveCodeBench v5/v6上达到57.8%/49.3%准确率