M

Mimo 7B RL Zero

由 XiaomiMiMo 开发
MiMo-7B 是小米推出的专为推理任务设计的语言模型系列,包括基础模型、SFT模型和RL模型,在数学和代码推理任务上表现优异。
下载量 216
发布时间 : 4/29/2025
模型介绍
内容详情
替代品

模型简介

MiMo-7B 系列模型通过优化的预训练和后训练方案,专注于提升语言模型的推理能力,在数学和代码任务上达到或超越更大规模模型的性能。

模型特点

专为推理优化的预训练
采用三阶段数据混合策略和多token预测目标,增强模型推理能力
创新的后训练方案
精选数学与代码问题作为RL训练数据,引入测试难度驱动的代码奖励机制
高效的RL基础设施
开发无缝rollout引擎加速RL训练与验证,减少GPU闲置时间
多token预测支持
支持推测解码,接受率约90%,可加速推理过程

模型能力

数学问题求解
代码生成与理解
复杂推理任务处理
多轮对话
文本生成

使用案例

教育
数学问题解答
解决高中数学竞赛级别的问题
在AIME竞赛题上达到68.2%的正确率
编程教育
帮助学生理解和生成编程代码
在LiveCodeBench测试中达到57.8%的正确率
软件开发
代码辅助
帮助开发者编写和优化代码