A

Acereason Nemotron 7B

由 nvidia 开发
通过强化学习训练的数学与代码推理模型,基于DeepSeek-R1-Distilled-Qwen-7B,在数学和代码推理任务上表现优异
下载量 4,278
发布时间 : 5/22/2025
模型介绍
内容详情
替代品

模型简介

AceReason-Nemotron-7B是一个完全通过强化学习(RL)训练的数学与代码推理模型,其基础模型为DeepSeek-R1-Distilled-Qwen-7B。该模型在数学和代码推理任务上取得了显著提升。

模型特点

强化学习训练
完全通过强化学习(RL)训练,显著提升数学与代码推理能力
数学推理能力
在AIME 2024上达到69.0%(提升14.5%),AIME 2025上53.6%(提升17.4%)
代码推理能力
在LiveCodeBench v5上51.8%(提升8%),LiveCodeBench v6上44.1%(提升7%)
训练方法创新
先对纯数学提示进行RL训练,再对纯代码提示进行RL训练,效果显著

模型能力

数学推理
代码生成
复杂问题解决
逐步推理

使用案例

数学竞赛
AIME数学竞赛题解答
解决AIME数学竞赛中的复杂问题
在AIME 2024上达到69.0%准确率
编程竞赛
LiveCodeBench编程题解答
解决LiveCodeBench中的编程问题
在LiveCodeBench v5上51.8%准确率
教育辅助
数学学习辅助
帮助学生理解复杂数学概念和解题方法