A

Acereason Nemotron 14B

由 nvidia 开发
AceReason-Nemotron-14B是一款通过强化学习训练的数学与代码推理模型,基于DeepSeek-R1-Distilled-Qwen-14B,在数学和代码推理任务上表现卓越。
下载量 7,863
发布时间 : 5/20/2025
模型介绍
内容详情
替代品

模型简介

AceReason-Nemotron-14B是一款完全通过强化学习(RL)训练的数学与代码推理模型,其基础模型为DeepSeek-R1-Distilled-Qwen-14B。该模型在数学和代码推理任务上表现卓越,通过大量消融实验系统研究了RL训练过程,并提出了一种简单有效的方法:先对纯数学提示进行RL训练,再对纯代码提示进行RL训练。

模型特点

强化学习训练
完全通过强化学习(RL)训练,显著提升数学和代码推理能力。
分阶段训练方法
先对纯数学提示进行RL训练,再对纯代码提示进行RL训练,优化模型性能。
高性能推理
在AIME 2024、AIME 2025、LiveCodeBench等基准测试中表现卓越。

模型能力

数学推理
代码生成
文本生成
强化学习

使用案例

数学推理
数学竞赛问题解答
解决复杂的数学竞赛问题,如AIME 2024和AIME 2025中的题目。
在AIME 2024上达到78.6%(提升8.9%),AIME 2025上67.4%(提升17.4%)。
代码生成
代码竞赛问题解答
生成解决代码竞赛问题的Python代码。
在LiveCodeBench v5上61.1%(提升8%),LiveCodeBench v6上54.9%(提升7%)。