A

Acereason Nemotron 14B GGUF

由 unsloth 开发
基于强化学习训练的数学与编程推理模型,在多项基准测试中表现优异
下载量 1,417
发布时间 : 5/23/2025
模型介绍
内容详情
替代品

模型简介

AceReason-Nemotron-14B是一个完全通过强化学习训练的数学与编程推理模型,基于DeepSeek-R1-Distilled-Qwen-14B开发,在数学和编程推理任务上取得了显著提升。

模型特点

强化学习训练
完全通过强化学习训练,显著提升数学和编程推理能力
两阶段训练方法
先在纯数学提示上进行RL训练,然后在纯编程提示上进行RL训练
跨领域提升
纯数学RL不仅提升数学能力,还提升了编程推理表现
Unsloth优化
采用Unsloth Dynamic 2.0实现卓越的准确性,超越其他量化方法

模型能力

数学推理
编程推理
复杂问题解决
代码生成

使用案例

数学竞赛
AIME竞赛题解答
解决美国数学邀请赛(AIME)题目
AIME 2024达到78.6%,提升8.9%
编程竞赛
LiveCodeBench测试
解决编程竞赛题目
LiveCodeBench v5达到61.1%,提升8%
Codeforces竞赛
解决Codeforces编程题目
Codeforces得分提升543分
教育
数学学习辅助
帮助学生理解和解决复杂数学问题
编程学习辅助
辅助学习算法和编程技巧