模型简介
AceReason-Nemotron-14B是一个完全通过强化学习训练的数学与编程推理模型,基于DeepSeek-R1-Distilled-Qwen-14B开发,在数学和编程推理任务上取得了显著提升。
模型特点
强化学习训练
完全通过强化学习训练,显著提升数学和编程推理能力
两阶段训练方法
先在纯数学提示上进行RL训练,然后在纯编程提示上进行RL训练
跨领域提升
纯数学RL不仅提升数学能力,还提升了编程推理表现
Unsloth优化
采用Unsloth Dynamic 2.0实现卓越的准确性,超越其他量化方法
模型能力
数学推理
编程推理
复杂问题解决
代码生成
使用案例
数学竞赛
AIME竞赛题解答
解决美国数学邀请赛(AIME)题目
AIME 2024达到78.6%,提升8.9%
编程竞赛
LiveCodeBench测试
解决编程竞赛题目
LiveCodeBench v5达到61.1%,提升8%
Codeforces竞赛
解决Codeforces编程题目
Codeforces得分提升543分
教育
数学学习辅助
帮助学生理解和解决复杂数学问题
编程学习辅助
辅助学习算法和编程技巧
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文