O

Open Reasoner Zero 32B

由 Open-Reasoner-Zero 开发
首个专注于可扩展性、简洁性和易用性的大规模推理导向强化学习的开源实现
下载量 498
发布时间 : 2/18/2025
模型介绍
内容详情
替代品

模型简介

开放推理者零号是基于基础模型规模化强化学习的开源方案,专注于推理能力的提升,适用于数学推理等高难度任务。

模型特点

规模化强化学习
支持从5亿到320亿参数规模的模型训练,展示一致的扩展能力
高效训练
仅需十分之一的训练步数即可达到或超越同类模型性能
开源完整
公开源代码、参数设置、训练数据和模型权重
资源优化
提供单GPU训练方案,降低研究门槛

模型能力

数学问题求解
复杂推理
多步问题解答
高难度竞赛题解答

使用案例

教育
数学竞赛题解答
解答AIME等数学竞赛题目
在AIME2024上达到48%准确率
数学学习辅助
提供分步数学问题解答
研究
强化学习研究
作为规模化强化学习的基准模型