O

Open Reasoner Zero 7B

由 Open-Reasoner-Zero 开发
开放推理者零号是基于基础模型规模化强化学习的开源方案,专注于可扩展性、简洁性和易用性的大规模推理导向强化学习实现。
下载量 776
发布时间 : 2/18/2025
模型介绍
内容详情
替代品

模型简介

首个专注于可扩展性、简洁性和易用性的大规模推理导向强化学习开源实现,在多个基准测试中展现卓越性能。

模型特点

高效训练
仅需DeepSeek-R1-Zero流程十分之一的训练步数即可达到优异性能
卓越性能
在AIME2024、MATH500和GPQA Diamond基准测试中表现卓越
开源全面
开源了全部源代码、参数配置、训练数据和模型权重
规模扩展性
提供从0.5B到32B不同规模的模型版本

模型能力

数学推理
复杂问题解答
逻辑推理
强化学习

使用案例

学术研究
数学竞赛题解答
解决AIME等数学竞赛中的复杂问题
在AIME2024测试中达到约48%的准确率
教育辅助
数学学习助手
帮助学生理解和解决复杂数学问题