S

Skywork O1 Open PRM Qwen 2.5 1.5B

由 Skywork 开发
Skywork o1 Open-PRM-Qwen-2.5-1.5B是基于Qwen2.5-Math-1.5B-Instruct训练的增量过程奖励模型,专为增强小规模复杂问题求解能力而设计。
下载量 4,368
发布时间 : 11/26/2024
模型介绍
内容详情
替代品

模型简介

该模型是Skywork o1开放模型系列的一部分,专注于通过增量过程奖励增强推理能力,特别适合数学和代码相关的推理任务。

模型特点

增量过程奖励
通过PRM机制增强推理能力,特别适合复杂问题求解
小规模高效
1.5B参数规模下实现优秀的推理性能
数学推理能力
在GSM8K、MATH等数学数据集上表现优异

模型能力

数学问题求解
代码生成
复杂推理
多步问题解答

使用案例

教育
数学问题解答
帮助学生解决数学问题,提供详细解题步骤
在GSM8K数据集上达到94.5%准确率
编程
代码生成与优化
根据问题描述生成代码解决方案
在HumanEval等代码数据集上表现良好