S

Skywork O1 Open PRM Qwen 2.5 7B

由 Skywork 开发
Skywork o1开放模型系列中的7B参数规模模型,基于Qwen2.5-Math-7B-Instruct训练,具备渐进式过程奖励增强的推理能力
下载量 3,608
发布时间 : 11/26/2024
模型介绍
内容详情
替代品

模型简介

该模型是Skywork团队开发的o1开放模型系列成员,通过渐进式过程奖励机制增强推理能力,适合处理高要求的复杂问题求解任务。

模型特点

渐进式过程奖励机制
通过PRM(Process Reward Model)技术增强推理过程的可靠性
数学推理能力增强
在GSM8K、MATH等数学数据集上表现优异
竞赛级问题求解
能够处理AMC、AIME等数学竞赛级别的问题

模型能力

数学问题求解
代码生成
多轮对话
复杂推理
竞赛级数学问题解答

使用案例

教育
数学辅导
帮助学生解决从基础到竞赛级别的数学问题
在GSM8K和MATH数据集上表现优异
编程辅助
代码生成与优化
根据自然语言描述生成代码
在HumanEval和MBPP数据集上有良好表现