license: other
base_model: Qwen/Qwen2.5-Math-1.5B-Instruct
pipeline_tag: text-classification
简介
我们很高兴宣布由昆仑万维Skywork团队开发的Skywork o1开放模型系列正式发布。这一突破性成果推出了一系列具备类o1慢思考推理能力的模型,包含三个先进模型:
不同于对OpenAI o1模型的简单复现,Skywork o1开放模型系列不仅在输出中展现出与生俱来的思考、规划和反思能力,更在标准测试集上展现出显著的推理能力提升。该系列代表了AI能力的战略性进步,使原本较弱的基座模型在推理任务上达到前沿水平(SOTA)。
若对Skywork o1开放模型系列感兴趣,请查看o1-llama-3.1-8b模型。
模型信息
Skywork-o1-Open-PRM系列基于Qwen2.5-Math-1.5B-Instruct和Qwen2.5-Math-7B-Instruct训练。
PRM评估
评估设置
数学评估
我们采用Qwen2.5-Math的评估脚本并保持其配置一致性。选用的数据集包括GSM8K、MATH、GaoKao、CN-Middle School 24、OlympiadBench、AMC-23和AIME-24。其中GaoKao和CN-Middle School 24为中文数据集,其余为英文数据集。特别地,OlympiadBench、AIME-24和AMC-23为竞赛级数据集。
代码评估
代码评估采用Qwen2.5-Coder的评估脚本并基本保持相同配置。选用HumanEval、MBPP和LiveCodeBench数据集,其中LiveCodeBench特指2024.01-2024-11版本。由于早期版本存在测试和代码清理问题,我们使用最新版(0.3.1)evalplus。
评估基座模型
我们在三个基座模型上评估RM性能:Qwen2.5-7B-Instruct、Llama3.1-8B-Instruct和Skywork-o1-Open-8B。通过数据采样验证RM在不同模型上的表现,数学问题采样温度设为0.7,代码任务设为1.0。
对比RM
评估指标
- 贪婪采样Pass@1:使用贪婪采样生成答案
- 多数投票@64:随机采样64个答案
- Best-of-N@64:根据奖励模型(RM)输出值对64个答案排序。ORM与PRM的加权方式不同:
- ORM仅使用最终步的奖励
- PRM使用所有步骤的平均奖励加权
评估结果
数学评估
Skywork-o1-Open-8B
奖励模型 |
方法 |
GSM8K |
MATH |
GaoKao |
CN-Middle School 24 |
OlympiadBench |
AIME-24 |
AMC-23 |
平均 |
无 |
贪婪采样 Pass@1 |
91.6 |
78.1 |
63.6 |
67.3 |
43.1 |
13.3 |
55.0 |
58.9 |
无 |
多数投票@64 |
93.9 |
84.3 |
69.5 |
73.3 |
50.4 |
16.7 |
52.5 |
62.9 |
OpenR-MATH-psa-PRM-7B |
Best-of-N@64 |
95.1 |
82.7 |
67.1 |
70.3 |
47.6 |
20.0 |
57.5 |
62.9 |
RLHFlow-Deepseek-Data-PRM-8B |
Best-of-N@64 |
94.4 |
80.1 |
59.1 |
74.3 |
43.0 |
20.0 |
50.0 |
60.1 |
Qwen2.5-Math-RM-72B |
Best-of-N@64 |
96.1 |
86.9 |
76.0 |
76.2 |
53.3 |
26.7 |
65.0 |
68.6 |
Skywork-o1-Open-PRM-1.5B |
Best-of-N@64 |
94.5 |
85.0 |
65.6 |
73.3 |
49.9 |
16.7 |
62.5 |
63.9 |
Skywork-o1-Open-PRM-7B |
Best-of-N@64 |
96.7 |
87.0 |
70.3 |
76.2 |
52.3 |
23.3 |
65.0 |
67.3 |
Qwen2.5-7B-Instruct
奖励模型 |
方法 |
GSM8K |
MATH |
GaoKao |
CN-Middle School 24 |
OlympiadBench |
AIME-24 |
AMC-23 |
平均 |
无 |
贪婪采样 Pass@1 |
91.9 |
75.2 |
55.6 |
75.2 |
39.1 |
13.3 |
45.0 |
56.5 |
无 |
多数投票@64 |
93.5 |
78.4 |
55.3 |
78.2 |
40.1 |
13.3 |
62.5 |
60.2 |
OpenR-MATH-psa-PRM-7B |
Best-of-N@64 |
93.9 |
77.9 |
52.4 |
73.3 |
40.7 |
10.0 |
55.0 |
57.6 |
RLHFlow-Deepseek-Data-PRM-8B |
Best-of-N@64 |
94.1 |
78.1 |
53.2 |
75.2 |
39.1 |
16.7 |
55.0 |
58.8 |
Qwen2.5-Math-RM-72B |
Best-of-N@64 |
94.8 |
82.4 |
65.2 |
80.2 |
45.0 |
13.3 |
62.5 |
63.4 |
Skywork-o1-Open-PRM-1.5B |
Best-of-N@64 |
93.3 |
79.8 |
56.1 |
74.3 |
43.9 |
10.0 |
67.5 |
60.7 |
Skywork-o1-Open-PRM-7B |
Best-of-N@64 |
94.9 |
81.9 |
56.3 |
75.2 |
44.9 |
13.3 |
65.0 |
61.6 |