🚀 Llama-3.1-8B-Instruct-RM-RB2模型卡片
Llama-3.1-8B-Instruct-RM-RB2是随Reward Bench 2发布的7组奖励模型(RMs)之一。我们总共发布了70个奖励模型检查点,用于开发该基准测试,并将其与下游的PPO / Best-of-N性能相关联。
模型 | 代码 | 评估数据集v2 | 结果v2 | 论文
🚀 快速开始
模型加载示例
要从特定版本加载模型,可以按以下方式修改代码:
from transformers import AutoModelForSequenceClassification
rm = AutoModelForSequenceClassification("allenai/Llama-3.1-8B-Instruct-RM-RB2", revision="2")
✨ 主要特性
- 该模型是HuggingFace生态系统中的标准分类器
AutoModelForSequenceClassification
,基于二元偏好数据进行训练。
- 对于此批次中的每个模型,主版本是从该基础模型中获得的最佳模型,其他训练数据和超参数组合包含在不同版本中,供进一步研究使用。
📚 详细文档
模型详情
该模型是一个标准的分类器,即HuggingFace生态系统中的AutoModelForSequenceClassification
,在二元偏好数据上进行训练。对于此批次中的每个模型,主版本是我们为该基础模型获得的最佳模型,并且我们在不同版本中包含了所有其他训练数据和超参数组合,以供进一步研究。
不同版本的训练参数及评估结果
版本 |
训练数据 |
学习率 |
训练轮数 |
RewardBench 2得分 |
事实性 |
精确IF |
数学 |
安全性 |
聚焦度 |
平局 |
main |
组合数据 |
3e-6 |
1 |
72.8 |
74.3 |
44.4 |
61.7 |
89.6 |
90.7 |
76.4 |
1 |
组合数据 |
4e-6 |
1 |
72.7 |
73.5 |
43.1 |
63.4 |
89.3 |
89.7 |
77.0 |
2 |
组合数据 |
1e-6 |
2 |
72.4 |
73.1 |
40.0 |
66.7 |
94.2 |
94.1 |
66.4 |
3 |
组合数据 |
3e-6 |
2 |
72.1 |
71.2 |
38.8 |
66.1 |
90.7 |
91.7 |
74.1 |
4 |
组合数据 |
2e-6 |
1 |
71.9 |
72.6 |
38.8 |
63.9 |
89.6 |
92.7 |
73.8 |
5 |
组合数据 |
3e-6 |
1 |
71.9 |
73.1 |
39.4 |
60.7 |
89.8 |
93.7 |
74.7 |
6 |
组合数据 |
3e-6 |
1 |
71.7 |
72.4 |
43.1 |
61.7 |
87.8 |
89.7 |
75.6 |
7 |
Skywork |
3e-6 |
1 |
70.5 |
62.5 |
38.1 |
66.7 |
92.0 |
92.3 |
71.1 |
8 |
组合数据 |
1e-6 |
1 |
70.4 |
69.5 |
39.4 |
65.6 |
88.7 |
85.9 |
73.3 |
9 |
Tulu |
3e-6 |
1 |
69.4 |
75.4 |
45.0 |
63.9 |
86.7 |
76.2 |
69.1 |
10 |
Tulu |
3e-6 |
2 |
68.1 |
71.4 |
44.4 |
62.8 |
86.4 |
76.0 |
67.8 |
11 |
Tulu |
1e-6 |
2 |
67.5 |
67.2 |
40.0 |
63.4 |
87.6 |
77.4 |
69.8 |
12 |
Tulu |
3e-6 |
1 |
67.5 |
72.4 |
40.6 |
62.8 |
84.2 |
75.4 |
69.8 |
13 |
组合数据 |
2e-5 |
1 |
67.2 |
66.3 |
36.9 |
62.8 |
82.0 |
83.0 |
71.9 |
14 |
Skywork |
1e-6 |
1 |
66.6 |
59.8 |
36.9 |
63.4 |
89.6 |
86.1 |
64.2 |
15 |
Tulu |
1e-6 |
1 |
66.4 |
69.5 |
40.6 |
62.8 |
84.2 |
72.7 |
68.3 |
16 |
Tulu |
3e-6 |
1 |
65.7 |
73.1 |
36.9 |
62.8 |
82.9 |
70.3 |
68.4 |
17 |
组合数据 |
2e-5 |
2 |
62.1 |
63.6 |
37.5 |
59.0 |
82.7 |
80.2 |
49.5 |
模型相关信息
📄 许可证
所有Llama 3.1 Tülu3模型均根据Meta的Llama 3.1社区许可协议发布。Llama 3.1根据Llama 3.1社区许可证授权,版权所有© Meta Platforms, Inc. Tülu3仅供研究和教育使用。有关更多信息,请参阅我们的负责任使用指南。
这些模型使用了包含第三方模型生成输出的数据集进行微调,并受其他附加条款约束:Gemma使用条款和Qwen许可协议(模型使用Qwen 2.5进行了改进)。
📚 引用信息
@misc{malik2025rewardbench2advancingreward,
title={RewardBench 2: Advancing Reward Model Evaluation},
author={Saumya Malik and Valentina Pyatkin and Sander Land and Jacob Morrison and Noah A. Smith and Hannaneh Hajishirzi and Nathan Lambert},
year={2025},
eprint={2506.01937},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2506.01937},
}
模型卡片联系人:saumyam at allenai dot org