模型卡片参考元数据规范,请查阅:https://github.com/huggingface/hub-docs/blob/main/modelcard.md?plain=1
文档指南:https://huggingface.co/docs/hub/model-cards
{}
奖励模型概述
本奖励模型基于google/gemma-2b-it基础模型训练而成。7B版本参见RM-Gemma-7B。
训练脚本详见:https://github.com/WeiXiongUST/RLHF-Reward-Modeling
模型详情
如有关于本奖励模型或奖励建模的任何问题,欢迎发送邮件至wx13@illinois.edu与我联系。期待交流!
数据集预处理
模型训练数据混合了以下数据集:
总计25万组对比数据,采用以下清洗策略:
- HH-RLHF:保留基础集/拒绝采样/在线子集中所有chosen≠rejected样本,最终115547组
- SHP:仅保留评分比>2的样本,每个提示仅取1组对比,最终55916组
- Ultrafeedback:参照UltraFeedback-Binarized使用细粒度评分排序,每个提示取最佳样本与随机样本对比,删除等分样本,最终62793组
- HelpSteer:以帮助性+正确性均值排序,每个提示取最佳样本与随机样本对比,删除等分样本,最终8206组
- Capybara:删除评分相同的对比组,最终7562组
- Orca:删除评分相同的对比组,最终6405组
训练过程
采用学习率1e-5、批量大小256、余弦学习率衰减(预热比例0.03)训练1个epoch,训练损失曲线如下:

使用方式
from transformers import AutoTokenizer, pipeline
rm_tokenizer = AutoTokenizer.from_pretrained("weqweasdas/RM-Gemma-2B")
device = 0
rm_pipe = pipeline(
"sentiment-analysis",
model="weqweasdas/RM-Gemma-2B",
device=device,
tokenizer=rm_tokenizer,
model_kwargs={"torch_dtype": torch.bfloat16}
)
pipe_kwargs = {
"return_all_scores": True,
"function_to_apply": "none",
"batch_size": 1
}
chat = [
{"role": "user", "content": "你好,最近怎么样?"},
{"role": "助手", "content": "我很好。今天能为您做些什么?"},
{"role": "user", "content": "我想展示聊天模板的工作原理!"},
]
test_texts = [tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False).replace(tokenizer.bos_token, "")]
pipe_outputs = rm_pipe(test_texts, **pipe_kwargs)
rewards = [output[0]["score"] for output in pipe_outputs]
性能表现
我们整合现有偏好数据集作为基准进行评估。对于MT-Bench数据集(lmsys/mt_bench_human_judgments),剔除平局对比样本。Alpaca数据来源此处。
模型/测试集 |
HH-RLHF-帮助性 |
SHP |
Helpsteer帮助性+正确性 |
Helpsteer全集 |
MT Bench人工 |
MT Bench GPT4 |
Alpaca人工 |
Alpaca GPT4 |
Alpaca人工交叉 |
UltraRM-13B |
0.71 |
0.73 |
0.72 |
0.72 |
0.78 |
0.9 |
0.65 |
0.83 |
0.62 |
Pair-RM |
0.65 |
0.56 |
0.62 |
0.6 |
0.74 |
0.82 |
0.62 |
0.75 |
0.59 |
RM-Gemma-2B |
0.68 |
0.73 |
0.68 |
0.72 |
0.77 |
0.87 |
0.63 |
0.78 |
0.59 |
参考文献
即将补充。本奖励模型可直接用于拒绝采样微调:
@article{dong2023raft,
title={Raft: Reward ranked finetuning for generative foundation model alignment},
author={Dong, Hanze and Xiong, Wei and Goyal, Deepanshu and Pan, Rui and Diao, Shizhe and Zhang, Jipeng and Shum, Kashun and Zhang, Tong},
journal={arXiv preprint arXiv:2304.06767},
year={2023}
}