语言:
- 英文
许可证: llama3
标签:
- 文本分类
数据集:
- openbmb/UltraFeedback
- nvidia/HelpSteer
- Anthropic/hh-rlhf
- PKU-Alignment/PKU-SafeRLHF
- NCSOFT/offsetbias
基础模型:
- sfairXC/FsfairX-LLaMA3-RM-v0.1
- meta-llama/Meta-Llama-3-8B-Instruct
Llama-3-OffsetBias-RM-8B 模型卡
Llama-3-OffsetBias-RM-8B 是一个基于OffsetBias数据集训练的奖励模型。该模型旨在对各种评估模型中常见的偏差具有更强的鲁棒性。该模型在论文OffsetBias: Leveraging Debiased Data for Tuning Evaluators中被首次提出。
模型详情
模型描述
Llama-3-OffsetBias-RM-8B 以sfairXC/FsfairX-LLaMA3-RM-v0.1为基础模型,该模型基于Meta Llama 3构建。中间奖励模型通过结合FsfairX-LLaMA3-RM模型训练时使用的部分数据集与NCSOFT/offsetbias数据集,从Llama-3-8B-Instruct微调而来。最终模型通过将该中间模型与FsfairX-LLaMA3-RM模型融合得到。
模型来源
使用方式
直接使用
from transformers import AutoTokenizer, pipeline
import torch
model_name = "NCSOFT/Llama-3-OffsetBias-RM-8B"
rm_tokenizer = AutoTokenizer.from_pretrained(model_name)
rm_pipe = pipeline(
"sentiment-analysis",
model=model_name,
device="auto",
tokenizer=rm_tokenizer,
model_kwargs={"torch_dtype": torch.bfloat16}
)
pipe_kwargs = {
"return_all_scores": True,
"function_to_apply": "none",
"batch_size": 1
}
chat = [
{"role": "user", "content": "你好,最近怎么样?"},
{"role": "assistant", "content": "我很好。今天有什么可以帮您的?"},
{"role": "user", "content": "我想展示聊天模板是如何工作的!"},
]
test_texts = [rm_tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False).replace(rm_tokenizer.bos_token, "")]
pipe_outputs = rm_pipe(test_texts, **pipe_kwargs)
rewards = [output[0]["score"] for output in pipe_outputs]
评估结果
RewardBench 得分
指标 |
分数 |
聊天 |
97.21 |
困难聊天 |
80.70 |
安全性 |
89.01 |
推理能力 |
90.60 |
EvalBiasBench 得分
指标 |
分数 |
长度偏差 |
82.4 |
具体性偏差 |
92.9 |
空引用偏差 |
46.2 |
内容延续性 |
100.0 |
嵌套指令偏差 |
83.3 |
熟悉知识偏差 |
58.3 |
引用文献
@misc{park2024offsetbias,
title={OffsetBias: Leveraging Debiased Data for Tuning Evaluators},
author={Junsoo Park and Seungyeon Jwa and Meiying Ren and Daeyoung Kim and Sanghyuk Choi},
year={2024},
eprint={2407.06551},
archivePrefix={arXiv},
primaryClass={cs.CL}
}