Llama-3-OffsetBias-RM-8B开源奖励模型 - 精准评估偏差，鲁棒性更强

首页

Llama 3 OffsetBias RM 8B

由 NCSOFT 开发

基于OffsetBias数据集训练的奖励模型，针对评估模型中的偏差具有更强鲁棒性

大型语言模型

Transformers

英语#抗偏奖励模型 #多源数据融合 #指令对齐评估

下载量 1,782

发布时间 : 7/11/2024

模型简介

该模型是一个基于Llama-3架构的奖励模型，专门设计用于减少评估模型时常见的各种偏差。通过融合多个高质量数据集训练而成，特别适用于需要公平评估的场景。

模型特点

偏差鲁棒性

专门针对评估模型中常见的各种偏差进行优化，提供更公平的评分

多数据集融合

结合了UltraFeedback、HelpSteer等多个高质量数据集进行训练

模型融合技术

通过中间模型与基础奖励模型的融合获得最终模型

模型能力

文本质量评估

对话响应评分

安全性评估

推理能力评估

使用案例

AI对话评估

聊天机器人响应评分

评估聊天机器人回复的质量和相关性

在RewardBench聊天评估中获得97.21分

内容安全评估

有害内容检测

识别和评分潜在有害或不适当的内容

在RewardBench安全性评估中获得89.01分

🚀 Llama-3-OffsetBias-RM-8B模型卡片

Llama-3-OffsetBias-RM-8B 是一个在OffsetBias数据集上训练的奖励模型。它经过训练，在评估模型中常见的各种评估偏差方面表现得更加稳健。该模型在论文 OffsetBias: Leveraging Debiased Data for Tuning Evaluators 中被提出。

🚀 快速开始

直接使用

from transformers import AutoTokenizer, pipeline
import torch

model_name = "NCSOFT/Llama-3-OffsetBias-RM-8B"
rm_tokenizer = AutoTokenizer.from_pretrained(model_name)
rm_pipe = pipeline(
    "sentiment-analysis",
    model=model_name,
    device="auto",
    tokenizer=rm_tokenizer,
    model_kwargs={"torch_dtype": torch.bfloat16}
)

pipe_kwargs = {
    "return_all_scores": True,
    "function_to_apply": "none",
    "batch_size": 1
}

chat = [
 {"role": "user", "content": "Hello, how are you?"},
 {"role": "assistant", "content": "I'm doing great. How can I help you today?"},
 {"role": "user", "content": "I'd like to show off how chat templating works!"},
]

test_texts = [rm_tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False).replace(rm_tokenizer.bos_token, "")]
pipe_outputs = rm_pipe(test_texts, **pipe_kwargs)
rewards = [output[0]["score"] for output in pipe_outputs]

✨ 主要特性

使用 sfairXC/FsfairX-LLaMA3-RM-v0.1 作为基础模型，该模型基于Meta Llama 3构建。
从 Llama-3-8B-Instruct 训练一个中间奖励模型，使用 FsfairX-LLaMA3-RM 模型训练数据的一个子集，并结合 NCSOFT/offsetbias 数据集。
将中间模型与 FsfairX-LLaMA3-RM 模型合并，创建 Llama-3-OffsetBias-RM-8B。

📚 详细文档

模型详情

模型描述

Llama-3-OffsetBias-RM-8B 使用 sfairXC/FsfairX-LLaMA3-RM-v0.1 作为基础模型，它基于Meta Llama 3构建。一个中间奖励模型是从 Llama-3-8B-Instruct 开始训练的，使用了 FsfairX-LLaMA3-RM 模型训练所用数据集的一个子集，并结合了 NCSOFT/offsetbias 数据集。然后将这个中间模型与 FsfairX-LLaMA3-RM 模型合并，创建了 Llama-3-OffsetBias-RM-8B。

属性	详情
开发者	NC Research
语言（NLP）	英语
许可证	META LLAMA 3 COMMUNITY LICENSE AGREEMENT
微调基础模型	sfairXC/FsfairX-LLaMA3-RM-v0.1

模型来源

💻 仓库：https://github.com/ncsoft/offsetbias
📜 论文：OffsetBias: Leveraging Debiased Data for Tuning Evaluators
🤗 数据集：https://huggingface.co/datasets/NCSOFT/offsetbias

评估

RewardBench结果

指标	得分
Chat	97.21
Chat Hard	80.70
Safety	89.01
Reasoning	90.60

EvalBiasBench结果

指标	得分
Length	82.4
Concreteness	92.9
Empty Reference	46.2
Content Continuation	100.0
Nested Instruction	83.3
Familiar Knowledge	58.3

📄 许可证

该模型使用的许可证为 META LLAMA 3 COMMUNITY LICENSE AGREEMENT。

🔖 引用

@misc{park2024offsetbias,
      title={OffsetBias: Leveraging Debiased Data for Tuning Evaluators},
      author={Junsoo Park and Seungyeon Jwa and Meiying Ren and Daeyoung Kim and Sanghyuk Choi},
      year={2024},
      eprint={2407.06551},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}