reward-model-deberta-v3-large开源奖励模型 - 精准预测人类评判下的优质答案

首页

Reward Model Deberta V3 Large

由 OpenAssistant 开发

该奖励模型经过训练，能够预测在给定问题下人类评判者会认为哪个生成的答案更好。

大型语言模型

Transformers

英语开源协议:MIT #RLHF奖励评分 #问答质量评估 #多数据集训练

下载量 796

发布时间 : 1/15/2023

模型简介

基于人类反馈训练的奖励模型，用于评估问答模型质量或作为RLHF中的奖励分数。支持预测人类偏好的答案排序。

模型特点

多数据集训练

在WebGPT、摘要反馈和合成指令三个数据集上联合训练

高性能架构

采用DeBERTa-v3-large架构，在各项基准测试中表现优异

RLHF兼容

可直接作为强化学习人类反馈流程中的奖励函数

模型能力

答案质量评估

答案对排序

人类偏好预测

使用案例

问答系统

答案质量评分

对AI生成的多个答案进行质量评分

准确预测人类评判者的偏好

强化学习

RLHF奖励信号

为强化学习提供人类反馈的替代奖励信号

加速模型对齐过程

🚀 基于人类反馈训练的奖励模型

本奖励模型（RM）经过训练，能够根据给定的问题，预测人类认为哪个生成的答案更优。

奖励模型在以下领域发挥着重要作用：

问答模型评估
在基于人类反馈的强化学习（RLHF）中作为奖励分数

所有模型均在以下数据集上进行训练，并在各数据集间采用相同的分割种子（若没有验证集分割，则进行相应处理）：

🚀 快速开始

模型使用方法

以下是使用奖励模型的代码示例：

from transformers import AutoModelForSequenceClassification, AutoTokenizer
reward_name = "OpenAssistant/reward-model-deberta-v3-large"
rank_model, tokenizer = AutoModelForSequenceClassification.from_pretrained(reward_name), AutoTokenizer.from_pretrained(reward_name)
question, answer = "Explain nuclear fusion like I am five", "Nuclear fusion is the process by which two or more protons and neutrons combine to form a single nucleus. It is a very important process in the universe, as it is the source of energy for stars and galaxies. Nuclear fusion is also a key process in the production of energy for nuclear power plants."
inputs = tokenizer(question, answer, return_tensors='pt')
score = rank_model(**inputs).logits[0].cpu().detach()
print(score)

✨ 主要特性

应用领域广泛

奖励模型可用于问答模型评估，同时能在基于人类反馈的强化学习（RLHF）中作为奖励分数，为模型训练提供重要支持。

多数据集训练

模型在多个数据集上进行训练，包括 webgpt_comparisons、summarize_from_feedback 和 synthetic-instruct-gptj-pairwise，确保了模型的泛化能力。

📚 详细文档

性能表现

以下是各模型在验证集分割上的准确率：

模型	WebGPT	Summary	SytheticGPT
electra-large-discriminator	59.30	68.66	99.85
deberta-v3-large	61.13	72.23	99.94
deberta-v3-base	59.07	66.84	99.85

值得注意的是，SytheticGPT 在所选和被拒对之间可能存在某种表面模式，使得区分更好的答案变得相对容易。

📄 许可证

本项目采用 MIT 许可证。

🔍 补充信息

属性	详情
模型类型	奖励模型（Reward Model）
训练数据	webgpt_comparisons、summarize_from_feedback、synthetic-instruct-gptj-pairwise
评估指标	准确率（Accuracy）
标签	奖励模型（Reward Model）、基于人类反馈的强化学习（RLHF）