G

Gpt2 Large Helpful Reward Model

由 Ray2333 开发
基于Anthropic/hh-rlhf帮助性数据集训练的GPT2大模型,专用于帮助性响应检测或RLHF(基于人类反馈的强化学习)。
下载量 2,935
发布时间 : 1/15/2024
模型介绍
内容详情
替代品

模型简介

该模型用于评估AI助手的响应是否具有帮助性,适用于基于人类反馈的强化学习(RLHF)场景。

模型特点

高准确率
在测试集上达到了0.72621的准确率,与更大规模的其他模型表现接近。
RLHF专用
专门为基于人类反馈的强化学习(RLHF)场景设计,特别关注响应帮助性评估。
多目标对齐
支持'无害性'和'帮助性'等多目标对齐,被用于ICML 2024的'Rewards-in-context'项目。

模型能力

帮助性响应评分
强化学习反馈生成
对话质量评估

使用案例

AI助手开发
对话系统质量评估
评估AI助手生成的响应是否对用户有帮助
提供0-1之间的帮助性评分
强化学习
RLHF训练
作为奖励模型用于基于人类反馈的强化学习
帮助优化AI助手的响应质量