D

Decision Tree Reward Gemma 2 27B

由 RLHFlow 开发
基于Gemma-2-27B微调的决策树奖励模型,用于评估语言模型生成内容的质量,在RewardBench排行榜上表现优异。
下载量 18
发布时间 : 1/22/2025
模型介绍
内容详情
替代品

模型简介

该模型通过决策树方法解读语言模型偏好,能够评估回复的帮助性、正确性、连贯性等维度,适用于强化学习人类反馈(RLHF)场景。

模型特点

决策树架构
采用决策树方法分析语言模型输出,相比传统序列分类器能更细致地评估多个质量维度
多维度评估
可同时评估帮助性、正确性、连贯性、复杂性和详细度五个关键维度
高性能
在RewardBench排行榜上综合得分95.4,尤其在困难对话(91.4)和推理能力(99.2)方面表现突出

模型能力

文本质量评估
多维度评分
回复对比
强化学习反馈

使用案例

语言模型训练
RLHF训练
作为奖励模型用于强化学习人类反馈训练流程
提供更准确的偏好信号,提升语言模型生成质量
内容评估
自动评分
评估语言模型生成内容的质量
提供多维度评分,帮助筛选最佳回复