P

Prometheus 8x7b V2.0

由 prometheus-eval 开发
Prometheus 2是基于Mistral-Instruct的语言模型,专注于细粒度评估和人类反馈强化学习(RLHF)的奖励模型,可作为GPT-4评估的替代方案。
下载量 686
发布时间 : 2/20/2024
模型介绍
内容详情
替代品

模型简介

该模型支持绝对评分(直接评估)和相对评分(成对排序),通过权重融合技术提升性能表现。

模型特点

权重融合技术
同时支持绝对评分和相对评分,并能提升每种评分格式下的性能表现
细粒度评估能力
可对语言模型输出进行详细的质量评估和反馈
人类反馈强化学习
可作为RLHF训练中的奖励模型使用

模型能力

文本生成
质量评估
反馈生成
成对比较

使用案例

模型评估
语言模型输出评估
评估其他语言模型生成的文本质量
可作为GPT-4评估的替代方案
强化学习
RLHF奖励模型
在人类反馈强化学习中作为奖励信号提供者