G

Gemma 2B Rewardmodel Baseline

由 Ray2333 开发
基于Gemma-2b-it模型、采用BT损失函数训练的打分模型,适用于为大型语言模型寻找优质的小型打分模型
下载量 133
发布时间 : 7/5/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个基于Gemma-2b-it架构的打分模型,采用BT损失函数训练,训练数据集为preference_700K。主要用于评估和选择大型语言模型的输出质量。

模型特点

高效打分模型
小型但高效的打分模型,适合评估大型语言模型的输出质量
BT损失函数训练
采用Bradley-Terry(BT)损失函数进行优化训练
多维度评估能力
能够评估对话能力、安全性、推理能力等多个维度

模型能力

文本质量评估
对话能力评分
安全性评估
推理能力评分

使用案例

语言模型评估
LLM输出质量评估
评估大型语言模型生成文本的质量
在reward model benchmark上获得73.7的综合评分
对话系统优化
用于优化对话系统的响应质量
对话能力评分为94.1
内容安全
内容安全过滤
评估生成内容的安全性
安全性评分为79.6