G

GRM Llama3.2 3B Rewardmodel Ft

由 Ray2333 开发
基于Llama3架构的3B参数奖励模型,在reward-bench评测中获得90.9分,性能超越多个8B奖励模型
下载量 3,464
发布时间 : 10/23/2024
模型介绍
内容详情
替代品

模型简介

本奖励模型是基于GRM-llama3.2-3B-sftreg模型,使用Skywork偏好数据集v0.2微调而成,实现了当前最先进的3B奖励模型性能

模型特点

高性能3B奖励模型
在3B参数规模下实现超越多个8B奖励模型的性能,reward-bench评测得分90.9
高质量数据集训练
使用经过数据清洗的Skywork偏好数据集v0.2进行微调
多功能评估能力
在对话、困难对话、安全性和推理能力等多个维度表现优异

模型能力

文本偏好评分
对话质量评估
安全内容识别
推理能力评估

使用案例

强化学习
RLHF训练
作为强化学习中的奖励信号提供者
帮助训练更符合人类偏好的AI模型
内容评估
对话质量评分
评估AI助手的回答质量
识别高质量和低质量的回答