S

Skywork Reward Gemma 2 27B V0.2

由 Skywork 开发
基于Gemma-2-27B架构构建的高性能奖励模型,使用净化后的Skywork-Reward-Preference-80K-v0.2数据集训练,擅长处理复杂场景中的偏好判断。
下载量 9,496
发布时间 : 10/14/2024
模型介绍
内容详情
替代品

模型简介

这是一个先进的奖励模型,专门用于评估和判断文本响应质量,在数学、编码和安全等多个领域表现优异。

模型特点

高质量数据集
使用净化后的Skywork-Reward-Preference-80K-v0.2数据集训练,移除了受污染的样本对
多领域能力
擅长处理数学、编码和安全等多个领域的偏好判断
高性能
在RewardBench排行榜上排名第一,总分94.3
优化训练策略
采用特殊的数据选择和评分策略优化模型性能

模型能力

文本偏好评分
多领域判断
复杂场景评估

使用案例

AI训练
强化学习奖励模型
作为强化学习中的奖励信号提供者
提高AI模型训练效率
内容评估
响应质量评分
评估AI生成响应的质量
准确区分高质量和低质量响应