S

Skywork Reward Gemma 2 27B

由 Skywork 开发
Skywork-Reward-Gemma-2-27B是基于gemma-2-27b-it架构构建的先进奖励模型,擅长处理复杂场景下的偏好问题。
下载量 107
发布时间 : 9/5/2024
模型介绍
内容详情
替代品

模型简介

该模型是一款高性能奖励模型,专注于处理数学、编程和安全等领域的复杂偏好问题,使用仅8万对高质量偏好数据训练而成。

模型特点

高性能奖励模型
在RewardBench排行榜上位列第一,擅长处理复杂场景下的偏好问题
高质量数据训练
仅使用8万对精心筛选的高质量偏好数据进行训练
多领域能力
擅长处理数学、编程和安全等多个领域的偏好问题

模型能力

偏好评分
复杂场景处理
数学问题评估
编程问题评估
安全内容评估

使用案例

模型对齐
强化学习中的奖励模型
作为强化学习中的奖励信号提供者,帮助训练更符合人类偏好的AI模型
在RewardBench上达到93.8总分
内容评估
响应质量评估
评估AI生成响应的质量,区分优劣回答
在聊天、困难聊天、安全性和推理能力等多个维度表现优异