S

Skywork Reward Llama 3.1 8B V0.2

由 Skywork 开发
基于Llama-3.1-8B-Instruct架构构建的先进奖励模型,使用80K高质量偏好对训练,擅长处理复杂场景中的偏好问题。
下载量 25.99k
发布时间 : 10/14/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个文本分类模型,专门用于评估和奖励对话响应质量,适用于数学、编程和安全等多个领域。

模型特点

高质量数据训练
使用精心筛选的80K高质量偏好对进行训练,确保模型性能优异。
多领域覆盖
涵盖数学、编程和安全等多个领域,能够处理复杂场景中的偏好问题。
净化数据集
使用净化后的数据集v0.2版本,避免了与RewardBench评估提示的污染问题。

模型能力

文本分类
对话响应质量评估
多领域偏好判断

使用案例

对话系统
对话响应评分
评估对话系统中生成的响应质量,选择最优响应。
在RewardBench排行榜上的8B模型中排名第一。
教育
数学问题解答评估
评估学生对数学问题的解答质量,提供反馈。
能够准确区分正确和错误的数学解答。