L

Llama 3.1 8B Instruct RM RB2

由 allenai 开发
Llama-3.1-8B-Instruct-RM-RB2是Allen人工智能研究所发布的奖励模型之一,基于Llama-3.1-8B-Instruct微调,用于评估和优化生成模型的偏好学习。
下载量 1,121
发布时间 : 6/2/2025

模型简介

该模型是一个基于二元偏好数据训练的奖励模型,用于评估生成模型的输出质量,支持多种评估维度如事实性、安全性等。

模型特点

多版本训练参数
提供17个不同训练数据和超参数组合的版本,便于研究不同配置对模型性能的影响。
多维度评估
支持事实性、安全性、数学能力等多维度的输出质量评估。
标准化接口
兼容HuggingFace生态系统的标准分类器接口,便于集成和使用。

模型能力

二元偏好评分
多维度输出评估
生成模型优化

使用案例

生成模型优化
PPO训练
作为奖励模型用于PPO(Proximal Policy Optimization)训练,优化生成模型的输出质量。
提升生成模型在事实性、安全性等维度的表现。
Best-of-N采样
用于从多个生成结果中选择最优输出。
提高生成结果的整体质量。
评估基准
Reward Bench 2评估
作为Reward Bench 2基准测试的组成部分,用于评估奖励模型的性能。
提供标准化评估结果,便于模型对比。
AIbase
智启未来,您的人工智能解决方案智库
简体中文