L

Llama 3 8b Rm 700k

由 OpenRLHF 开发
基于Llama3-8b的奖励模型,使用OpenRLHF框架训练,用于评估生成回复的质量。
下载量 860
发布时间 : 7/5/2024

模型简介

该模型是一个基于Llama3-8b的奖励模型,通过OpenRLHF框架训练,结合人类反馈的强化学习(RLHF)方法,用于评估给定提示生成的回复质量。

模型特点

高效的RLHF训练
使用OpenRLHF框架进行训练,具有高效性和鲁棒性。
高质量数据集
结合OpenLLMAI/preference_700K数据集进行训练,确保模型评估的准确性。
多轮对话支持
支持完整对话轮次的输入格式,适用于多轮对话场景。

模型能力

文本生成质量评估
多轮对话评分
回复质量排序

使用案例

对话系统
对话回复质量评估
评估对话系统中生成的回复质量,优化用户体验。
能够区分高质量和低质量的回复,提供量化评分。
内容生成
生成内容评分
对生成的诗、故事等内容进行评分,筛选高质量内容。
能够准确评估生成内容的创意性和连贯性。
AIbase
智启未来,您的人工智能解决方案智库
简体中文