R

RM Gemma 2B

由 weqweasdas 开发
基于google/gemma-2b-it训练的奖励模型,用于评估文本生成质量
下载量 2,618
发布时间 : 2/25/2024
模型介绍
内容详情
替代品

模型简介

本奖励模型基于Gemma-2B基础模型训练而成,专门用于评估和排序不同文本生成结果的质量,适用于强化学习人类反馈(RLHF)场景。

模型特点

多源数据集训练
整合了HH-RLHF、SHP、UltraFeedback等6个高质量数据集,总计25万组对比数据
严格数据清洗
采用多种策略确保对比数据的质量,如保留显著差异样本、删除等分样本等
高效训练配置
采用学习率1e-5、批量大小256、余弦学习率衰减等优化训练过程

模型能力

文本质量评分
生成结果排序
对话响应评估
强化学习反馈

使用案例

强化学习
拒绝采样微调
用于RLHF流程中的拒绝采样阶段,筛选高质量生成结果
可直接用于RAFT(奖励排序微调)算法
对话系统
聊天机器人响应评估
评估不同聊天机器人响应的质量,选择最佳回复
在MT Bench等基准测试中表现良好