U

URM LLaMa 3.1 8B

由 LxzGordon 开发
URM-LLaMa-3.1-8B是一个具备不确定性感知能力的奖励模型,用于改进大语言模型的对齐效果。
下载量 4,688
发布时间 : 9/12/2024
模型介绍
内容详情
替代品

模型简介

该模型由基础模型和具有不确定性感知能力的属性特定值头组成,采用两阶段训练(属性回归和门控层学习),能够提供更可靠的奖励信号。

模型特点

不确定性感知
模型能够估计奖励信号的不确定性,低不确定性的信号更可靠,带来更好的对齐效果。
两阶段训练
第一阶段进行属性回归训练,第二阶段学习门控层组合多属性分数。
门控层学习
通过学习门控层动态组合多属性分数,而非采用固定权重。

模型能力

文本质量评估
奖励信号生成
不确定性估计
多属性评分

使用案例

大语言模型对齐
响应质量评估
评估AI助手生成响应的质量,包括帮助性、正确性等维度。
如图表所示,使用不确定性估计能带来更好的对齐效果。
强化学习
奖励模型
为强化学习训练提供更可靠的奖励信号。
低不确定性的奖励信号能提高训练稳定性。