G

Gemma 2 9b It WPO HB

由 wzhouad 开发
基于gemma-2-9b-it模型,通过加权偏好优化(WPO)方法微调的大语言模型,提升了离线策略偏好优化的效果。
下载量 15
发布时间 : 8/8/2024
模型介绍
内容详情
替代品

模型简介

该模型采用WPO方法,通过重新加权偏好对来缩小离线与在线数据的分布差距,优化训练过程。主要用于文本生成和对话任务。

模型特点

加权偏好优化(WPO)
通过根据当前策略下的概率重新加权偏好对,使离线数据更接近在线数据,解决分布差距问题。
混合数据训练
结合了gemma模型的在线采样输出和GPT-4-turbo的输出,使用ArmoRM-Llama3-8B-v0.1进行评分选择。
高效训练
在不增加额外成本的情况下优化训练过程,提高了模型性能。

模型能力

文本生成
对话系统
偏好学习

使用案例

对话系统
智能助手
可用于构建高质量的对话助手
在AlpacaEval评估中获得76.73%的LC评分
教育研究
偏好学习研究
可用于研究离线策略偏好优化方法