L

Llama 3 Base 8B SFT

由 princeton-nlp 开发
SimPO是一种无需参考奖励模型的偏好优化方法,简化了偏好对齐流程。
下载量 5,967
发布时间 : 5/17/2024
模型介绍
内容详情
替代品

模型简介

SimPO通过直接优化偏好数据,避免了传统方法中复杂的奖励模型训练步骤,提高了训练效率和模型性能。

模型特点

无需参考奖励模型
直接优化偏好数据,省去了训练复杂奖励模型的步骤
训练效率高
简化了偏好对齐流程,提高了训练速度
性能优越
在多个基准测试中表现出色,优于传统方法

模型能力

偏好优化
语言模型对齐
强化学习

使用案例

语言模型训练
大语言模型偏好对齐
用于优化大语言模型的人类偏好对齐
提高模型输出的质量和安全性