Smaug-34B-v0.1开源大语言模型 - 免费微调带来更优偏好学习体验

首页

Smaug 34B V0.1

由 abacusai 开发

基于jondurbin/bagel-34b-v0.2微调的大语言模型，采用新型DPO-Positive（DPOP）技术优化偏好学习

大型语言模型

Transformers

开源协议:Apache-2.0 #DPOP优化 #数学推理增强 #高精度偏好学习

下载量 2,694

发布时间 : 1/25/2024

模型简介

Smaug-34B-v0.1是一个34B参数的大语言模型，通过DPOP技术改进标准DPO的缺陷，在数学推理和通用任务中表现优异。

模型特点

DPOP优化技术

通过新型DPO-Positive损失函数解决标准DPO在编辑距离小的任务中的性能下降问题

多领域性能提升

在ARC、HellaSwag、MetaMath等多样化数据集上表现优异

开源技术栈

完整训练细节和数据集已通过论文开源，支持社区持续优化

模型能力

复杂文本生成

数学问题求解

常识推理

开放域问答

真实性回答生成

使用案例

教育

数学辅导

帮助学生解决GSM8K等数学问题

GSM8K得分72.18

研究

偏好学习研究

作为DPOP技术的基准模型

在多项任务中优于标准DPO

🚀 Smaug-34B-v0.1模型

Smaug-34B-v0.1是一个基于微调技术的模型，它在图像识别和自然语言处理等领域具有广泛的应用前景。该模型通过全新的微调技术和训练数据集，提升了模型的性能和泛化能力。

image/png

🚀 快速开始

本模型是对jondurbin优秀的bagel模型的微调版本，且未采用任何形式的合并。

我们使用一种新的微调技术DPO-Positive (DPOP)以及ARC、HellaSwag和MetaMath的新成对偏好版本（以及其他现有数据集）创建了Smaug-34B-v0.1。我们在新论文中介绍了该技术和完整的训练细节：https://arxiv.org/abs/2402.13228 。

我们发现，在完成对之间的编辑距离较低的数据集（如基于数学的数据集）中，只要首选和非首选类别之间的相对概率增加，标准DPO损失可能会导致模型对首选示例的似然性降低。基于这些见解，我们设计了DPOP，这是一种新的损失函数和训练过程，可避免这种失败模式。令人惊讶的是，我们还发现DPOP在各种数据集和下游任务中都优于DPO，包括完成之间编辑距离较高的数据集。

我们相信这种新方法在各种模型类型和下游用例的训练中普遍有用，并且它为我们所有的Smaug模型提供了支持。随着我们的论文和数据集的发布，我们期待开源社区继续基于Smaug进行构建和改进，催生更多的“龙模型”来主导大语言模型领域！

✨ 主要特性

全新微调技术：采用DPO-Positive (DPOP)损失函数和训练过程，避免了标准DPO损失在某些数据集上的失败模式。
广泛适用性：在各种数据集和下游任务中表现出色，包括完成之间编辑距离较高的数据集。
开源共享：随着论文和数据集的发布，鼓励开源社区参与改进和拓展。

📚 详细文档

评估结果

平均值	ARC	HellaSwag	MMLU	TruthfulQA	Winogrande	GSM8K
77.29	74.23	86.76	76.66	70.22	83.66	72.18

污染结果

参考模型为jondurbin/bagel-34b-v0.2：

ARC	TruthfulQA	GSM8K
0.08	0.38	0.88

引用信息

如果您使用了本仓库中的数据、模型或方法，请引用以下论文：

@article{pal2024smaug,
  title={Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive},
  author={Pal, Arka and Karkhanis, Deep and Dooley, Samuel and Roberts, Manley and Naidu, Siddartha and White, Colin},
  journal={arXiv preprint arXiv:2402.13228},
  year={2024}
}