tulu-2-dpo-7b开源语言模型 - 免费部署的通用助手，高效解决多样需求

首页

Tulu 2 Dpo 7b

由 allenai 开发

Tulu V2 DPO 7B是基于Llama 2 7B微调的语言模型，采用直接偏好优化(DPO)方法训练，旨在作为通用助手。

大型语言模型

Transformers

英语开源协议:其他 #指令优化助手 #DPO对齐 #多轮对话增强

下载量 1,702

发布时间 : 11/13/2023

模型简介

该模型是基于Llama 2 7B的指令微调版本，使用了公开可用、合成及人类数据集进行训练，特别采用DPO方法进行偏好优化，是Llama 2 7B Chat的有力替代品。

模型特点

直接偏好优化(DPO)

采用DPO方法进行训练，相比传统RLHF能更高效地进行偏好对齐

多样化训练数据

使用公开可用、合成及人类创建的数据集混合训练，包括UltraFeedback和Tulu V2 SFT混合数据集

高性能替代方案

相比基础Llama 2 7B Chat模型，在多项基准测试中表现更优

模型能力

自然语言理解

指令跟随

对话生成

文本补全

使用案例

对话系统

智能助手

可作为个人或企业智能助手，处理各种查询和任务

在AlpacaEval基准测试中达到85.1%的胜率

内容生成

创意写作

辅助进行故事创作、诗歌写作等创意文本生成

🚀 Tulu V2 DPO 7B模型卡

Tulu是一系列经过训练的语言模型，旨在成为用户的得力助手。Tulu V2 DPO 7B是Llama 2的微调版本，它使用直接偏好优化（DPO）方法，在公开可用、合成和人工数据集的混合数据上进行训练。该模型是Llama 2 7b Chat的有力替代方案。

如需了解更多详情，请阅读论文：Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2。

🚀 快速开始

Tulu V2 DPO 7B模型是基于Llama 2微调而来，使用特定的数据集和优化方法进行训练，为用户提供了一个强大的语言交互工具。

✨ 主要特性

训练方法先进：采用直接偏好优化（DPO）方法进行训练，提升模型性能。
数据来源多样：在公开可用、合成和人工数据集的混合数据上进行训练，使模型具有更广泛的知识和更强的适应性。
替代方案优秀：是Llama 2 7b Chat的有力替代方案，为用户提供更多选择。

📚 详细文档

模型描述

属性	详情
模型类型	属于一套指令和基于强化学习人类反馈（RLHF）调整的聊天模型套件，在公开可用、合成和人工创建的数据集混合上进行调整。
语言（NLP）	主要为英语
许可证	AI2 ImpACT低风险许可证。
微调基础模型	meta-llama/Llama-2-7b-hf

模型来源

仓库：https://github.com/allenai/open-instruct
DPO配方：DPO配方来自Zephyr Beta模型
模型家族：其他模型和数据集可在Tulu V2集合中找到。

性能表现

模型	大小	对齐方式	MT-Bench（得分）	AlpacaEval（胜率 %）
Tulu-v2-7b 🐪	7B	SFT	6.30	73.9
Tulu-v2-dpo-7b 🐪	7B	DPO	6.29	85.1
Tulu-v2-13b 🐪	13B	SFT	6.70	78.9
Tulu-v2-dpo-13b 🐪	13B	DPO	7.00	89.5
Tulu-v2-70b 🐪	70B	SFT	7.49	86.6
Tulu-v2-dpo-70b 🐪	70B	DPO	7.89	95.1

输入格式

模型训练使用以下格式（注意换行符）：

<|user|>
Your message here!
<|assistant|>

为获得最佳效果，请以这种方式格式化所有输入。确保在 <|assistant|> 后包含换行符，这可能会对生成质量产生较大影响。

预期用途和限制

该模型最初在经过过滤和预处理的Tulu V2混合数据集上进行微调，该数据集包含各种人类创建的指令和主要由其他大语言模型生成的合成对话。然后，使用基于EasyLM构建的Jax DPO训练器，在openbmb/UltraFeedback数据集上进一步调整模型，该数据集包含64k个由GPT - 4排名的提示和模型完成内容。

偏差、风险和限制

Tulu模型在强化学习人类反馈（RLHF）阶段未进行安全生成调整，也未像ChatGPT那样在部署时进行响应过滤，因此模型可能会产生有问题的输出（特别是在被明确要求时）。此外，目前尚不清楚训练基础Llama 2模型的语料库的大小和组成，但很可能包含网络数据和书籍、代码等技术来源的混合。可参考Falcon 180B模型卡了解相关示例。

训练超参数

以下是DPO训练期间使用的超参数：

学习率：5e - 07
总训练批次大小：32
优化器：Adam，β值为(0.9, 0.999)，ε值为1e - 08
学习率调度器类型：线性
学习率调度器预热比例：0.1
训练轮数：3.0

🔧 技术细节

训练方法

使用直接偏好优化（DPO）方法对Llama 2进行微调，结合多种数据集提升模型性能。

数据集

Tulu V2混合数据集：包含人类创建的指令和合成对话，经过过滤和预处理。
openbmb/UltraFeedback数据集：包含64k个由GPT - 4排名的提示和模型完成内容。

训练超参数

在DPO训练过程中，使用了特定的学习率、批次大小、优化器等超参数，以确保模型的训练效果。

📄 许可证

该模型使用AI2 ImpACT低风险许可证。

📝 引用

如果您发现Tulu 2在您的工作中很有用，请使用以下方式引用：

@misc{ivison2023camels,
      title={Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2}, 
      author={Hamish Ivison and Yizhong Wang and Valentina Pyatkin and Nathan Lambert and Matthew Peters and Pradeep Dasigi and Joel Jang and David Wadden and Noah A. Smith and Iz Beltagy and Hannaneh Hajishirzi},
      year={2023},
      eprint={2311.10702},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

模型卡改编自Zephyr Beta