Zephyr-orpo-141b-A35b-v0.1开源大语言模型 - 免费助力做您贴心有用的助手

首页

Zephyr Orpo 141b A35b V0.1

由 HuggingFaceH4 开发

Zephyr 141B-A39B是基于Mixtral-8x22B-v0.1微调的大型语言模型，采用ORPO对齐算法训练，旨在成为有用的助手。

大型语言模型

Transformers

开源协议:Apache-2.0 #专家混合模型 #ORPO优化 #多轮对话

下载量 3,382

发布时间 : 4/10/2024

模型简介

Zephyr 141B-A39B是一个专家混合（MoE）模型，总参数量141B，激活参数量39B。在聊天、代码、数学和推理数据的混合上进行了微调，支持英语为主的交互。

模型特点

ORPO对齐算法

采用Odds Ratio Preference Optimization (ORPO)算法进行训练，比DPO和PPO等方法计算效率更高。

高效训练

仅使用7k个实例，在4个节点（每个节点8个H100 GPU）上训练1.3小时完成。

多轮对话能力

基于高质量、多轮合成偏好数据集训练，具备优秀的对话交互能力。

模型能力

文本生成

多轮对话

代码生成

数学推理

使用案例

对话助手

智能客服

用于提供客户支持和解答常见问题

能够理解复杂问题并提供准确回答

教育辅助

概念解释

用简单语言解释复杂概念

能够将专业术语转化为儿童易懂的语言

🚀 Zephyr 141B-A39B模型介绍

Zephyr是一系列经过训练的语言模型，旨在成为用户的得力助手。Zephyr 141B-A39B是该系列的最新模型，它基于mistral-community/Mixtral-8x22B-v0.1进行微调。训练过程采用了一种名为Odds Ratio Preference Optimization (ORPO)的新型对齐算法，使用了7k个实例，在4个节点（每个节点配备8个H100 GPU）上训练了1.3小时。ORPO无需进行SFT步骤即可实现高性能，因此在计算效率上比DPO和PPO等方法更高。训练Zephyr-141B-A39B时，使用了argilla/distilabel-capybara-dpo-7k-binarized偏好数据集，该数据集由通过大语言模型评分的合成、高质量多轮偏好数据组成。

⚠️ 重要提示

该模型由Argilla、KAIST和Hugging Face合作训练。

🚀 快速开始

你可以使用🤗 Transformers库中的pipeline()函数来运行该模型，示例代码如下：

# pip install 'transformers>=4.39.3'
# pip install accelerate

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)
messages = [
    {
        "role": "system",
        "content": "You are Zephyr, a helpful assistant.",
    },
    {"role": "user", "content": "Explain how Mixture of Experts work in language a child would understand."},
]
outputs = pipe(
    messages,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_k=50,
    top_p=0.95,
)
print(outputs[0]["generated_text"][-1]["content"])

✨ 主要特性

高效训练算法：采用ORPO算法，无需SFT步骤，计算效率高。
高质量数据集：使用合成、高质量的多轮偏好数据集进行训练。
良好性能表现：在聊天基准测试如MT Bench和IFEval上表现出色。

📚 详细文档

模型详情

模型描述

属性	详情
模型类型	专家混合（MoE）模型，总参数141B，活动参数39B。（最初在计算模型ID的活动参数数量时出现小错误，模型卡片中显示的是正确数量。）在公开可用的合成数据集上进行微调。
语言	主要为英语
许可证	Apache 2.0
微调基础模型	mistral-community/Mixtral-8x22B-v0.1

模型来源

仓库：https://github.com/huggingface/alignment-handbook
数据集：https://huggingface.co/datasets/argilla/distilabel-capybara-dpo-7k-binarized

性能表现

Zephyr 141B-A39B用于测试ORPO在大规模场景下的有效性，基础数据集包含多种通用聊天能力。该模型在聊天基准测试中取得了良好成绩，以下是使用LightEval评估套件得到的分数，每个提示都使用了模型对应的聊天模板进行格式化，以模拟真实使用场景，因此部分分数可能与技术报告或开放大语言模型排行榜中的分数有所不同。

模型	MT Bench	IFEval	BBH	AGIEval
zephyr-orpo-141b-A35b-v0.1	8.17	65.06	58.96	44.16
databricks/dbrx-instruct	8.26	52.13	48.50	41.16
mistralai/Mixtral-8x7B-Instruct-v0.1	8.30	55.08	45.31	47.68

预期用途与限制

该模型在聊天、代码、数学和推理数据的混合数据集上进行了微调。

偏差、风险和限制

Zephyr 141B-A39B在基于人类反馈的强化学习（RLHF）阶段未进行人类偏好对齐，也未像ChatGPT那样在输出时进行实时过滤，因此该模型可能会产生有问题的输出（尤其是在特定提示下）。此外，不清楚基础模型（mistral-community/Mixtral-8x22B-v0.1）训练语料库的规模和组成，但可能包含网络数据以及书籍和代码等技术来源的数据，可参考Falcon 180B模型卡片。

训练过程

训练超参数

学习率：5e-06
训练批次大小：1
评估批次大小：8
随机种子：42
分布式类型：多GPU
设备数量：32
总训练批次大小：32
总评估批次大小：256
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型：inverse_sqrt
学习率调度器热身步数：100
训练轮数：3

框架版本

Transformers 4.39.3
Pytorch 2.1.2+cu121
Datasets 2.18.0
Tokenizers 0.15.1

📄 许可证

本模型使用Apache 2.0许可证。

🔖 引用

如果你在工作中使用了Zephyr 141B-A39B，请引用ORPO论文：

@misc{hong2024orpo,
      title={ORPO: Monolithic Preference Optimization without Reference Model}, 
      author={Jiwoo Hong and Noah Lee and James Thorne},
      year={2024},
      eprint={2403.07691},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

你也可以引用该模型的创建者：

@misc{zephyr_141b,
  author = {Alvaro Bartolome and Jiwoo Hong and Noah Lee and Kashif Rasul and Lewis Tunstall},
  title = {Zephyr 141B A39B},
  year = {2024},
  publisher = {Hugging Face},
  journal = {Hugging Face repository},
  howpublished = {\url{https://huggingface.co/HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1}}
}