Zephyr 7B Gemma v0.1开源语言模型 - 免费可部署的实用助手

首页

Zephyr 7b Gemma V0.1

由 HuggingFaceH4 开发

Zephyr 7B Gemma是基于google/gemma-7b微调的语言模型，使用直接偏好优化(DPO)在公开合成数据集上训练，旨在作为有用的助手。

大型语言模型

Transformers

开源协议:其他 #英语对话优化 #DPO微调 #7B参数规模

下载量 502

发布时间 : 3/1/2024

模型简介

Zephyr系列语言模型的第三个版本，70亿参数规模，主要用于英语文本生成任务，经过对齐优化以提供更符合人类偏好的响应。

模型特点

直接偏好优化(DPO)

使用DPO方法在合成数据集上进行微调，使模型输出更符合人类偏好

高性能

在多个基准测试中表现优异，如MT-Bench得分7.81

开源训练配方

可通过对齐手册提供的配方重现训练过程

模型能力

文本生成

对话系统

问答系统

推理任务

使用案例

对话系统

智能助手

可作为日常对话助手使用

在MT-Bench对话评估中获得7.81分

知识问答

AI2推理挑战赛

解决复杂的推理问题

25-shot下标准化准确率58.45

数学推理

GSM8k数学题

解决小学数学应用题

5-shot准确率45.56

🚀 Zephyr 7B Gemma

Zephyr是一系列旨在作为实用助手的语言模型。Zephyr 7B Gemma是该系列中的第三个模型，它是基于google/gemma-7b微调而来，使用直接偏好优化（DPO）在公开可用的合成数据集上进行训练。你可以通过Alignment Handbook中提供的方法复现该模型的训练过程。

🚀 快速开始

你可以使用🤗 Transformers库中的pipeline()函数运行该模型：

# pip install transformers>=4.38.2
# pip install accelerate

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="HuggingFaceH4/zephyr-7b-gemma-v0.1",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)
messages = [
    {
        "role": "system",
        "content": "",  # Model not yet trained for follow this
    },
    {"role": "user", "content": "How many helicopters can a human eat in one sitting?"},
]
outputs = pipe(
    messages,
    max_new_tokens=128,
    do_sample=True,
    temperature=0.7,
    top_k=50,
    top_p=0.95,
    stop_sequence="<|im_end|>",
)
print(outputs[0]["generated_text"][-1]["content"])
# It is not possible for a human to eat a helicopter in one sitting, as a
# helicopter is a large and inedible machine. Helicopters are made of metal,
# plastic, and other materials that are not meant to be consumed by humans.
# Eating a helicopter would be extremely dangerous and would likely cause
# serious health problems, including choking, suffocation, and poisoning. It is
# important to only eat food that is safe and intended for human consumption.

✨ 主要特性

微调优化：基于70亿参数的GPT类模型，在公开可用的合成数据集上进行微调。
语言支持：主要支持英语。
训练方式：使用DPO方法在合成数据集上训练，可通过Alignment Handbook复现训练。
应用场景：可用于聊天场景，可通过demo测试其能力。

📦 安装指南

运行模型前，你需要安装以下依赖：

pip install transformers>=4.38.2
pip install accelerate

📚 详细文档

模型描述

属性	详情
模型类型	一个具有70亿参数的类GPT模型，在公开可用的合成数据集上进行微调。
语言（NLP）	主要为英语
许可证	Gemma 使用条款
微调基础模型	google/gemma-7b

模型来源

仓库：https://github.com/huggingface/alignment-handbook
演示：https://huggingface.co/spaces/HuggingFaceH4/zephyr-7b-gemma-chat

性能表现

部分指标对比

模型	MT Bench⬇️	IFEval
zephyr-7b-gemma-v0.1	7.81	28.76
zephyr-7b-beta	7.34	43.81
google/gemma-7b-it	6.38	38.01

模型	AGIEval	GPT4All	TruthfulQA	BigBench	平均 ⬇️
zephyr-7b-beta	37.52	71.77	55.26	39.77	51.08
zephyr-7b-gemma-v0.1	34.22	66.37	52.19	37.10	47.47
mlabonne/Gemmalpaca-7B	21.6	40.87	44.85	30.49	34.45
google/gemma-7b-it	21.33	40.84	41.70	30.25	33.53

AGIEval

任务	版本	指标	值		标准误差
agieval_aqua_rat	0	acc	21.65	±	2.59
		acc_norm	25.20	±	2.73
agieval_logiqa_en	0	acc	34.72	±	1.87
		acc_norm	35.94	±	1.88
agieval_lsat_ar	0	acc	19.57	±	2.62
		acc_norm	21.74	±	2.73
agieval_lsat_lr	0	acc	30.59	±	2.04
		acc_norm	32.55	±	2.08
agieval_lsat_rc	0	acc	49.07	±	3.05
		acc_norm	42.75	±	3.02
agieval_sat_en	0	acc	54.85	±	3.48
		acc_norm	53.40	±	3.48
agieval_sat_en_without_passage	0	acc	37.38	±	3.38
		acc_norm	33.98	±	3.31
agieval_sat_math	0	acc	30.91	±	3.12
		acc_norm	28.18	±	3.04

平均：34.22%

GPT4All

任务	版本	指标	值		标准误差
arc_challenge	0	acc	49.15	±	1.46
		acc_norm	52.47	±	1.46
arc_easy	0	acc	77.44	±	0.86
		acc_norm	74.75	±	0.89
boolq	1	acc	79.69	±	0.70
hellaswag	0	acc	60.59	±	0.49
		acc_norm	78.00	±	0.41
openbookqa	0	acc	29.20	±	2.04
		acc_norm	37.80	±	2.17
piqa	0	acc	76.82	±	0.98
		acc_norm	77.80	±	0.97
winogrande	0	acc	64.09	±	1.35

平均：66.37%

TruthfulQA

任务	版本	指标	值		标准误差
truthfulqa_mc	1	mc1	35.74	±	1.68
		mc2	52.19	±	1.59

平均：52.19%

Bigbench

任务	版本	指标	值		标准误差
bigbench_causal_judgement	0	multiple_choice_grade	53.68	±	3.63
bigbench_date_understanding	0	multiple_choice_grade	59.89	±	2.55
bigbench_disambiguation_qa	0	multiple_choice_grade	30.23	±	2.86
bigbench_geometric_shapes	0	multiple_choice_grade	11.42	±	1.68
		exact_str_match	0.00	±	0.00
bigbench_logical_deduction_five_objects	0	multiple_choice_grade	28.40	±	2.02
bigbench_logical_deduction_seven_objects	0	multiple_choice_grade	19.14	±	1.49
bigbench_logical_deduction_three_objects	0	multiple_choice_grade	44.67	±	2.88
bigbench_movie_recommendation	0	multiple_choice_grade	26.80	±	1.98
bigbench_navigate	0	multiple_choice_grade	50.00	±	1.58
bigbench_reasoning_about_colored_objects	0	multiple_choice_grade	52.75	±	1.12
bigbench_ruin_names	0	multiple_choice_grade	33.04	±	2.22
bigbench_salient_translation_error_detection	0	multiple_choice_grade	33.37	±	1.49
bigbench_snarks	0	multiple_choice_grade	48.62	±	3.73
bigbench_sports_understanding	0	multiple_choice_grade	58.11	±	1.57
bigbench_temporal_sequences	0	multiple_choice_grade	37.20	±	1.53
bigbench_tracking_shuffled_objects_five_objects	0	multiple_choice_grade	20.08	±	1.13
bigbench_tracking_shuffled_objects_seven_objects	0	multiple_choice_grade	15.77	±	0.87
bigbench_tracking_shuffled_objects_three_objects	0	multiple_choice_grade	44.67	±	2.88

平均：37.1%

预期用途与限制

该模型最初在DEITA 10K数据集上进行微调，该数据集包含ChatGPT生成的各种合成对话。然后，使用🤗 TRL的DPOTrainer在argilla/dpo-mix-7k数据集上进一步对齐，该数据集包含7000个由GPT - 4排名的提示和模型完成结果。因此，该模型可用于聊天，你可以通过demo测试其能力。

偏差、风险和限制

Zephyr 7B Gemma在基于人类反馈的强化学习（RLHF）阶段未针对人类安全偏好进行对齐，也未像ChatGPT那样在响应中进行实时过滤，因此该模型可能会产生有问题的输出（特别是在受到特定提示时）。此外，不清楚训练基础模型（google/gemma-7b）所使用的语料库的大小和组成，但很可能包含网络数据以及书籍和代码等技术来源。可参考StarCoder2模型卡片了解相关示例。

训练和评估数据

该模型是基于HuggingFaceH4/zephyr-7b-gemma-sft-v0.1在argilla/dpo-mix-7k数据集上微调而来。

在评估集上的结果如下：

损失：0.4695
奖励/选择：-3.3746
奖励/拒绝：-4.9715
奖励/准确率：0.7188
奖励/差距：1.5970
对数概率/拒绝：-459.4853
对数概率/选择：-429.9115
对数几率/拒绝：86.4684
对数几率/选择：92.8200

训练超参数

训练期间使用的超参数如下：

学习率：5e - 07
训练批次大小：2
评估批次大小：4
随机种子：42
分布式类型：多GPU
设备数量：8
梯度累积步数：8
总训练批次大小：128
总评估批次大小：32
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：余弦
学习率调度器预热比例：0.1
训练轮数：2

训练结果

训练损失	轮数	步数	验证损失	奖励/选择	奖励/拒绝	奖励/准确率	奖励/差距	对数概率/拒绝	对数概率/选择	对数几率/拒绝	对数几率/选择
0.1923	1.9	100	0.4736	-3.4575	-4.9556	0.75	1.4980	-459.1662	-431.5707	86.3863	92.7360

框架版本

Transformers 4.39.0.dev0
Pytorch 2.1.2+cu121
Datasets 2.14.6
Tokenizers 0.15.1

引用信息

如果你在工作中发现该模型有用，请考虑引用Zephyr技术报告：

@misc{tunstall2023zephyr,
      title={Zephyr: Direct Distillation of LM Alignment}, 
      author={Lewis Tunstall and Edward Beeching and Nathan Lambert and Nazneen Rajani and Kashif Rasul and Younes Belkada and Shengyi Huang and Leandro von Werra and Clémentine Fourrier and Nathan Habib and Nathan Sarrazin and Omar Sanseviero and Alexander M. Rush and Thomas Wolf},
      year={2023},
      eprint={2310.16944},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

你也可以引用该模型的创建者：

@misc{zephyr_7b_gemma,
  author = {Lewis Tunstall and Philipp Schmid},
  title = {Zephyr 7B Gemma},
  year = {2024},
  publisher = {Hugging Face},
  journal = {Hugging Face repository},
  howpublished = {\url{https://huggingface.co/HuggingFaceH4/zephyr-7b-gemma-v0.1}}
}

开放大语言模型排行榜评估结果

详细结果可查看此处

指标	值
平均	62.41
AI2推理挑战（25次少样本）	58.45
HellaSwag（10次少样本）	83.48
MMLU（5次少样本）	60.68
TruthfulQA（0次少样本）	52.07
Winogrande（5次少样本）	74.19
GSM8k（5次少样本）	45.56