🚀 西弗勒斯 - 7B - DPO - v2
西弗勒斯 - 7B - DPO - v2 是基于 [WestSeverus - 7B](https://huggingface.co/FelixChao/WestSeverus - 7B) 训练的西湖系列模型。该模型在多个 DPO 数据集上进行训练,在基础数学问题上表现出色,可用于数学、化学、物理甚至编码等领域的进一步研究和参考。

🚀 快速开始
本部分将为你介绍西弗勒斯 - 7B - DPO - v2 模型的相关信息,包括其在不同排行榜的表现、提示格式、量化模型等内容。
✨ 主要特性
- 基于 [WestSeverus - 7B](https://huggingface.co/FelixChao/WestSeverus - 7B) 进行训练。
- 在多个 DPO 数据集上进行训练,能较好地处理基础数学问题。
- 可应用于数学、化学、物理和编码等多个领域。
📚 详细文档
📖 目录
- Nous 基准测试结果
- AGIEval
- GPT4All
- TruthfulQA 分数
- BigBench
- Open LLM 排行榜
- ARC
- HellaSwag
- MMLU
- TruthfulQA
- Winogrande
- GSM8K
- EvalPlus 排行榜
- HumanEval
- HumanEval_Plus
- MBPP
- MBPP_Plus
- 提示格式
- 量化模型
- 致谢
🪄 Nous 基准测试结果
西弗勒斯 - 7B - DPO - v2 目前在 CultriX 创建的 YALL - Yet Another LLM 排行榜 中名列前茅,在 TruthfulQA 分数和 BigBench 方面表现出色。
模型 |
平均分 |
AGIEval |
GPT4All |
TruthfulQA |
Bigbench |
[西弗勒斯 - 7B - DPO - v2](https://huggingface.co/FelixChao/WestSeverus - 7B - DPO - v2) |
60.98 |
45.29 |
77.2 |
72.72 |
48.71 |
[CultriX/Wernicke - 7B - v1](https://huggingface.co/CultriX/Wernicke - 7B - v1) |
60.73 |
45.59 |
77.36 |
71.46 |
48.49 |
[mlabonne/NeuralBeagle14 - 7B](https://huggingface.co/mlabonne/NeuralBeagle14 - 7B) |
60.25 |
46.06 |
76.77 |
70.32 |
47.86 |
[CultriX/MistralTrix - v1](https://huggingface.co/CultriX/MistralTrix - v1) |
60.05 |
44.98 |
76.62 |
71.44 |
47.17 |
[senseable/WestLake - 7B - v2](https://huggingface.co/senseable/WestLake - 7B - v2) |
59.42 |
44.27 |
77.86 |
67.46 |
48.09 |
[mlabonne/Daredevil - 7B](https://huggingface.co/mlabonne/Daredevil - 7B) |
58.22 |
44.85 |
76.07 |
64.89 |
47.07 |
[microsoft/phi - 2](https://huggingface.co/microsoft/phi - 2) |
44.61 |
27.96 |
70.84 |
44.46 |
35.17 |
🏆 Open LLM 排行榜
西弗勒斯 - 7B - DPO - v2 是 Open LLM 排行榜中排名靠前的 7B 模型之一,在 TruthfulQA 和 GSM8K 方面表现出色。
指标 |
值 |
平均分 |
75.29 |
AI2 推理挑战 (25 - 样本) |
71.42 |
HellaSwag (10 - 样本) |
88.27 |
MMLU (5 - 样本) |
64.79 |
TruthfulQA (0 - 样本) |
72.37 |
Winogrande (5 - 样本) |
83.27 |
GSM8k (5 - 样本) |
71.65 |
详细结果可查看 [此处](https://huggingface.co/datasets/open - llm - leaderboard/details_FelixChao__WestSeverus - 7B - DPO - v2)。
⚡ EvalPlus 排行榜
模型 |
HumanEval |
HumanEval_Plus |
MBPP |
MBPP_Plus |
phi - 2 - 2.7B |
48.2 |
43.3 |
61.9 |
51.4 |
西弗勒斯 - 7B - DPO - v2 |
43.3 |
34.1 |
TBD |
TBD |
SOLAR - 10.7B - Instruct - v1.0 |
42.1 |
34.3 |
42.9 |
34.6 |
CodeLlama - 7B |
37.8 |
34.1 |
57.6 |
45.4 |

⚗️ 提示格式
西弗勒斯 - 7B - DPO - v2 使用带有系统提示的 ChatML 提示模板进行训练。示例如下:
<|im_start|>system
{系统消息}<|im_end|>
<|im_start|>user
{提示}<|im_end|>
<|im_start|>assistant
🛠️ 量化模型
西弗勒斯模型的其他版本:
- [PetroGPT/西弗勒斯 - 7B - DPO](https://huggingface.co/PetroGPT/WestSeverus - 7B - DPO)
- GGUF:https://huggingface.co/TheBloke/WestSeverus - 7B - DPO - GGUF
- GGUF:https://huggingface.co/s3nh/WestSeverus - 7B - DPO - GGUF
- GPTQ:https://huggingface.co/TheBloke/WestSeverus - 7B - DPO - GPTQ
- AWQ:https://huggingface.co/TheBloke/WestSeverus - 7B - DPO - AWQ
MaziyarPanahi/西弗勒斯 - 7B - DPO - v2 - GGUF
- GGUF:https://huggingface.co/MaziyarPanahi/WestSeverus - 7B - DPO - v2 - GGUF
🙏 致谢
- 感谢 @senseable 提供的 [senseable/西湖 - 7B - v2](https://huggingface.co/senseable/WestLake - 7B - v2)。
- 感谢 @jondurbin 提供的 [jondurbin/truthy - dpo - v0.1 数据集](https://huggingface.co/datasets/jondurbin/truthy - dpo - v0.1)。
- 感谢 @Charles Goddard 开发的 MergeKit。
- 感谢 @TheBloke、@s3nh、@MaziyarPanahi 提供的量化模型。
- 感谢 @mlabonne、@CultriX 提供的 YALL - Yet Another LLM 排行榜。
- 感谢开源 AI 社区中所有使用该模型进行进一步研究和改进的人。
📄 许可证
本模型采用 Apache - 2.0 许可证。