🚀 WizardLM-2-8x22B
WizardLM-2-8x22B 是下一代开源大语言模型,在复杂对话、多语言、推理和智能体等方面性能显著提升。与领先的闭源模型相比具有很强的竞争力,且全面超越现有的开源模型。
项目链接
🏠 WizardLM-2 发布博客
🤗 HF 仓库 •🐱 Github 仓库 • 🐦 Twitter • 📃 [WizardLM] • 📃 [WizardCoder] • 📃 [WizardMath]
👋 加入我们的 Discord
🚀 快速开始
如需查看 WizardLM-2-7B 的重新上传版本,请点击 此处。
✨ 主要特性
最新消息 🔥🔥🔥 [2024/04/15]
我们推出并开源了下一代最先进的大语言模型 WizardLM-2,它在复杂对话、多语言、推理和智能体等方面的性能有所提升。新系列包括三款前沿模型:WizardLM-2 8x22B、WizardLM-2 70B 和 WizardLM-2 7B。
- WizardLM-2 8x22B 是我们最先进的模型,与领先的闭源模型相比,表现出极具竞争力的性能,并且始终优于所有现有的开源模型。
- WizardLM-2 70B 达到了顶级推理能力,是同规模模型中的首选。
- WizardLM-2 7B 速度最快,并且与现有大 10 倍的开源领先模型相比,性能相当。
更多关于 WizardLM-2 的详细信息,请阅读我们的 发布博客文章 和即将发布的论文。
📚 详细文档
模型详情
模型能力
MT-Bench
我们还采用了 lmsys 提出的基于 GPT - 4 的自动 MT - Bench 评估框架来评估模型的性能。WizardLM-2 8x22B 与最先进的闭源模型相比,表现出极具竞争力的性能。同时,WizardLM-2 7B 和 WizardLM-2 70B 在 7B 到 70B 模型规模的其他领先基线模型中,都是表现最好的模型。
人工偏好评估
我们精心收集了一组复杂且具有挑战性的真实世界指令集,其中包括人类的主要需求,如写作、编码、数学、推理、智能体和多语言。我们报告了无平局的胜负率:
- WizardLM-2 8x22B 仅略落后于 GPT - 4 - 1106 - preview,并且明显强于 Command R Plus 和 GPT4 - 0314。
- WizardLM-2 70B 优于 GPT4 - 0613、Mistral - Large 和 Qwen1.5 - 72B - Chat。
- WizardLM-2 7B 与 Qwen1.5 - 32B - Chat 相当,并且超过了 Qwen1.5 - 14B - Chat 和 Starling - LM - 7B - beta。
方法概述
我们构建了一个完全由人工智能驱动的合成训练系统来训练 WizardLM-2 模型。有关该系统的更多详细信息,请参考我们的 博客。
使用说明
⚠️ 重要提示
WizardLM-2 采用了 Vicuna 的提示格式,并支持多轮对话。提示格式应如下所示:
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful,
detailed, and polite answers to the user's questions. USER: Hi ASSISTANT: Hello.</s>
USER: Who are you? ASSISTANT: I am WizardLM.</s>......
我们在 GitHub 上提供了一个 WizardLM-2 推理演示 代码。
详细结果可查看 此处
指标 |
值 |
平均值 |
32.61 |
IFEval (0 - Shot) |
52.72 |
BBH (3 - Shot) |
48.58 |
MATH Lvl 5 (4 - Shot) |
22.28 |
GPQA (0 - shot) |
17.56 |
MuSR (0 - shot) |
14.54 |
MMLU - PRO (5 - shot) |
39.96 |
📄 许可证
本项目采用 Apache2.0 许可证。