license: llama2
WizardMath:通过强化进化指令(RLEIF)赋能大语言模型的数学推理能力
🏠 项目主页
🤗 HuggingFace仓库 •🐱 Github代码库 • 🐦 推特
📃 [WizardLM论文] • 📃 [WizardCoder论文] • 📃 [WizardMath论文]
👋 加入Discord社区
最新动态
[2023年12月19日] 🔥 发布基于Mistral-7B训练的WizardMath-7B-V1.1——当前7B规模数学大模型的SOTA,在GSM8k上达到83.2 pass@1,MATH上达到33.0 pass@1
[2023年12月19日] 🔥 WizardMath-7B-V1.1在GSM8K pass@1上超越ChatGPT 3.5、Gemini Pro、Mixtral MOE和Claude Instant
[2023年12月19日] 🔥 WizardMath-7B-V1.1在MATH pass@1上媲美ChatGPT 3.5和Gemini Pro,并超越Mixtral MOE
[2023年12月19日] WizardMath-7B-V1.1与其他开源7B数学大模型对比
模型 |
GSM8k Pass@1 |
MATH Pass@1 |
MPT-7B |
6.8 |
3.0 |
Llama 1-7B |
11.0 |
2.9 |
Llama 2-7B |
12.3 |
2.8 |
Yi-6b |
32.6 |
5.8 |
Mistral-7B |
37.8 |
9.1 |
Qwen-7b |
47.8 |
9.3 |
RFT-7B |
50.3 |
-- |
MAmmoTH-7B (COT) |
50.5 |
10.4 |
WizardMath-7B-V1.0 |
54.9 |
10.7 |
Abel-7B-001 |
59.7 |
13 |
MetaMath-7B |
66.5 |
19.8 |
Arithmo-Mistral-7B |
74.7 |
25.3 |
MetaMath-Mistral-7B |
77.7 |
28.2 |
Abel-7B-002 |
80.4 |
29.5 |
WizardMath-7B-V1.1 |
83.2 |
33.0 |
[2023年12月19日] WizardMath-7B-V1.1与大型开源模型(30B~70B)对比
模型 |
GSM8k Pass@1 |
MATH Pass@1 |
Llemma-34B |
51.5 |
25.0 |
Minerva-62B |
52.4 |
27.6 |
Llama 2-70B |
56.8 |
13.5 |
DeepSeek 67B |
63.4 |
-- |
Gork 33B |
62.9 |
23.9 |
MAmmoTH-70B |
72.4 |
21.1 |
Yi-34B |
67.9 |
15.9 |
Mixtral 8x7B |
74.4 |
28.4 |
MetaMath-70B |
82.3 |
26.6 |
WizardMath-7B-V1.1 |
83.2 |
33.0 |
❗ 数据污染检查声明:
在模型训练前,我们已通过多种去重方法严格检查所有训练数据,确保GSM8k和MATH测试集无数据泄露。
模型 |
检查点 |
论文 |
MT-Bench |
AlpacaEval |
GSM8k |
HumanEval |
许可协议 |
WizardLM-70B-V1.0 |
🤗 HF链接 |
📃即将发布 |
7.78 |
92.91% |
77.6% |
50.6 pass@1 |
Llama 2许可 |
WizardLM-13B-V1.2 |
🤗 HF链接 |
|
7.06 |
89.17% |
55.3% |
36.6 pass@1 |
Llama 2许可 |
WizardLM-13B-V1.1 |
🤗 HF链接 |
|
6.76 |
86.32% |
|
25.0 pass@1 |
非商用 |
WizardLM-30B-V1.0 |
🤗 HF链接 |
|
7.01 |
|
|
37.8 pass@1 |
非商用 |
WizardLM-13B-V1.0 |
🤗 HF链接 |
|
6.35 |
75.31% |
|
24.0 pass@1 |
非商用 |
WizardLM-7B-V1.0 |
🤗 HF链接 |
📃 [WizardLM] |
|
|
|
19.1 pass@1 |
非商用 |
|
|
|
|
|
|
|
|
Github代码库: https://github.com/nlpxucan/WizardLM/tree/main/WizardMath
推特: https://twitter.com/WizardLM_AI/status/1689998428200112128
Discord社区: https://discord.gg/VZjjHtWrKs
WizardMath-V1.0与其他大模型对比
🔥 下图显示我们的WizardMath-70B-V1.0在该基准测试中位列第五,超越ChatGPT(81.6 vs. 80.8)、Claude Instant(81.6 vs. 80.9)和PaLM 2 540B(81.6 vs. 80.7)
❗模型系统提示使用说明:
请严格使用与我们相同的系统提示,我们不保证量化版本的准确性。
默认版本提示:
"以下是一个描述任务的指令。请编写一个恰当完成该请求的回复。\n\n### 指令:\n{instruction}\n\n### 回复:"
思维链版本提示: (❗对于简单数学题,我们不建议使用此提示)
"以下是一个描述任务的指令。请编写一个恰当完成该请求的回复。\n\n### 指令:\n{instruction}\n\n### 回复: 让我们一步步思考。"
WizardMath推理演示脚本
我们提供WizardMath推理演示代码此处。
❗关于数据集的共同关切:
近期我们整体组织的代码、数据和模型开源政策出现明确调整。尽管如此,我们仍努力率先开放模型权重,但数据涉及更严格的法律审核,目前正由法务团队审查。研究人员未经授权无权公开。感谢理解。
引用
如果使用本项目的代码、方法或数据,请引用该仓库。
@article{luo2023wizardmath,
title={WizardMath:通过强化进化指令赋能大语言模型的数学推理},
author={罗海鹏 and 孙清风 and 许灿 and 赵普 and 楼建光 and 陶重阳 and 耿希波 and 林庆伟 and 陈世峰 and 张冬梅},
journal={arXiv预印本 arXiv:2308.09583},
year={2023}
}