推理: false
语言:
WizardMath:通过强化进化指令(RLEIF)赋能大语言模型的数学推理能力
🏠 项目主页
🤗 HuggingFace仓库 •🐱 GitHub仓库 • 🐦 Twitter
📃 [WizardLM论文] • 📃 [WizardCoder论文] • 📃 [WizardMath论文]
👋 加入我们的Discord社区
最新动态
[2023年12月19日] 🔥 我们发布了基于Mistral-7B训练的WizardMath-7B-V1.1,这是当前最先进的7B数学大语言模型,在GSM8k上达到83.2 pass@1,在MATH上达到33.0 pass@1。点击[在线演示]体验。
[2023年12月19日] 🔥 WizardMath-7B-V1.1在GSM8K pass@1指标上超越ChatGPT 3.5、Gemini Pro、Mixtral MOE和Claude Instant。
[2023年12月19日] 🔥 WizardMath-7B-V1.1在MATH pass@1指标上与ChatGPT 3.5、Gemini Pro相当,并超过Mixtral MOE。
[2023年12月19日] WizardMath-7B-V1.1与其他开源7B规模数学大语言模型对比
模型 |
GSM8k Pass@1 |
MATH Pass@1 |
MPT-7B |
6.8 |
3.0 |
Llama 1-7B |
11.0 |
2.9 |
Llama 2-7B |
12.3 |
2.8 |
Yi-6b |
32.6 |
5.8 |
Mistral-7B |
37.8 |
9.1 |
Qwen-7b |
47.8 |
9.3 |
RFT-7B |
50.3 |
-- |
MAmmoTH-7B (COT) |
50.5 |
10.4 |
WizardMath-7B-V1.0 |
54.9 |
10.7 |
Abel-7B-001 |
59.7 |
13 |
MetaMath-7B |
66.5 |
19.8 |
Arithmo-Mistral-7B |
74.7 |
25.3 |
MetaMath-Mistral-7B |
77.7 |
28.2 |
Abel-7B-002 |
80.4 |
29.5 |
WizardMath-7B-V1.1 |
83.2 |
33.0 |
[2023年12月19日] WizardMath-7B-V1.1与大型开源(30B~70B)模型对比
模型 |
GSM8k Pass@1 |
MATH Pass@1 |
Llemma-34B |
51.5 |
25.0 |
Minerva-62B |
52.4 |
27.6 |
Llama 2-70B |
56.8 |
13.5 |
DeepSeek 67B |
63.4 |
-- |
Gork 33B |
62.9 |
23.9 |
MAmmoTH-70B |
72.4 |
21.1 |
Yi-34B |
67.9 |
15.9 |
Mixtral 8x7B |
74.4 |
28.4 |
MetaMath-70B |
82.3 |
26.6 |
WizardMath-7B-V1.1 |
83.2 |
33.0 |
❗ 数据污染检查说明:
在模型训练前,我们通过多种去重方法严格检查了所有训练数据,确保GSM8k和MATH测试集无数据泄露。
🔥
❗模型系统提示使用注意:
请严格使用与我们相同的系统提示,量化版本的准确性不作保证。
默认版本提示:
"以下是一个描述任务的指令。请编写一个恰当完成该请求的回复。\n\n### 指令:\n{instruction}\n\n### 回复:"
思维链版本提示:(❗简单数学问题不建议使用此提示)
"以下是一个描述任务的指令。请编写一个恰当完成该请求的回复。\n\n### 指令:\n{instruction}\n\n### 回复: 让我们一步步思考。"
WizardMath推理演示脚本
我们提供了WizardMath推理演示代码此处。
引用
如果使用本项目的代码、方法或数据,请引用以下论文:
@article{luo2023wizardmath,
title={WizardMath: 通过强化进化指令赋能大语言模型的数学推理能力},
author={罗海鹏 and 孙庆峰 and 许灿 and 赵普 and 楼建光 and 陶重阳 and 耿新波 and 林庆伟 and 陈世峰 and 张冬梅},
journal={arXiv预印本 arXiv:2308.09583},
year={2023}
}