WizardMath-70B-V1.0开源大模型 - 专注数学推理，免费部署的实用之选

首页

Wizardmath 70B V1.0

由 WizardLMTeam 开发

WizardMath-7B-V1.1是基于Mistral-7B训练的大语言模型，专注于数学推理能力，采用强化进化指令(RLEIF)方法提升性能，是当前7B规模数学大模型的SOTA。

大型语言模型

Transformers

#数学推理 #强化进化指令 #大语言模型

下载量 153

发布时间 : 8/11/2023

模型简介

WizardMath通过强化进化指令赋能大语言模型的数学推理能力，在GSM8k和MATH等数学基准测试上表现优异。

模型特点

强化进化指令(RLEIF)

采用创新的强化进化指令方法提升数学推理能力

7B规模SOTA

在7B参数规模模型中达到最佳数学推理性能

超越ChatGPT 3.5

在GSM8K pass@1上超越ChatGPT 3.5、Gemini Pro等商业模型

模型能力

数学问题求解

多步数学推理

代数运算

几何问题解答

使用案例

教育

数学辅导

帮助学生解决数学问题和理解数学概念

在GSM8k测试集上达到83.2%准确率

研究

数学推理研究

用于研究大语言模型的数学推理能力

在MATH测试集上达到33.0%准确率

🚀 WizardMath：通过强化进化指令（RLEIF）增强大语言模型的数学推理能力

WizardMath是一个借助强化进化指令（RLEIF）来提升大语言模型数学推理能力的项目。它在数学问题解决上表现出色，能为用户提供高效准确的数学推理结果。

🚀 快速开始

你可以通过以下链接快速了解和使用WizardMath：

✨ 主要特性

模型对比

与其他开源7B规模数学大语言模型对比

模型	GSM8k Pass@1	MATH Pass@1
MPT - 7B	6.8	3.0
Llama 1 - 7B	11.0	2.9
Llama 2 - 7B	12.3	2.8
Yi - 6b	32.6	5.8
Mistral - 7B	37.8	9.1
Qwen - 7b	47.8	9.3
RFT - 7B	50.3	--
MAmmoTH - 7B (COT)	50.5	10.4
WizardMath - 7B - V1.0	54.9	10.7
Abel - 7B - 001	59.7	13
MetaMath - 7B	66.5	19.8
Arithmo - Mistral - 7B	74.7	25.3
MetaMath - Mistral - 7B	77.7	28.2
Abel - 7B - 002	80.4	29.5
WizardMath - 7B - V1.1	83.2	33.0

与大型开源（30B ~ 70B）大语言模型对比

模型	GSM8k Pass@1	MATH Pass@1
Llemma - 34B	51.5	25.0
Minerva - 62B	52.4	27.6
Llama 2 - 70B	56.8	13.5
DeepSeek 67B	63.4	--
Gork 33B	62.9	23.9
MAmmoTH - 70B	72.4	21.1
Yi - 34B	67.9	15.9
Mixtral 8x7B	74.4	28.4
MetaMath - 70B	82.3	26.6
WizardMath - 7B - V1.1	83.2	33.0

与其他大语言模型对比（WizardMath - V1.0）

🔥 下图显示，我们的 WizardMath - 70B - V1.0 在该基准测试中排名第五，超越了ChatGPT（81.6 vs. 80.8）、Claude Instant（81.6 vs. 80.9）、PaLM 2 540B（81.6 vs. 80.7）。

数据污染检查

在模型训练前，我们仔细严格地检查了所有训练数据，并使用多种去重方法来验证和防止GSM8k和MATH测试集的数据泄露。

模型	检查点	论文	MT - Bench	AlpacaEval	GSM8k	HumanEval	许可证
WizardLM - 70B - V1.0	🤗 HF链接	📃 即将发布	7.78	92.91%	77.6%	50.6 pass@1	Llama 2许可证
WizardLM - 13B - V1.2	🤗 HF链接		7.06	89.17%	55.3%	36.6 pass@1	Llama 2许可证
WizardLM - 13B - V1.1	🤗 HF链接		6.76	86.32%		25.0 pass@1	非商业用途
WizardLM - 30B - V1.0	🤗 HF链接		7.01			37.8 pass@1	非商业用途
WizardLM - 13B - V1.0	🤗 HF链接		6.35	75.31%		24.0 pass@1	非商业用途
WizardLM - 7B - V1.0	🤗 HF链接	📃 WizardLM				19.1 pass@1	非商业用途

模型	检查点	论文	HumanEval	MBPP	演示	许可证
WizardCoder - Python - 34B - V1.0	🤗 HF链接	📃 WizardCoder	73.2	61.2	演示	Llama2
WizardCoder - 15B - V1.0	🤗 HF链接	📃 WizardCoder	59.8	50.6	--	OpenRAIL - M
WizardCoder - Python - 13B - V1.0	🤗 HF链接	📃 WizardCoder	64.0	55.6	--	Llama2
WizardCoder - Python - 7B - V1.0	🤗 HF链接	📃 WizardCoder	55.5	51.6	演示	Llama2
WizardCoder - 3B - V1.0	🤗 HF链接	📃 WizardCoder	34.8	37.4	--	OpenRAIL - M
WizardCoder - 1B - V1.0	🤗 HF链接	📃 WizardCoder	23.8	28.6	--	OpenRAIL - M

📚 详细文档

模型系统提示使用说明

❗模型系统提示使用说明： 请严格使用与我们相同的系统提示，我们不保证 量化版本 的准确性。

默认版本：

"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response:"

思维链（CoT）版本：（❗ 对于简单数学问题，我们不建议使用CoT提示。）

"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response: Let's think step by step."

推理演示脚本

我们在这里提供了WizardMath推理演示代码。

数据集相关说明

❗关于数据集的常见问题： 最近，我们整个组织的代码、数据和模型的开源政策和规定有了明显变化。尽管如此，我们仍努力先开放了模型权重，但数据涉及更严格的审核，正在与我们的法律团队审核中。我们的研究人员无权擅自公开发布。感谢您的理解。

📄 许可证

本项目使用Llama2许可证。

📚 引用

如果您使用了本仓库中的数据、方法或代码，请引用本仓库：

@article{luo2023wizardmath,
  title={WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct},
  author={Luo, Haipeng and Sun, Qingfeng and Xu, Can and Zhao, Pu and Lou, Jianguang and Tao, Chongyang and Geng, Xiubo and Lin, Qingwei and Chen, Shifeng and Zhang, Dongmei},
  journal={arXiv preprint arXiv:2308.09583},
  year={2023}
}