🚀 InternLM-Math-Plus
InternLM-Math-Plus 是最先进的双语开源数学推理大语言模型,具备求解、证明、验证和增强等功能,为数学推理领域提供强大支持。
🚀 快速开始
你可以通过以下链接访问项目相关内容:
✨ 主要特性
最新动态
- [2024.05.24] 发布更新版本 InternLM2-Math-Plus,包含 1.8B、7B、20B 和 8x22B 四种规模,在非形式化数学推理(思维链和代码解释器)和形式化数学推理(LEAN 4 翻译和 LEAN 4 定理证明)方面性能显著提升。
- [2024.02.10] 添加技术报告和引用参考。
- [2024.01.31] 添加 MiniF2F 结果及评估代码。
- [2024.01.29] 添加来自 ModelScope 的检查点,更新多数投票和代码解释器的结果,技术报告即将发布。
- [2024.01.26] 添加来自 OpenXLab 的检查点,方便中国用户下载。
性能表现
形式化数学推理
在形式化数学推理基准测试 MiniF2F-test 上评估 InternLM2-Math-Plus 的性能,评估设置与使用 LEAN 4 的 Llemma 相同。
模型 |
MiniF2F-test |
ReProver |
26.5 |
LLMStep |
27.9 |
GPT-F |
36.6 |
HTPS |
41.0 |
Llemma-7B |
26.2 |
Llemma-34B |
25.8 |
InternLM2-Math-7B-Base |
30.3 |
InternLM2-Math-20B-Base |
29.5 |
InternLM2-Math-Plus-1.8B |
38.9 |
InternLM2-Math-Plus-7B |
43.4 |
InternLM2-Math-Plus-20B |
42.6 |
InternLM2-Math-Plus-Mixtral8x22B |
37.3 |
非形式化数学推理
在非形式化数学推理基准测试 MATH 和 GSM8K 上评估 InternLM2-Math-Plus 的性能。InternLM2-Math-Plus-1.8B 在最小规模设置下优于 MiniCPM-2B。InternLM2-Math-Plus-7B 优于当前最先进的数学推理开源模型 Deepseek-Math-7B-RL。InternLM2-Math-Plus-Mixtral8x22B 在 MATH(使用 Python)上得分为 68.5,在 GSM8K 上得分为 91.8。
模型 |
MATH |
MATH-Python |
GSM8K |
MiniCPM-2B |
10.2 |
- |
53.8 |
InternLM2-Math-Plus-1.8B |
37.0 |
41.5 |
58.8 |
InternLM2-Math-7B |
34.6 |
50.9 |
78.1 |
Deepseek-Math-7B-RL |
51.7 |
58.8 |
88.2 |
InternLM2-Math-Plus-7B |
53.0 |
59.7 |
85.8 |
InternLM2-Math-20B |
37.7 |
54.3 |
82.6 |
InternLM2-Math-Plus-20B |
53.8 |
61.8 |
87.7 |
Mixtral8x22B-Instruct-v0.1 |
41.8 |
- |
78.6 |
Eurux-8x22B-NCA |
49.0 |
- |
- |
InternLM2-Math-Plus-Mixtral8x22B |
58.1 |
68.5 |
91.8 |
此外,还在 MathBench-A 上对模型进行了评估。InternLM2-Math-Plus-Mixtral8x22B 的性能与 Claude 3 Opus 相当。
模型 |
算术 |
小学 |
初中 |
高中 |
大学 |
平均 |
GPT-4o-0513 |
77.7 |
87.7 |
76.3 |
59.0 |
54.0 |
70.9 |
Claude 3 Opus |
85.7 |
85.0 |
58.0 |
42.7 |
43.7 |
63.0 |
Qwen-Max-0428 |
72.3 |
86.3 |
65.0 |
45.0 |
27.3 |
59.2 |
Qwen-1.5-110B |
70.3 |
82.3 |
64.0 |
47.3 |
28.0 |
58.4 |
Deepseek-V2 |
82.7 |
89.3 |
59.0 |
39.3 |
29.3 |
59.9 |
Llama-3-70B-Instruct |
70.3 |
86.0 |
53.0 |
38.7 |
34.7 |
56.5 |
InternLM2-Math-Plus-Mixtral8x22B |
77.5 |
82.0 |
63.6 |
50.3 |
36.8 |
62.0 |
InternLM2-Math-20B |
58.7 |
70.0 |
43.7 |
24.7 |
12.7 |
42.0 |
InternLM2-Math-Plus-20B |
65.8 |
79.7 |
59.5 |
47.6 |
24.8 |
55.5 |
Llama3-8B-Instruct |
54.7 |
71.0 |
25.0 |
19.0 |
14.0 |
36.7 |
InternLM2-Math-7B |
53.7 |
67.0 |
41.3 |
18.3 |
8.0 |
37.7 |
Deepseek-Math-7B-RL |
68.0 |
83.3 |
44.3 |
33.0 |
23.0 |
50.3 |
InternLM2-Math-Plus-7B |
61.4 |
78.3 |
52.5 |
40.5 |
21.7 |
50.9 |
MiniCPM-2B |
49.3 |
51.7 |
18.0 |
8.7 |
3.7 |
26.3 |
InternLM2-Math-Plus-1.8B |
43.0 |
43.3 |
25.4 |
18.9 |
4.7 |
27.1 |
📄 许可证
本项目使用其他许可证。
📚 引用与技术报告
@misc{ying2024internlmmath,
title={InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning},
author={Huaiyuan Ying and Shuo Zhang and Linyang Li and Zhejian Zhou and Yunfan Shao and Zhaoye Fei and Yichuan Ma and Jiawei Hong and Kuikun Liu and Ziyi Wang and Yudong Wang and Zijian Wu and Shuaibin Li and Fengzhe Zhou and Hongwei Liu and Songyang Zhang and Wenwei Zhang and Hang Yan and Xipeng Qiu and Jiayu Wang and Kai Chen and Dahua Lin},
year={2024},
eprint={2402.06332},
archivePrefix={arXiv},
primaryClass={cs.CL}
}