许可协议:Apache-2.0
支持语言:
- 英语
评估指标:
- 准确率
任务标签:文本生成
标签:
- 代码
- 数学
MathGenie:通过问题回译生成合成数据以增强大语言模型的数学推理能力
本模型对应论文《MathGenie:通过问题回译生成合成数据以增强大语言模型的数学推理能力》。
最新动态
- [2024-02-26] 论文已发布于ArXiv。
简介
大语言模型(LLMs)在数学推理方面展现出巨大潜力,但当前开源模型与GPT-4等闭源模型仍存在性能差距。
本文提出MathGenie方法,通过小规模问题-答案数据集(称为种子数据)生成多样化且可靠的数学题目。我们对种子数据中的标准答案进行增强,并训练回译模型将增强后的答案逆向转化为新问题。随后为新问题生成代码集成式解答方案,并通过基于原理的验证策略确保解答的正确性。
我们在7B至70B不同规模的预训练模型上测试该增强技术的效果,由此产生的MathGenieLM模型家族在五大代表性数学推理数据集上全面超越此前开源模型,达到最先进水平。其中MathGenieLM-InternLM2在GSM8K数据集准确率达87.7%,MATH数据集达55.7%,成为开源语言模型综合性能最佳者。
更多细节请参阅项目主页与论文原文。
使用指南
模型下载
MathGenie-InterLM-20B模型已上线Huggingface。
MathGenie-Mixtral-8x7B模型已上线Huggingface。
推理与评估
模板格式
{% for message in messages %}
{% if message['role'] == 'user' %}
{{ '<|user|>' }}{% elif message['role'] == 'system' %}
{{ '<|system|>' }}{% elif message['role'] == 'assistant' %}
{{ '<|assistant|>' }}{% endif %}
{% for block in message['content'] %}
{% if block['type'] == 'text' %}
{{ '<|text|>' }}{% elif block['type'] == 'code' %}
{{ '<|code|>' }}{% elif block['type'] == 'execution' %}
{{ '<|execution|>' }}{% endif %}
{{ block['content'] + '<|endofblock|>' }}{% endfor %}
{{ '<|endofmessage|>' }}{% endfor %}
具体推理与评估代码请参考MathCoder项目库。
引用
若本研究对您有帮助,请引用以下文献:
@misc{lu2024mathgenie,
title={MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs},
author={Zimu Lu and Aojun Zhou and Houxing Ren and Ke Wang and Weikang Shi and Junting Pan and Mingjie Zhan and Hongsheng Li},
year={2024},
eprint={2402.16352},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{
wang2024mathcoder,
title={MathCoder: Seamless Code Integration in {LLM}s for Enhanced Mathematical Reasoning},
author={Ke Wang and Houxing Ren and Aojun Zhou and Zimu Lu and Sichun Luo and Weikang Shi and Renrui Zhang and Linqi Song and Mingjie Zhan and Hongsheng Li},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=z8TW0ttBPp}
}