rho-math-1b-v0.1开源数学语言模型 - 显著提升数学问题解决准确率

首页

Rho Math 1b V0.1

由 microsoft 开发

Rho-1是一个专注于数学领域的语言模型，通过选择性语言建模(SLM)方法进行预训练，显著提升了数学问题解决的准确率。

大型语言模型

Transformers

英语开源协议:MIT #选择性语言建模 #数学推理优化 #高效预训练

下载量 1,451

发布时间 : 4/11/2024

模型简介

Rho-1基础模型采用选择性语言建模(SLM)进行预训练，仅筛选与目标分布对齐的优质有效标记进行训练，在数学任务上表现出色。

模型特点

选择性语言建模(SLM)

仅筛选与目标分布对齐的优质有效标记进行训练，提高训练效率和模型性能

高效训练

仅需5-10倍训练时间即可达到基线性能，显著减少计算资源消耗

数学专精

在GSM8k和MATH数据集上表现优异，少样本准确率提升超过16%

模型能力

数学问题求解

少样本学习

思维链推理

使用案例

教育

数学问题解答

帮助学生解决各类数学问题

在GSM8k数据集上达到36.2%的少样本准确率

研究

数学推理研究

用于研究语言模型的数学推理能力

在MATH数据集上达到15.6%的少样本准确率

🚀 Rho-1：并非所有令牌都是你所需要的

Rho-1是一种采用选择性语言建模（SLM）进行预训练的模型，通过聚焦于有用且干净的令牌，提升了在GSM8k和MATH等数据集上的少样本准确率，并且能更快地达到基线性能。

🚀 快速开始

评估

git clone git@github.com:microsoft/rho.git
cd rho-1/math-evaluation-harness

基础模型少样本评估：

bash scripts/run_eval.sh cot microsoft/rho-math-7b-v0.1

SFT模型（代码解释器）评估：

bash scripts/run_eval.sh tora microsoft/rho-math-7b-interpreter-v0.1

我们复现的输出结果存于rho-1/outputs.zip中。

✨ 主要特性

选择性语言建模（SLM）

图1：Rho-1采用选择性语言建模（SLM）进行预训练。SLM使GSM8k和MATH上的平均少样本准确率提高了16%以上，能以5 - 10倍的速度达到基线性能。

图2：上方：即使是经过大量过滤的预训练语料库也包含令牌级别的噪声。左方：之前的因果语言建模（CLM）对所有令牌进行训练。右方：我们提出的选择性语言建模（SLM）有选择地对那些有用且干净的令牌应用损失。

图3：选择性语言建模的流程。SLM通过在预训练期间专注于有价值、干净的令牌来优化语言模型性能。它包括三个步骤：（步骤1）首先，在高质量数据上训练一个参考模型。（步骤2）然后，使用参考模型对语料库中每个令牌的损失进行评分。（步骤3）最后，有选择地对那些与参考损失相比显示出更高超额损失的令牌训练语言模型。

评估结果

基础模型（少样本思维链）

模型	规模	数据	唯一令牌	训练令牌	GSM8K	MATH	MMLU STEM	SAT
1 - 2B基础模型
Qwen1.5	1.8B	-	-	-	36.1	6.8	31.3	40.6
Gemma	2.0B	-	-	-	18.8	11.4	34.4	50.0
DeepSeekMath	1.3B	-	120B	150B	23.8	13.6	33.1	56.3
Rho - Math - 1B - v0.1	1.1B	OWM	14B	30B	36.2	15.6	23.3	28.1
>= 7B基础模型
Mistral	7B		-	-	41.2	11.6	49.5	59.4
Minerva	540B	-	39B	26B	58.8	33.6	63.9	-
LLemma	34B	PPile	55B	50B	54.2	23.0	54.7	68.8
InternLM2 - Math	20B	-	31B	125B	65.4	30.0	53.1	71.9
DeepSeekMath	7B	-	120B	500B	64.1	34.2	56.4	84.4
Rho - Math - 7B - v0.1	7B	OWM	14B	10.5B	66.9	31.0	54.6	84.4

工具集成推理（代码解释器）

模型	规模	SFT数据	GSM8k	MATH	SVAMP	ASDiv	MAWPS	TabMWP	GSM - Hard	平均
gpt4 - early (pal)	-	-	94.2	51.8	94.8	92.6	97.7	95.9	77.6	86.4
gpt - 4 - turbo - 2024 - 04 - 09 (cot)	-	-	-	73.4	-	-	-	-	-	-
开源小模型
MAmmoTH	70B	MI - 260k	76.9	41.8	82.4	-	-	-	-	-
ToRA	7B	ToRA - 69k	68.8	40.1	68.2	73.9	88.8	42.4	54.6	62.4
ToRA	70B	ToRA - 69k	84.3	49.7	82.7	86.8	93.8	74.0	67.2	76.9
DeepSeekMath	7B	ToRA - 69k	79.8	52.0	80.1	87.1	93.8	85.8	63.1	77.4
Rho - Math - 1B - Interpreter - v0.1	1B	ToRA - 69k	59.4	40.6	60.7	74.2	88.6	26.7	48.1	56.9
Rho - Math - 7B - Interpreter - v0.1	7B	ToRA - 69k	81.3	51.8	80.8	85.5	94.5	70.1	63.1	75.3

📄 许可证

本项目采用MIT许可证。

☕️ 引用

如果您觉得这个仓库有用，请考虑引用我们的论文：

@misc{lin2024rho1,
      title={Rho-1: Not All Tokens Are What You Need}, 
      author={Zhenghao Lin and Zhibin Gou and Yeyun Gong and Xiao Liu and Yelong Shen and Ruochen Xu and Chen Lin and Yujiu Yang and Jian Jiao and Nan Duan and Weizhu Chen},
      year={2024},
      eprint={2404.07965},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}