许可协议: MIT
标签:
- 自然语言处理
- 数学
语言:
- 英语
任务类型: 文本生成
Rho-1:并非所有标记都是你所需的
[📜 预印本] •
[💬 HF论文] •
[🤗 模型] •
[🐱 GitHub]
图1:Rho-1通过选择性语言建模(SLM)进行预训练。SLM将GSM8k和MATH数据集的平均少样本准确率提升超过16%,仅需5-10倍训练时间即可达到基线性能。
🔥 最新动态
- [2024/04/12] 🔥🔥🔥 Rho-Math-v0.1模型已在🤗 HuggingFace发布!
- [2024/04/11] Rho-1论文与代码库正式公开。
💡 核心创新
Rho-1基础模型采用选择性语言建模(SLM)进行预训练,仅筛选与目标分布对齐的优质有效标记进行训练。
选择性语言建模(SLM)
图2:
上:即使经过严格过滤的预训练语料仍存在标记级噪声。
左:传统因果语言建模(CLM)对所有标记进行训练。
右:我们提出的SLM方法仅对有效清洁的标记计算损失。
图3:选择性语言建模流程。
SLM通过聚焦高价值标记优化预训练效果,包含三步:
(1) 在优质数据上训练参考模型
(2) 用参考模型评分语料标记损失
(3) 选择损失高于参考值的标记进行训练
评估结果
基础模型(少样本思维链):
模型 |
参数量 |
数据 |
唯一标记数 |
训练标记数 |
GSM8K |
MATH |
MMLU STEM |
SAT |
1-2B基础模型 |
|
|
|
|
|
|
|
|
Qwen1.5 |
1.8B |
- |
- |
- |
36.1 |
6.8 |
31.3 |
40.6 |
Gemma |
2.0B |
- |
- |
- |
18.8 |
11.4 |
34.4 |
50.0 |
DeepSeekMath |
1.3B |
- |
120B |
150B |
23.8 |
13.6 |
33.1 |
56.3 |
Rho-Math-1B-v0.1 |
1.1B |
OWM |
14B |
30B |
36.2 |
15.6 |
23.3 |
28.1 |
>=7B基础模型 |
|
|
|
|
|
|
|
|
Mistral |
7B |
|
- |
- |
41.2 |
11.6 |
49.5 |
59.4 |
Minerva |
540B |
- |
39B |
26B |
58.8 |
33.6 |
63.9 |
- |
LLemma |
34B |
PPile |
55B |
50B |
54.2 |
23.0 |
54.7 |
68.8 |
InternLM2-Math |
20B |
- |
31B |
125B |
65.4 |
30.0 |
53.1 |
71.9 |
DeepSeekMath |
7B |
- |
120B |
500B |
64.1 |
34.2 |
56.4 |
84.4 |
Rho-Math-7B-v0.1 |
7B |
OWM |
14B |
10.5B |
66.9 |
31.0 |
54.6 |
84.4 |
工具集成推理(代码解释器):
模型 |
参数量 |
微调数据 |
GSM8k |
MATH |
SVAMP |
ASDiv |
MAWPS |
TabMWP |
GSM-Hard |
平均 |
gpt4-early (pal) |
- |
- |
94.2 |
51.8 |
94.8 |
92.6 |
97.7 |
95.9 |
77.6 |
86.4 |
gpt-4-turbo-2024-04-09 (cot) |
- |
- |
- |
73.4 |
- |
- |
- |
- |
- |
|
开源小模型 |
|
|
|
|
|
|
|
|
|
|
MAmmoTH |
70B |
MI-260k |
76.9 |
41.8 |
82.4 |
- |
- |
- |
- |
- |
ToRA |
7B |
ToRA-69k |
68.8 |
40.1 |
68.2 |
73.9 |
88.8 |
42.4 |
54.6 |
62.4 |
ToRA |
70B |
ToRA-69k |
84.3 |
49.7 |
82.7 |
86.8 |
93.8 |
74.0 |
67.2 |
76.9 |
DeepSeekMath |
7B |
ToRA-69k |
79.8 |
52.0 |
80.1 |
87.1 |
93.8 |
85.8 |
63.1 |
77.4 |
Rho-Math-1B-Interpreter-v0.1 |
1B |
ToRA-69k |
59.4 |
40.6 |
60.7 |
74.2 |
88.6 |
26.7 |
48.1 |
56.9 |
Rho-Math-7B-Interpreter-v0.1 |
7B |
ToRA-69k |
81.3 |
51.8 |
80.8 |
85.5 |
94.5 |
70.1 |
63.1 |
75.3 |
🚀 快速开始
评估
git clone git@github.com:microsoft/rho.git
cd rho-1/math-evaluation-harness
基础模型少样本评估:
bash scripts/run_eval.sh cot microsoft/rho-math-7b-v0.1
微调模型(代码解释器)评估:
bash scripts/run_eval.sh tora microsoft/rho-math-7b-interpreter-v0.1
复现结果详见rho-1/outputs.zip
。
☕️ 引用
若使用本成果,请引用:
@misc{lin2024rho1,
title={Rho-1:并非所有标记都是你所需的},
author={林正浩、苟志斌、龚业钧、刘骁、沈业龙、徐若辰、林晨、杨玉久、焦剑、段楠、陈伟柱},
year={2024},
eprint={2404.07965},
archivePrefix={arXiv},
primaryClass={cs.CL}
}