许可证:apache-2.0
语言:
- 英语
数据集:
- allenai/RLVR-MATH
基础模型:
- allenai/OLMo-2-0425-1B-RLVR1
管道标签:文本生成
库名称:transformers
OLMo 2 1B Instruct April 2025是基于allenai/OLMo-2-0425-1B-RLVR1模型的后训练变体,该模型在OLMo特定版本的Tulu 3数据集上进行了监督微调,进一步在该数据集上进行了DPO训练,并最终在该数据集上完成了RLVR训练。Tulu 3旨在实现除聊天外多种任务的最先进性能,如MATH、GSM8K和IFEval。更多详情请参阅OLMo 2论文或Tulu 3论文!
OLMo是一系列开放语言模型,旨在推动语言模型科学研究。这些模型基于Dolma数据集训练。我们公开了所有代码、检查点、日志及相关训练细节。
模型描述
- 模型类型: 基于公开、合成及人工创建数据集混合训练的模型。
- 语言(NLP): 主要为英语
- 许可证: Apache 2.0
- 微调来源模型: allenai/OLMo-2-0425-1B-RLVR1
模型来源
- 项目页面: https://allenai.org/olmo
- 代码库:
- 核心库(训练、推理、微调等):https://github.com/allenai/OLMo-core
- 评估代码:https://github.com/allenai/olmes
- 进一步微调代码:https://github.com/allenai/open-instruct
- 论文: https://arxiv.org/abs/2501.00656
- 演示: https://playground.allenai.org/
安装
OLMo 2 1B需要transformers v4.48或更高版本:
pip install transformers>=4.48
若使用vLLM,需从主分支安装直至v0.7.4版本发布。
使用模型
通过HuggingFace加载
使用以下代码片段通过HuggingFace加载模型:
from transformers import AutoModelForCausalLM
olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B-Instruct")
聊天模板
注意:由于配置的微小变化,这与之前的OLMo 2和Tulu 3模型不同。它没有在其余部分之前添加bos标记。我们的其他模型在聊天模板开头有<|endoftext|>。
模型的聊天模板格式如下:
<|user|>
你好吗?
<|assistant|>
我只是一个计算机程序,没有情感,但我运行正常。今天能为您做些什么?<|endoftext|>
或展开换行:
<|user|>
你好吗?
<|assistant|>
我只是一个计算机程序,没有情感,但我运行正常。今天能为您做些什么?<|endoftext|>
该模板也内置于分词器中,可通过tokenizer.apply_chat_template
使用。
中间检查点
为促进RL微调研究,我们发布了模型在RLVR训练期间的中间检查点。模型权重每20个训练步骤保存一次,可通过HuggingFace仓库的修订版本访问。例如:
olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B-Instruct", revision="step_200")
偏见、风险与限制
OLMo-2模型的安全训练有限,且未像ChatGPT那样部署自动响应过滤机制,因此可能产生有问题的输出(尤其在受到诱导时)。
性能
模型 |
平均分 |
AlpacaEval 2 LC |
BBH |
DROP |
GSM8K |
IFEval |
MATH |
MMLU |
安全性 |
PopQA |
TruthQA |
OLMo 1B 0724 |
24.4 |
2.4 |
29.9 |
27.9 |
10.8 |
25.3 |
2.2 |
36.6 |
52.0 |
12.1 |
44.3 |
SmolLM2 1.7B |
34.2 |
5.8 |
39.8 |
30.9 |
45.3 |
51.6 |
20.3 |
34.3 |
52.4 |
16.4 |
45.3 |
Gemma 3 1B |
38.3 |
20.4 |
39.4 |
25.1 |
35.0 |
60.6 |
40.3 |
38.9 |
70.2 |
9.6 |
43.8 |
Llama 3.1 1B |
39.3 |
10.1 |
40.2 |
32.2 |
45.4 |
54.0 |
21.6 |
46.7 |
87.2 |
13.8 |
41.5 |
Qwen 2.5 1.5B |
41.7 |
7.4 |
45.8 |
13.4 |
66.2 |
44.2 |
40.6 |
59.7 |
77.6 |
15.5 |
46.5 |
--- |
|
|
|
|
|
|
|
|
|
|
|
OLMo 2 1B SFT |
36.9 |
2.4 |
32.8 |
33.8 |
52.1 |
50.5 |
13.2 |
36.4 |
93.2 |
12.7 |
42.1 |
OLMo 2 1B DPO |
40.6 |
9.5 |
33.0 |
34.5 |
59.0 |
67.1 |
14.1 |
39.9 |
89.9 |
12.3 |
46.4 |
OLMo 2 1B |
42.7 |
9.1 |
35.0 |
34.6 |
68.3 |
70.1 |
20.7 |
40.0 |
87.6 |
12.9 |
48.7 |
许可证与使用
OLMo 2采用Apache 2.0许可证授权。
OLMo 2仅供研究和教育用途。
更多信息请参阅我们的负责任使用指南。
引用
@article{olmo20242olmo2furious,
title={2 OLMo 2 Furious},
author={OLMo团队及合作者列表},
year={2024},
eprint={2501.00656},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.00656},
}