许可证:Apache-2.0
语言:
- 英语
数据集:
- allenai/tulu-3-sft-olmo-2-mixture-0225
基础模型:
- allenai/OLMo-2-0425-1B
管道标签:文本生成
库名称:transformers
OLMo 2 1B SFT 2025年4月版是基于allenai/OLMo-2-0425-1B模型的后训练变体,该模型在Tulu 3数据集的OLMo专用版本上进行了监督微调。
Tulu 3旨在实现除聊天外多种任务的最先进性能,如MATH、GSM8K和IFEval等。
更多详情请参阅OLMo 2论文或Tulu 3论文!
OLMo是一系列开放语言模型(Open Language Models),旨在推动语言模型科学研究。
这些模型基于Dolma数据集训练。我们公开了所有代码、检查点、日志及相关训练细节。
模型描述
- 模型类型:基于公开、合成及人工创建数据混合训练的模型。
- 语言(NLP):主要为英语
- 许可证:Apache 2.0
- 微调基础模型:allenai/OLMo-2-0425-1B
模型来源
- 项目主页:https://allenai.org/olmo
- 代码库:
- 核心库(训练、推理、微调等):https://github.com/allenai/OLMo-core
- 评估代码:https://github.com/allenai/olmes
- 进阶微调代码:https://github.com/allenai/open-instruct
- 论文:https://arxiv.org/abs/2501.00656
- 演示:https://playground.allenai.org/
安装
OLMo 2 1B需transformers v4.48或更高版本支持:
pip install transformers>=4.48
若使用vLLM,需从主分支安装直至v0.7.4版本发布。
使用模型
通过HuggingFace加载
使用以下代码片段加载模型:
from transformers import AutoModelForCausalLM
olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B-SFT")
对话模板
注意:由于配置微调,此模板与早期OLMo 2和Tulu 3模型不同。模板开头不含bos标记。其他模型在对话模板起始处包含<|endoftext|>。
对话模板格式如下:
<|user|>
你好吗?
<|assistant|>
我只是个计算机程序,没有情感,但运行正常。今天能帮您什么?<|endoftext|>
或展开换行版:
<|user|>
你好吗?
<|assistant|>
我只是个计算机程序,没有情感,但运行正常。今天能帮您什么?<|endoftext|>
该模板已嵌入分词器,可通过tokenizer.apply_chat_template
调用。
中间检查点
为促进RL微调研究,我们发布了模型RLVR训练过程中的中间检查点。
模型权重每20个训练步骤保存一次,可通过HuggingFace仓库的修订版本访问。例如:
olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B-SFT", revision="step_200")
偏差、风险与限制
OLMo-2模型的安全训练有限,且未像ChatGPT那样部署自动响应过滤机制,因此可能生成有问题的输出(尤其在受诱导时)。
可参考Falcon 180B模型卡片了解此类示例。
性能
模型 |
平均分 |
AlpacaEval 2 LC |
BBH |
DROP |
GSM8K |
IFEval |
MATH |
MMLU |
安全性 |
PopQA |
TruthQA |
OLMo 1B 0724 |
24.4 |
2.4 |
29.9 |
27.9 |
10.8 |
25.3 |
2.2 |
36.6 |
52.0 |
12.1 |
44.3 |
SmolLM2 1.7B |
34.2 |
5.8 |
39.8 |
30.9 |
45.3 |
51.6 |
20.3 |
34.3 |
52.4 |
16.4 |
45.3 |
Gemma 3 1B |
38.3 |
20.4 |
39.4 |
25.1 |
35.0 |
60.6 |
40.3 |
38.9 |
70.2 |
9.6 |
43.8 |
Llama 3.1 1B |
39.3 |
10.1 |
40.2 |
32.2 |
45.4 |
54.0 |
21.6 |
46.7 |
87.2 |
13.8 |
41.5 |
Qwen 2.5 1.5B |
41.7 |
7.4 |
45.8 |
13.4 |
66.2 |
44.2 |
40.6 |
59.7 |
77.6 |
15.5 |
46.5 |
--- |
|
|
|
|
|
|
|
|
|
|
|
OLMo 2 1B SFT |
36.9 |
2.4 |
32.8 |
33.8 |
52.1 |
50.5 |
13.2 |
36.4 |
93.2 |
12.7 |
42.1 |
OLMo 2 1B DPO |
40.6 |
9.5 |
33.0 |
34.5 |
59.0 |
67.1 |
14.1 |
39.9 |
89.9 |
12.3 |
46.4 |
OLMo 2 1B |
42.7 |
9.1 |
35.0 |
34.6 |
68.3 |
70.1 |
20.7 |
40.0 |
87.6 |
12.9 |
48.7 |
许可与使用
OLMo 2采用Apache 2.0许可证。
OLMo 2仅供研究与教育用途。
更多信息请参阅《负责任使用指南》。
引用
@article{olmo20242olmo2furious,
title={2 OLMo 2 Furious},
author={Team OLMo and Pete Walsh and Luca Soldaini and Dirk Groeneveld and Kyle Lo and Shane Arora and Akshita Bhagia and Yuling Gu and Shengyi Huang and Matt Jordan and Nathan Lambert and Dustin Schwenk and Oyvind Tafjord and Taira Anderson and David Atkinson and Faeze Brahman and Christopher Clark and Pradeep Dasigi and Nouha Dziri and Michal Guerquin and Hamish Ivison and Pang Wei Koh and Jiacheng Liu and Saumya Malik and William Merrill and Lester James V. Miranda and Jacob Morrison and Tyler Murray and Crystal Nam and Valentina Pyatkin and Aman Rangapur and Michael Schmitz and Sam Skjonsberg and David Wadden and Christopher Wilhelm and Michael Wilson and Luke Zettlemoyer and Ali Farhadi and Noah A. Smith and Hannaneh Hajishirzi},
year={2024},
eprint={2501.00656},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.00656},
}