license: llama3.1
language:
- en
pipeline_tag: text-generation
datasets:
- allenai/RLVR-GSM-MATH-IF-Mixed-Constraints
base_model:
- allenai/Llama-3.1-Tulu-3-8B-DPO
library_name: transformers
Llama-3.1-Tulu-3.1-8B
Tülu 3 是领先的指令跟随模型家族,提供完全开源的数据、代码和训练方案作为现代技术的综合指南。这是我们训练完全开源模型(如 OLMo)的更大流程中的一步。Tülu 3 设计用于在聊天之外的多样化任务(如数学、GSM8K 和 IFEval)上实现最先进的性能。
3.1 版本更新:新版本的 Tülu 模型仅在训练的最终强化学习阶段进行了改进。我们从 PPO 切换到 GRPO(无奖励模型),并进一步调整超参数,使性能在原始 Tülu 3 8B 模型基础上全面提升,如下表所示:

模型描述
- 模型类型:基于公开可用、合成和人工创建的数据集混合训练的模型。
- 语言(NLP):主要为英语
- 许可证:Llama 3.1 社区许可协议
- 微调自模型:allenai/Llama-3.1-Tulu-3-8B-DPO
模型来源
- 训练仓库:https://github.com/allenai/open-instruct
- 评估仓库:https://github.com/allenai/olmes
- 论文:https://arxiv.org/abs/2411.15124
- 演示:https://playground.allenai.org/
模型家族
使用模型
通过 HuggingFace 加载
使用以下代码片段通过 HuggingFace 加载模型:
from transformers import AutoModelForCausalLM
tulu_model = AutoModelForCausalLM.from_pretrained("allenai/Llama-3.1-Tulu-3.1-8B")
VLLM
作为基于 Llama 的模型,可以轻松使用以下命令启动服务:
vllm serve allenai/Llama-3.1-Tulu-3.1-8B
注意,由于 Llama 的聊天模板较长,可能需要使用 --max_model_len=8192
。
聊天模板
我们的模型聊天模板格式如下:
<|user|>\nHow are you doing?\n<|assistant|>\nI'm just a computer program, so I don't have feelings, but I'm functioning as expected. How can I assist you today?<|endoftext|>
或展开为多行:
<|user|>
How are you doing?
<|assistant|>
I'm just a computer program, so I don't have feelings, but I'm functioning as expected. How can I assist you today?<|endoftext|>
该模板已嵌入分词器中,可通过 tokenizer.apply_chat_template
使用。
系统提示
在 Ai2 演示中,我们默认使用以下系统提示:
You are Tulu 3, a helpful and harmless AI Assistant built by the Allen Institute for AI.
模型并未针对特定系统提示进行训练。
偏见、风险和限制
Tülu3 模型的安全训练有限,且未像 ChatGPT 那样自动部署响应过滤机制,因此在特定提示下可能产生问题输出。基础 Llama 3.1 模型的训练数据规模和组成未知,但可能包含网络数据和技术来源(如书籍和代码)。类似情况可参考 Falcon 180B 模型卡片。
性能
基准测试(评估) |
Tülu 3 SFT 8B |
Tülu 3 DPO 8B |
Tülu 3 8B |
Tülu 3.1 8B(新版) |
Llama 3.1 8B Instruct |
Qwen 2.5 7B Instruct |
Magpie 8B |
Gemma 2 9B Instruct |
Ministral 8B Instruct |
平均分 |
60.4 |
64.4 |
64.8 |
66.3 |
62.2 |
66.5 |
44.7 |
55.2 |
58.3 |
MMLU(0-shot,思维链) |
65.9 |
68.7 |
68.2 |
69.5 |
71.2 |
76.6 |
62.0 |
74.6 |
68.5 |
PopQA(15-shot) |
29.3 |
29.3 |
29.1 |
30.2 |
20.2 |
18.1 |
22.5 |
28.3 |
20.2 |
TruthfulQA(6-shot) |
46.8 |
56.1 |
55.0 |
59.9 |
55.1 |
63.1 |
57.0 |
61.4 |
55.5 |
BigBenchHard(3-shot,思维链) |
67.9 |
65.8 |
66.0 |
68.9 |
62.8 |
70.2 |
0.9 |
2.5 |
56.2 |
DROP(3-shot) |
61.3 |
62.5 |
62.6 |
63.9 |
61.5 |
54.4 |
49.4 |
58.8 |
56.2 |
MATH(4-shot 思维链,Flex) |
31.5 |
42.0 |
43.7 |
47.8 |
42.5 |
69.9 |
5.1 |
29.8 |
40.0 |
GSM8K(8-shot,思维链) |
76.2 |
84.3 |
87.6 |
90.0 |
83.4 |
83.8 |
61.2 |
79.7 |
80.0 |
HumanEval(pass@10) |
86.2 |
83.9 |
83.9 |
84.8 |
86.3 |
93.1 |
75.4 |
71.7 |
91.0 |
HumanEval+(pass@10) |
81.4 |
78.6 |
79.2 |
80.4 |
82.9 |
89.7 |
69.1 |
67.0 |
88.5 |
IFEval(宽松提示) |
72.8 |
81.1 |
82.4 |
83.9 |
80.6 |
74.7 |
38.8 |
69.9 |
56.4 |
AlpacaEval 2(LC % 胜率) |
12.4 |
33.5 |
34.5 |
34.9 |
24.2 |
29.0 |
49.0 |
43.7 |
31.4 |
安全性(6任务平均) |
93.1 |
87.2 |
85.5 |
81.2 |
75.2 |
75.0 |
46.4 |
75.5 |
56.2 |
注意:请参阅论文更新版本以获取最新评估结果,这些结果提高了 Qwen 2.5 Instruct 等模型的分数。
基准测试(评估) |
Tülu 3 70B SFT |
Tülu 3 DPO 70B |
Tülu 3 70B |
Llama 3.1 70B Instruct |
Qwen 2.5 72B Instruct |
Hermes 3 Llama 3.1 70B |
Nemotron Llama 3.1 70B |
平均分 |
72.6 |
75.9 |
76.0 |
73.4 |
71.5 |
68.3 |
65.5 |
MMLU(0-shot,思维链) |
78.9 |
83.3 |
83.1 |
85.3 |
85.5 |
80.4 |
83.8 |
PopQA(15-shot) |
48.6 |
46.3 |
46.5 |
46.4 |
30.6 |
48.1 |
36.4 |
TruthfulQA(6-shot) |
55.7 |
67.9 |
|
|
|
|
|