license: llama3
Llama-3-8B-SFR-Iterative-DPO-R
简介
我们发布了同类中最先进的指令模型——Llama-3-8B-SFR-Iterative-DPO-R。在三大广泛使用的指令模型基准测试(Alpaca-Eval-V2、MT-Bench、Chat-Arena-Hard)中,本模型性能超越所有同规模模型(如LLaMA-3-8B-it)、多数大型开源模型(如Mixtral-8x7B-it)以及强大的专有模型(如GPT-3.5-turbo-0613)。该模型仅使用开源数据集训练,未引入任何人/GPT4标注数据。
模型发布
训练方法
我们开发了一套高效简洁的在线RLHF训练方案。该方案基于DPO算法,相比PPO方法训练成本更低且更易调优。与主流离线DPO不同,我们的在线机制能有效缓解策略优化过程中的分布偏移问题。技术细节请参阅附带的报告。
对话基准测试
模型 |
参数量 |
训练方法 |
LC Alpaca-Eval-V2 |
MT-Bench |
Chat-Arena-Hard |
小型开源模型 |
|
|
|
|
|
Gemma-7B-it |
7B |
SFT |
10.4 |
6.38 |
7.5 |
Zephyr-7B-beta |
7B |
标准DPO |
13.1 |
7.34 |
- |
Mistral-7B-v0.2-it |
7B |
SFT |
17.1 |
7.51 |
12.6 |
Open-Chat-0106 |
7B |
SFT |
15.6 |
7.8 |
- |
Starling-7B-beta |
7B |
PPO |
25.8 |
8.12 |
23.0 |
LLaMA-3-8B-it |
8B |
RS+DPO+PPO |
22.9 |
8.16 |
20.6 |
本系列模型 |
|
|
|
|
|
本模型(SFT基线) |
8B |
SFT |
10.2 |
7.69 |
5.6 |
本模型(DPO基线) |
8B |
标准DPO |
22.5 |
8.17 |
22.4 |
本模型(在线RLHF) |
8B |
迭代DPO |
31.3 |
8.46 |
29.1 |
大型开源模型 |
|
|
|
|
|
Vicuna-33b-v1.3 |
33B |
SFT |
17.6 |
7.12 |
8.6 |
Yi-34B-Chat |
34B |
SFT |
27.2 |
- |
23.1 |
Mixtral-8x7B-it |
45B* |
SFT |
23.7 |
8.30 |
23.4 |
Tulu-2-DPO-70B |
70B |
标准DPO |
21.2 |
7.89 |
15.0 |
LLaMA-3-70B-it |
70B |
RS+DPO+PPO |
34.4 |
8.95 |
41.1 |
Mixtral-8x22B-it |
141B* |
SFT |
30.9 |
8.66 |
36.4 |
商业模型 |
|
|
|
|
|
GPT-3.5-turbo-1106 |
- |
- |
19.3 |
8.35 |
18.9 |
GPT-3.5-turbo-0613 |
- |
- |
22.7 |
8.39 |
24.8 |
GPT-4-0613 |
- |
- |
30.2 |
9.18 |
37.9 |
Claude-3-Opus |
- |
- |
40.5 |
9.00 |
60.4 |
GPT-4 Turbo (04/09) |
- |
- |
55.0 |
- |
82.6 |
学术基准测试
模型 |
参数量 |
训练方法 |
GSM-8K |
MMLU |
HumanEval |
TruthfulQA |
ARC |
MBPP |
LLaMA-3-8B-it |
8B |
RS+DPO+PPO |
79.6 |
66.0 |
61.6 |
43.9 |
59.5 |
61.1 |
本模型(SFT基线) |
8B |
SFT |
74.2 |
64.7 |
65.2 |
53.4 |
61.4 |
62.3 |
本模型(DPO基线) |
8B |
标准DPO |
79.8 |
64.5 |
63.4 |
61.8 |
65.2 |
60.3 |
本模型(迭代RLHF) |
8B |
迭代DPO |
80.7 |
65.3 |
64.6 |
60.4 |
64.3 |
60.8 |
使用示例
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
tokenizer = AutoTokenizer.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
messages = [
{"role": "user", "content": "我正在自学改善书法,你能提供建议吗?"},
]
model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt")
model_inputs = model_inputs.to(device)
model.to(device)
output_tokens = model.generate(model_inputs, max_new_tokens=1024, do_sample=True)
model_outputs = tokenizer.batch_decode(output_tokens)
print(model_outputs[0])
局限性
Llama-3-8B-SFR-Iterative-DPO-R是Salesforce RLHF计划的研究成果。虽然安全与伦理考量已融入对齐流程,但在对抗条件下仍可能生成不当内容。我们将持续改进模型以降低风险,并倡导负责任地使用。
引用
若使用本模型,请引用以下论文:
@misc{dong2024rlhf,
title={RLHF全流程:从奖励建模到在线强化学习},
author={董翰泽* 和 熊伟* 等},
year={2024},
eprint={2405.07863},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
@misc{xiong2024iterative,
title={基于KL约束的迭代式人类反馈偏好学习:RLHF理论与实践的桥梁},
author={熊伟 和 董翰泽 等},
year={2024},
eprint={2312.11456},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
伦理声明
本版本仅供支持学术论文研究使用。我们的模型、数据集和代码并非为所有下游场景设计或评估。强烈建议用户在部署前评估准确性、安全性和公平性风险。对于可能显著影响人身权利的高风险场景,请遵守法律法规并参考我们的使用政策与AI使用准则。