🚀 Mistral-ORPO-β (7B)
Mistral-ORPO-β (7B) 是基于 优势比偏好优化 (ORPO) 方法,对 mistralai/Mistral-7B-v0.1 进行微调后的版本。借助 ORPO,模型无需经过有监督微调预热阶段,即可直接学习偏好。Mistral-ORPO-β 仅在由 Argilla 提供的 UltraFeedback 清理版本的 61k 个实例 argilla/ultrafeedback-binarized-preferences-cleaned 上进行微调。
- Github 仓库:https://github.com/xfactlab/orpo
✨ 主要特性
- 基于优势比偏好优化(ORPO)方法微调,无需监督微调预热阶段,可直接学习偏好。
- 仅在 UltraFeedback 清理版本的特定实例上进行微调。
📚 详细文档
👍 模型性能
1) AlpacaEval & MT-Bench
模型名称 |
规模 |
对齐方式 |
MT-Bench |
AlpacaEval 1.0 |
AlpacaEval 2.0 |
Mistral-ORPO-⍺ |
7B |
ORPO |
7.23 |
87.92 |
11.33 |
Mistral-ORPO-β |
7B |
ORPO |
7.32 |
91.41 |
12.20 |
Zephyr β |
7B |
DPO |
7.34 |
90.60 |
10.99 |
TULU-2-DPO |
13B |
DPO |
7.00 |
89.5 |
10.12 |
Llama-2-Chat |
7B |
RLHF |
6.27 |
71.37 |
4.96 |
Llama-2-Chat |
13B |
RLHF |
6.65 |
81.09 |
7.70 |
2) IFEval
模型类型 |
严格提示 |
宽松提示 |
严格指令 |
宽松指令 |
Mistral-ORPO-⍺ |
0.5009 |
0.5083 |
0.5995 |
0.6163 |
Mistral-ORPO-β |
0.5287 |
0.5564 |
0.6355 |
0.6619 |
🗺️ MT-Bench 分类情况

模型指标详情
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("kaist-ai/mistral-orpo-beta")
tokenizer = AutoTokenizer.from_pretrained("kaist-ai/mistral-orpo-beta")
query = [{'role': 'user', 'content': 'Hi! How are you doing?'}]
prompt = tokenizer.apply_chat_template(query, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(prompt, return_tensors='pt')
output = model.generate(
**inputs,
max_new_tokens=128,
do_sample=True,
temperature=0.7
)
response = tokenizer.batch_decode(output)
📎 引用
@misc{hong2024orpo,
title={ORPO: Monolithic Preference Optimization without Reference Model},
author={Jiwoo Hong and Noah Lee and James Thorne},
year={2024},
eprint={2403.07691},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 许可证
本项目采用 MIT 许可证。