Mistral-orpo-beta开源语言模型 - 无需预热直接学偏好，免费使用超便捷

首页

Mistral Orpo Beta

由 kaist-ai 开发

Mistral-ORPO-β是基于Mistral-7B使用ORPO方法微调的7B参数语言模型，无需监督微调预热阶段即可直接学习偏好。

大型语言模型

Transformers

英语开源协议:MIT #无监督偏好优化 #高效对话生成 #多任务评估优异

下载量 18

发布时间 : 3/12/2024

模型简介

这是一个通过ORPO方法优化的7B参数语言模型，专注于文本生成任务，在多个基准测试中表现优异。

模型特点

ORPO优化

使用Odds Ratio Preference Optimization方法，无需监督微调预热阶段即可直接学习偏好

高效微调

仅在61k条UltraFeedback数据集实例上进行微调即获得优异性能

多任务表现

在AlpacaEval、MT-Bench等多个基准测试中超越同类模型

模型能力

文本生成

对话系统

问答系统

指令跟随

使用案例

对话系统

智能助手

可用于构建智能对话助手

在AlpacaEval 1.0上达到91.16%胜率

教育应用

教育问答

可用于教育领域的问答系统

在MMLU测试中达到63.26%准确率

🚀 Mistral-ORPO-β (7B)

Mistral-ORPO-β (7B) 是基于 优势比偏好优化 (ORPO) 方法，对 mistralai/Mistral-7B-v0.1 进行微调后的版本。借助 ORPO，模型无需经过有监督微调预热阶段，即可直接学习偏好。Mistral-ORPO-β 仅在由 Argilla 提供的 UltraFeedback 清理版本的 61k 个实例 argilla/ultrafeedback-binarized-preferences-cleaned 上进行微调。

Github 仓库：https://github.com/xfactlab/orpo

✨ 主要特性

基于优势比偏好优化（ORPO）方法微调，无需监督微调预热阶段，可直接学习偏好。
仅在 UltraFeedback 清理版本的特定实例上进行微调。

📚 详细文档

👍 模型性能

1) AlpacaEval & MT-Bench

模型名称	规模	对齐方式	MT-Bench	AlpacaEval 1.0	AlpacaEval 2.0
Mistral-`ORPO`-⍺	7B	`ORPO`	7.23	87.92	11.33
Mistral-`ORPO`-β	7B	`ORPO`	7.32	91.41	12.20
Zephyr β	7B	DPO	7.34	90.60	10.99
TULU-2-DPO	13B	DPO	7.00	89.5	10.12
Llama-2-Chat	7B	RLHF	6.27	71.37	4.96
Llama-2-Chat	13B	RLHF	6.65	81.09	7.70

2) IFEval

模型类型	严格提示	宽松提示	严格指令	宽松指令
Mistral-ORPO-⍺	0.5009	0.5083	0.5995	0.6163
Mistral-ORPO-β	0.5287	0.5564	0.6355	0.6619

🗺️ MT-Bench 分类情况

image/png

模型指标详情

任务类型	数据集名称	指标类型	指标名称	值	来源
文本生成	AI2 Reasoning Challenge (25-Shot)	acc_norm	归一化准确率	61.18	Open LLM Leaderboard
文本生成	HellaSwag (10-shot)	acc_norm	归一化准确率	84.03	Open LLM Leaderboard
文本生成	TruthfulQA (0-shot)	mc2	-	47.69	Open LLM Leaderboard
文本生成	GSM8k (5-shot)	acc	准确率	39.8	Open LLM Leaderboard
文本生成	MMLU (5-Shot)	acc	准确率	63.26	Open LLM Leaderboard
文本生成	Winogrande (5-shot)	acc	准确率	79.24	Open LLM Leaderboard
文本生成	AlpacaEval 1	AlpacaEval 1.0	胜率	91.16%	Leaderboard
文本生成	AlpacaEval 2	AlpacaEval 2.0	胜率	12.57%	Leaderboard
文本生成	MT-Bench	MT-Bench	分数	7.322	self-reported

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("kaist-ai/mistral-orpo-beta")
tokenizer = AutoTokenizer.from_pretrained("kaist-ai/mistral-orpo-beta")

# Apply chat template
query = [{'role': 'user', 'content': 'Hi! How are you doing?'}]
prompt = tokenizer.apply_chat_template(query, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(prompt, return_tensors='pt')

# Generation with specific configurations
output = model.generate(
  **inputs,
  max_new_tokens=128,
  do_sample=True,
  temperature=0.7
)
response = tokenizer.batch_decode(output)

#<|user|>
#Hi! How are you doing?</s>
#<|assistant|>
#I'm doing well, thank you! How are you?</s>

📎 引用

@misc{hong2024orpo,
      title={ORPO: Monolithic Preference Optimization without Reference Model}, 
      author={Jiwoo Hong and Noah Lee and James Thorne},
      year={2024},
      eprint={2403.07691},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}