orca_mini_v5_8b_dpo开源文本生成模型 - 基于Llama 3免费生成优质文本

首页

Orca Mini V5 8b Dpo

由 pankajmathur 开发

基于Llama 3架构的8B参数模型，使用多种DPO数据集训练，专注于文本生成任务

大型语言模型

Transformers

英语#指令微调优化 #多任务文本生成 #学术基准测试

下载量 16

发布时间 : 5/30/2024

模型简介

这是一个经过DPO（直接偏好优化）训练的文本生成模型，基于Llama 3架构，参数规模为8B。模型在多个基准测试中表现良好，适合通用文本生成任务。

模型特点

DPO训练

使用多种直接偏好优化(DPO)数据集进行训练，提高了模型的生成质量

通用文本生成

适合各种文本生成任务，包括问答、内容创作等

开放许可

允许用户基于此模型进行进一步微调和合并

模型能力

文本生成

问答系统

内容创作

指令跟随

使用案例

教育

教学问答

用于回答学生提出的各种学术问题

在MMLU-Pro测试中达到23.51%准确率

研究

学术写作辅助

帮助研究人员生成论文草稿或摘要

商业

内容生成

自动生成营销文案或产品描述

🚀 Llama 3 Orca Mini V5 8B DPO模型

Llama 3 Orca Mini V5 8B DPO是一个经过多种DPO数据集训练的模型，可用于文本生成任务，能为用户提供有用的AI辅助服务。

🚀 快速开始

本模型允许用户在提供适当的引用和归属的前提下，将其作为基础模型进行进一步的全量微调、DPO、PPO或ORPO调优以及任何类型的合并操作。鼓励用户根据自身特定需求对模型进行定制和改进。

✨ 主要特性

可作为基础模型进行多种调优操作，如全量微调、DPO、PPO或ORPO调优等。
适用于文本生成任务，以ChatML提示格式进行交互。
设计为综合通用模型，可根据用户需求定制。

📦 安装指南

文档未提及安装步骤，暂无法提供。

💻 使用示例

基础用法

以下是ChatML提示格式：

<|im_start|>system
You are Orca Mini, a helpful AI assistant.<|im_end|>
<|im_start|>user
Hello Orca Mini, what can you do for me?<|im_end|>
<|im_start|>assistant

高级用法

以下展示了如何使用该模型的代码示例：

from transformers import AutoModel, AutoTokenizer
model_slug = "pankajmathur/orca_mini_v5_8b_dpo"
model = AutoModel.from_pretrained(model_slug)
tokenizer = AutoTokenizer.from_pretrained(model_slug)

messages = [
    {"role": "system", "content": "You are Orca Mini, a helpful AI assistant."},
    {"role": "user", "content": "Hello Orca Mini, what can you do for me?"}
]

gen_input = tokenizer.apply_chat_template(messages, return_tensors="pt")
model.generate(**gen_input)

📚 详细文档

评估

指标	值
平均值	67.78
AI2推理挑战（25次少样本）	61.86
HellaSwag（10次少样本）	82.35
MMLU（5次少样本）	65.10
TruthfulQA（0次少样本）	56.24
Winogrande（5次少样本）	73.40
GSM8k（5次少样本）	67.70

Open LLM Leaderboard评估结果

详细结果可查看此处。

指标	值
平均值	19.96
IFEval（0次少样本）	48.96
BBH（3次少样本）	29.61
MATH Lvl 5（4次少样本）	7.48
GPQA（0次少样本）	3.24
MuSR（0次少样本）	6.94
MMLU - PRO（5次少样本）	23.51