T

Tulu 2 Dpo 7b

由 allenai 开发
Tulu V2 DPO 7B是基于Llama 2 7B微调的语言模型,采用直接偏好优化(DPO)方法训练,旨在作为通用助手。
下载量 1,702
发布时间 : 11/13/2023
模型介绍
内容详情
替代品

模型简介

该模型是基于Llama 2 7B的指令微调版本,使用了公开可用、合成及人类数据集进行训练,特别采用DPO方法进行偏好优化,是Llama 2 7B Chat的有力替代品。

模型特点

直接偏好优化(DPO)
采用DPO方法进行训练,相比传统RLHF能更高效地进行偏好对齐
多样化训练数据
使用公开可用、合成及人类创建的数据集混合训练,包括UltraFeedback和Tulu V2 SFT混合数据集
高性能替代方案
相比基础Llama 2 7B Chat模型,在多项基准测试中表现更优

模型能力

自然语言理解
指令跟随
对话生成
文本补全

使用案例

对话系统
智能助手
可作为个人或企业智能助手,处理各种查询和任务
在AlpacaEval基准测试中达到85.1%的胜率
内容生成
创意写作
辅助进行故事创作、诗歌写作等创意文本生成