14B-DPO-alpha开源语言模型 - 免费支持中英文本生成，MT-Bench评测表现佳

首页

14B DPO Alpha

由 CausalLM 开发

CausalLM/14B-DPO-α是一个基于因果语言模型的大规模语言模型，支持中英文文本生成任务，在MT-Bench评测中表现优异。

大型语言模型

Transformers

支持多种语言#多语言文本生成 #指令微调优化 #中文问答领先

下载量 172

发布时间 : 11/2/2023

模型简介

该模型是一个14B参数规模的因果语言模型，采用DPO（Direct Preference Optimization）优化方法训练，专注于高质量的文本生成任务。

模型特点

高性能文本生成

在MT-Bench评测中获得7.618868分，超越同规模其他模型

多语言支持

支持中英文文本生成任务

DPO优化

采用Direct Preference Optimization方法训练，提升生成质量

大规模训练数据

基于20+个高质量数据集训练，包括Guanaco、OpenOrca、Ultrachat等

模型能力

文本生成

对话系统

问答系统

内容创作

使用案例

对话系统

智能客服

用于构建多语言智能客服系统

能够提供流畅、准确的客服对话体验

内容创作

文章生成

辅助内容创作者生成高质量文章

生成内容流畅、逻辑清晰

教育

学习助手

作为学生学习辅助工具回答问题

提供准确的知识解答

🚀 CausalLM模型项目

本项目的模型在相关评测中表现出色，同时使用了多种数据集进行训练。不过需注意模型训练数据来源未经过滤，可能存在不良内容。

🚀 快速开始

若想了解更多详情，请参见未经DPO训练的版本：CausalLM/14B。

📚 详细文档

训练数据集

本模型使用了以下数据集进行训练：

JosephusCheung/GuanacoDataset
Open-Orca/OpenOrca
stingning/ultrachat
meta-math/MetaMathQA
liuhaotian/LLaVA-Instruct-150K
jondurbin/airoboros-3.1
WizardLM/WizardLM_evol_instruct_V2_196k
RyokoAI/ShareGPT52K
RyokoAI/Fandom23K
milashkaarshif/MoeGirlPedia_wikitext_raw_archive
wikipedia
wiki_lingua
fnlp/moss-003-sft-data
garage-bAInd/Open-Platypus
LDJnr/Puffin
openbmb/llava_zh
BAAI/COIG
TigerResearch/tigerbot-zhihu-zh-10k
liwu/MNBVC
teknium/openhermes
openbmb/UltraFeedback
lmsys/lmsys-chat-1m

模型评测对比

模型	MT-Bench得分
GPT-4	8.99
GPT-3.5-Turbo	7.94
Zephyr-7b-β (过拟合)	7.34
Zephyr-7b-α	6.88
CausalLM/14B-DPO-α	7.618868
CausalLM/7B-DPO-α	7.038125

在2023年12月3日的评测中，该模型在🤗 Open LLM Leaderboard上同规模非基础模型中排名第1，超越了所有约13B的聊天模型。

模型评测对比图

模型版本说明

需要注意的是，这并不是在 CausalLM/14B & 7B 上继续训练的版本，而是在之前的训练分支上同时进行了 DPO 训练的优化版本，一些细节参数可能发生了变化。您仍然需要下载完整模型。

后续版本计划

很快将会发布beta分支，采用了一些可能不利于某些任务的激进方法，以实现更好地符合人类偏好以接近和超过GPT-3.5基准。敬请期待。

免责声明

请注意，模型是在未经过滤的互联网数据上进行训练的。由于我们无法审核所有数据，可能会出现大量不良内容、色情、暴力和冒犯性语言，我们无法删除这些内容。因此，您仍然需要对模型的安全性进行自己的检查，并对输出中的关键词进行过滤。由于计算资源的限制，我们目前无法为模型的伦理和安全实施RLHF，也无法对拒绝回答某些问题的SFT样本进行训练以进行限制性微调。