7B-DPO-alpha开源语言模型 - 免费支持中英文文本生成任务

首页

7B DPO Alpha

由 CausalLM 开发

基于多源数据集训练的7B参数因果语言模型，经过DPO优化，支持中英文文本生成任务

大型语言模型

Transformers

支持多种语言#中英双语生成 #人类偏好优化 #多源数据集

下载量 131

发布时间 : 11/2/2023

模型简介

该模型是一个经过直接偏好优化(DPO)的因果语言模型，专注于文本生成任务。它基于Llama架构，融合了多种高质量数据集进行训练，在MT-Bench基准测试中表现优于同类7B模型。

模型特点

多源数据融合

整合了20+个高质量数据集，包括Guanaco、OpenOrca、UltraChat等，覆盖广泛领域

DPO优化

采用直接偏好优化方法训练，相比基础版本更符合人类偏好

双语支持

同时支持英文和中文文本生成，在中文任务上表现优异

性能优化

MT-Bench评分达7.038，超过同类7B模型平均水平

模型能力

文本生成

对话系统

问答系统

内容创作

使用案例

对话系统

智能客服

用于构建多轮对话客服系统

内容创作

文章生成

根据提示生成连贯的文本内容

教育辅助

学习助手

解答学习问题，提供知识解释

🚀 CausalLM模型项目

本项目的模型基于多数据集训练，在文本生成任务上表现出色，通过DPO训练进行优化，为用户提供了强大的文本生成能力。同时，我们也提醒用户注意模型训练数据的特性以及相关的安全问题。

📚 详细文档

训练数据集

模型训练使用了以下数据集：

JosephusCheung/GuanacoDataset
Open-Orca/OpenOrca
stingning/ultrachat
meta-math/MetaMathQA
liuhaotian/LLaVA-Instruct-150K
jondurbin/airoboros-3.1
WizardLM/WizardLM_evol_instruct_V2_196k
RyokoAI/ShareGPT52K
RyokoAI/Fandom23K
milashkaarshif/MoeGirlPedia_wikitext_raw_archive
wikipedia
wiki_lingua
fnlp/moss-003-sft-data
garage-bAInd/Open-Platypus
LDJnr/Puffin
openbmb/llava_zh
BAAI/COIG
TigerResearch/tigerbot-zhihu-zh-10k
liwu/MNBVC
teknium/openhermes
openbmb/UltraFeedback
lmsys/lmsys-chat-1m

支持语言

模型支持以下语言：

英语
中文

模型类型

模型属于文本生成类型（pipeline_tag: text-generation），涉及的标签有：llama、llama2、qwen、causallm。

模型对比

模型	MT-Bench得分
GPT-4	8.99
GPT-3.5-Turbo	7.94
Zephyr-7b-β (过拟合)	7.34
Zephyr-7b-α	6.88
CausalLM/14B-DPO-α	7.618868
CausalLM/7B-DPO-α	7.038125

模型说明

需要注意的是，此版本并非在 CausalLM/14B & 7B 上继续训练的版本，而是在之前的训练分支上同时进行了DPO训练的优化版本，部分详细参数可能已发生变化。您仍需下载完整模型。

未来计划

很快将会发布beta分支，该分支采用了一些可能不利于某些任务的激进方法，目的是实现更好地符合人类偏好，以接近或超过GPT - 3.5基准。敬请期待。

免责声明

⚠️ 重要提示

请注意，模型是在未经过滤的互联网数据上进行训练的。由于我们无法审核所有数据，可能会出现大量不良内容、色情、暴力和冒犯性语言，我们无法删除这些内容。因此，您仍然需要对模型的安全性进行自己的检查，并对输出中的关键词进行过滤。由于计算资源的限制，我们目前无法为模型的伦理和安全实施RLHF，也无法对拒绝回答某些问题的SFT样本进行训练以进行限制性微调。