7

7B DPO Alpha

由 CausalLM 开发
基于多源数据集训练的7B参数因果语言模型,经过DPO优化,支持中英文文本生成任务
下载量 131
发布时间 : 11/2/2023
模型介绍
内容详情
替代品

模型简介

该模型是一个经过直接偏好优化(DPO)的因果语言模型,专注于文本生成任务。它基于Llama架构,融合了多种高质量数据集进行训练,在MT-Bench基准测试中表现优于同类7B模型。

模型特点

多源数据融合
整合了20+个高质量数据集,包括Guanaco、OpenOrca、UltraChat等,覆盖广泛领域
DPO优化
采用直接偏好优化方法训练,相比基础版本更符合人类偏好
双语支持
同时支持英文和中文文本生成,在中文任务上表现优异
性能优化
MT-Bench评分达7.038,超过同类7B模型平均水平

模型能力

文本生成
对话系统
问答系统
内容创作

使用案例

对话系统
智能客服
用于构建多轮对话客服系统
内容创作
文章生成
根据提示生成连贯的文本内容
教育辅助
学习助手
解答学习问题,提供知识解释