D

Dpopenhermes 7B V2

由 openaccess-ai-collective 开发
DPOpenHermes 7B v2是基于OpenHermes-2.5-Mistral-7B的第二次RL微调模型,通过直接偏好优化(DPO)进行强化学习,使用了Intel/orca_dpo_pairs和allenai/ultrafeedba
下载量 30
发布时间 : 12/6/2023
模型介绍
内容详情
替代品

模型简介

这是一个经过RL微调的大语言模型,主要用于文本生成任务,特别擅长多轮对话和指令跟随。

模型特点

直接偏好优化
使用DPO方法进行强化学习微调,提高了模型对高质量响应的偏好
ChatML提示格式
支持ChatML格式的多轮对话,提供更结构化的对话系统
系统提示支持
能够有效利用系统指令在多轮对话中执行任务

模型能力

多轮对话
指令跟随
文本生成

使用案例

对话系统
智能助手
可作为智能助手进行多轮对话
能够理解并执行复杂的用户指令
教育
学习辅助
帮助学生解答问题和提供学习指导