L

Llama 3 8B SFR Iterative DPO R

由 Salesforce 开发
基于Llama-3-8B的指令优化模型,采用迭代式DPO强化学习训练,在多项基准测试中超越同规模及部分大型模型
下载量 55
发布时间 : 5/9/2024
模型介绍
内容详情
替代品

模型简介

一个经过强化学习优化的开源指令模型,专注于提升对话质量和任务完成能力,适用于各类自然语言处理任务

模型特点

迭代式DPO训练
采用创新的在线RLHF训练方案,相比传统PPO方法更高效且易于调优
卓越性能
在Alpaca-Eval-V2、MT-Bench等基准测试中超越GPT-3.5-turbo等商业模型
纯开源数据训练
完全使用开源数据集训练,未引入任何人/GPT4标注数据

模型能力

自然语言理解
指令跟随
多轮对话
文本生成
问题解答

使用案例

智能助手
个性化学习助手
如书法学习建议等个性化指导
能提供结构化、实用的学习建议
客服系统
自动化客服
处理常见客户咨询
高效准确的响应能力