L

Llama 3 8B SFR SFT R

由 Salesforce 开发
基于LLaMA-3-8B的监督微调模型,由Salesforce开发,用于强化学习人类反馈(RLHF)工作流程中的监督微调阶段。
下载量 22
发布时间 : 5/10/2024
模型介绍
内容详情
替代品

模型简介

该模型是Salesforce/SFR-Iterative-DPO-LLaMA-3-8B-R的监督微调版本,主要用于文本生成任务,经过优化以支持强化学习人类反馈(RLHF)工作流程。

模型特点

监督微调优化
针对强化学习人类反馈(RLHF)工作流程进行了专门的监督微调,提升了模型在特定任务上的表现。
迭代式DPO支持
支持迭代式直接偏好优化(DPO),适用于复杂的强化学习人类反馈场景。
多阶段模型发布
提供监督微调模型、奖励模型和强化学习人类反馈模型的完整工作流程支持。

模型能力

文本生成
强化学习人类反馈支持
监督微调优化

使用案例

学术研究
RLHF研究
用于研究强化学习人类反馈(RLHF)工作流程中的监督微调阶段。
提升模型在特定任务上的表现。
文本生成
高质量文本生成
生成高质量的文本内容,适用于多种自然语言处理任务。
生成流畅、连贯的文本。