E

Eleuther Pythia6.9b Hh Sft

由 lomahony 开发
基于Pythia-6.9b基础模型,使用Anthropic的hh-rlhf数据集进行监督式微调训练的因果语言模型
下载量 58
发布时间 : 8/7/2023
模型介绍
内容详情
替代品

模型简介

这是一个6.9B参数规模的因果语言模型,经过RLHF(人类反馈强化学习)微调,适用于对话生成和文本补全任务

模型特点

RLHF微调
使用Anthropic的hh-rlhf数据集进行监督式微调,提高了模型对人类偏好的对齐能力
大参数规模
6.9B参数规模提供了强大的语言理解和生成能力
开源许可
采用Apache-2.0许可,允许商业和研究用途

模型能力

文本生成
对话生成
文本补全
指令跟随

使用案例

对话系统
智能助手
构建能够理解并响应人类指令的对话助手
经过RLHF微调后能生成更符合人类偏好的回复
内容创作
创意写作辅助
帮助作家进行创意写作和内容生成