E

Eleuther Pythia2.8b Hh Sft

由 lomahony 开发
基于Pythia-2.8b的因果语言模型,使用Anthropic人类偏好数据集进行监督式微调
下载量 205
发布时间 : 8/7/2023
模型介绍
内容详情
替代品

模型简介

这是一个经过人类反馈强化学习(RLHF)微调的大型语言模型,专注于生成符合人类偏好的文本内容

模型特点

人类偏好对齐
通过RLHF微调使模型输出更符合人类价值观和偏好
透明可复现
完整公开训练日志和评估方法,确保研究可复现性
高效训练
仅需1个训练周期即可获得显著效果提升

模型能力

文本生成
对话系统
偏好对齐文本生成
开放域问答

使用案例

对话系统
智能助手
构建符合人类偏好的对话助手
生成更安全、更有帮助的回复
内容生成
安全文本生成
生成符合伦理道德的内容
减少有害或偏见内容的产生