eleuther - pythia2.8b - hh - sft开源模型 - 微调因果语言模型实现智能问答

首页

Eleuther Pythia2.8b Hh Sft

由 lomahony 开发

基于Pythia-2.8b的因果语言模型，使用Anthropic人类偏好数据集进行监督式微调

大型语言模型

Transformers

英语开源协议:Apache-2.0 #人类偏好对齐 #RLHF微调 #对话优化

下载量 205

发布时间 : 8/7/2023

模型简介

这是一个经过人类反馈强化学习(RLHF)微调的大型语言模型，专注于生成符合人类偏好的文本内容

模型特点

人类偏好对齐

通过RLHF微调使模型输出更符合人类价值观和偏好

透明可复现

完整公开训练日志和评估方法，确保研究可复现性

高效训练

仅需1个训练周期即可获得显著效果提升

模型能力

文本生成

对话系统

偏好对齐文本生成

开放域问答

使用案例

对话系统

智能助手

构建符合人类偏好的对话助手

生成更安全、更有帮助的回复

内容生成

安全文本生成

生成符合伦理道德的内容

减少有害或偏见内容的产生

属性	详情
模型类型	Pythia-2.8b 微调模型
训练数据	Anthropic/hh-rlhf 数据集

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Eleuther Pythia2.8b Hh Sft

模型简介

模型特点

模型能力

使用案例

🚀 Pythia-2.8b 模型微调项目

🚀 快速开始

📄 许可证

📦 模型信息