t5-large-lm-adapt开源文本生成模型 - 经额外训练提升提示调优能力

首页

T5 Large Lm Adapt

由 google 开发

T5版本1.1的LM适配版是基于T5架构改进的文本生成模型，通过语言建模目标额外训练，提升了提示调优能力。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #文本到文本转换 #GEGLU激活函数 #无监督预训练

下载量 501

发布时间 : 3/2/2022

模型简介

该模型是T5版本1.1的改进版，专门针对语言建模目标进行适配训练，适用于多种文本生成和理解任务。

模型特点

GEGLU激活函数

在feed-forward隐藏层中使用GEGLU激活函数替代ReLU，提升模型性能。

无Dropout预训练

预训练阶段关闭Dropout以提高质量，微调时需重新启用。

纯C4数据集预训练

仅在C4数据集上预训练，未混合下游任务数据，保持训练数据纯净。

参数分离

嵌入层与分类器层之间无参数共享，增强模型灵活性。

改进的模型结构

采用更大的`d_model`和更小的`num_heads`与`d_ff`，优化模型性能。

模型能力

文本生成

文本理解

问答系统

摘要生成

文本分类

使用案例

自然语言处理

提示调优

通过语言建模目标的额外训练，模型在提示调优任务中表现更优。

提升提示调优效果

文本生成

适用于生成连贯、上下文相关的文本。

生成高质量文本

问答系统

可用于构建问答系统，回答基于文本的问题。

准确回答用户问题

🚀 [Google的T5版本1.1 - LM适配版]

Google的T5版本1.1 - LM适配版是在原T5模型基础上进行改进的版本，在预训练和模型结构上有诸多优化，能更好地用于提示调优等自然语言处理任务。

🚀 快速开始

此部分将为你快速介绍Google的T5版本1.1 - LM适配版的相关信息。

✨ 主要特性

与原T5模型相比的改进

T5版本1.1 - LM适配版相较于原 T5模型有以下改进：
- 前馈隐藏层使用GEGLU激活函数，而非ReLU - 详见此处。
- 预训练时关闭了Dropout（提升了质量）。微调时应重新启用Dropout。
- 仅在C4上进行预训练，不混合下游任务。
- 嵌入层和分类器层之间不共享参数。
- “xl”和“xxl”取代了“3B”和“11B”。模型形状略有不同 - 更大的 d_model，更小的 num_heads 和 d_ff。

预训练目标

该模型在去噪和语言建模目标上进行了预训练。具体而言，此检查点从 T5版本1.1 - 大模型初始化，然后在 T5论文中讨论的语言建模目标上额外训练100K步。这种适配改进了模型用于提示调优的能力。

流行的微调版本

T5版本1.1 - LM适配版 模型的一个流行微调版本是 BigScience的T0pp。

📚 详细文档

预训练数据集

其他社区检查点

此处

论文

使用统一的文本到文本变换器探索迁移学习的极限

作者

Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

摘要

迁移学习是一种强大的自然语言处理（NLP）技术，即模型先在数据丰富的任务上进行预训练，然后在下游任务上进行微调。迁移学习的有效性催生了多种方法、方法论和实践。在本文中，我们通过引入一个统一的框架，将每个语言问题转换为文本到文本的格式，探索了NLP迁移学习技术的领域。我们的系统研究在数十个语言理解任务上比较了预训练目标、架构、无标签数据集、迁移方法和其他因素。通过将我们的探索见解与规模以及我们新的“巨大干净爬取语料库”相结合，我们在许多涵盖摘要、问答、文本分类等的基准测试中取得了最先进的结果。为了促进未来NLP迁移学习的工作，我们发布了我们的数据集、预训练模型和代码。

模型图片