T5-Efficient-SMALL-KV256开源模型 - 优化下游任务性能，免费微调使用

首页

T5 Efficient Small Kv256

由 google 开发

T5-Efficient-SMALL-KV256是谷歌T5的变体，采用深度窄型架构优化下游任务性能，参数量1.17亿，需微调使用。

大型语言模型英语开源协议:Apache-2.0 #深度窄型架构 #英语预训练 #高效参数利用

下载量 16

发布时间 : 3/2/2022

模型简介

基于T5架构的深度窄型预训练模型，优先增加模型深度以提升下游任务效率，需微调后用于英语NLP任务。

模型特点

深度窄型架构

通过增加Transformer层数（深度）而非宽度优化性能，论文证明该策略对下游任务更高效

KV投影优化

键值投影维度设置为256，平衡计算效率与模型容量

预训练目标

使用C4数据集基于跨度的掩码语言建模（MLM）目标训练

模型能力

文本生成

文本摘要

问答系统

文本分类（需调整）

使用案例

文本生成

新闻摘要

微调后生成输入文本的简洁摘要

问答系统

开放域问答

根据上下文生成问题答案

🚀 T5-Efficient-SMALL-KV256 (深度窄化版本)

T5-Efficient-SMALL-KV256是谷歌原始T5的一个变体，遵循T5模型架构。它是一个仅预训练的检查点，随论文**高效扩展：预训练和微调Transformer的见解**发布，该论文由Yi Tay、Mostafa Dehghani、Jinfeng Rao、William Fedus、Samira Abnar、Hyung Won Chung、Sharan Narang、Dani Yogatama、Ashish Vaswani、Donald Metzler撰写。

简而言之，该论文指出，与参数数量相近的其他模型架构相比，深度窄化的模型架构在下游任务性能上更具优势。

引用论文内容如下：

我们通常推荐深度窄化策略，即在考虑对其他维度进行统一扩展之前，优先增加模型的深度。这主要是因为正如论文前面章节所示，深度对帕累托前沿的影响很大。具体来说，一个高而小（深度大且宽度窄）的模型通常比基础模型更高效。同样，一个高的基础模型通常也比大模型更高效。我们通常发现，无论模型大小如何，即使随着层数的增加绝对性能可能会提高，但随着层数的增加，帕累托效率的相对增益会逐渐减小，在32到36层时收敛。最后，我们注意到这里的效率概念涉及任何一个计算维度，即参数数量、浮点运算次数或吞吐量（速度）。我们报告了所有三个关键的效率指标（参数数量、浮点运算次数和速度），并将选择考虑哪个计算维度的决定权留给从业者。

更准确地说，模型深度定义为顺序堆叠的Transformer块的数量。因此，单词嵌入序列会依次由每个Transformer块进行处理。

✨ 主要特性

模型架构细节

此模型检查点 - t5-efficient-small-kv256 - 属于小型模型类型，具有以下变体：

键值（kv）维度为 256

它有1.1714亿个参数，因此在全精度（fp32）下大约需要468.58 MB的内存，在半精度（fp16 或 bf16）下需要234.29 MB的内存。

原始 T5模型架构的总结如下：

模型	nl (el/dl)	ff	dm	kv	nh	参数数量
Tiny	4/4	1024	256	32	4	16M
Mini	4/4	1536	384	32	8	31M
Small	6/6	2048	512	32	8	60M
Base	12/12	3072	768	64	12	220M
Large	24/24	4096	1024	64	16	738M
Xl	24/24	16384	1024	128	32	3B
XXl	24/24	65536	1024	128	128	11B

以下是使用的缩写说明：

属性	详情
nl	变压器块的数量（深度）
dm	嵌入向量的维度（变压器块的输出向量）
kv	键/值投影矩阵的维度
nh	注意力头的数量
ff	变压器块内中间向量的维度（前馈投影矩阵的大小）
el	编码器中的变压器块数量（编码器深度）
dl	解码器中的变压器块数量（解码器深度）
sh	表示注意力头是共享的
skv	表示键值投影矩阵是绑定的

如果一个模型检查点没有特定的 el 或 dl，则编码器层和解码器层的数量都对应于 nl。

预训练

该检查点在大规模、清理后的通用爬虫数据集（C4）上进行了524288步的预训练，采用基于跨度的掩码语言建模（MLM）目标。

微调

⚠️ 重要提示

此模型是一个预训练检查点，需要进行微调才能实际使用。该检查点是用英语进行预训练的，因此仅适用于英语自然语言处理任务。

你可以参考以下示例来微调该模型：

PyTorch:

文本摘要
问答系统
文本分类 - 注意：你需要对这里的训练示例进行一些微调，使其适用于编码器 - 解码器模型。

TensorFlow:

文本摘要
文本分类 - 注意：你需要对这里的训练示例进行一些微调，使其适用于编码器 - 解码器模型。

JAX/Flax:

文本摘要
文本分类 - 注意：你需要对这里的训练示例进行一些微调，使其适用于编码器 - 解码器模型。

下游性能

待补充表格（如果有）

计算复杂度

待补充表格（如果有）

📚 详细文档

我们强烈建议读者仔细阅读原始论文**高效扩展：预训练和微调Transformer的见解**，以更深入地了解此模型检查点。正如此问题中所解释的，包含 sh 或 skv 模型架构变体的检查点尚未移植到Transformers库中，因为它们可能实际用途有限且缺乏更详细的描述。这些检查点保留在此处，可能会在未来进行移植。