T

T5 Efficient Small Nl22

由 google 开发
T5高效小型-NL22是谷歌T5模型的深度窄型变体,专注于通过增加模型深度提升下游任务性能。
下载量 17
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是一个仅预训练的检查点,基于T5架构,采用深度窄型设计策略,优先增加模型深度而非宽度,以提高计算效率和下游任务性能。

模型特点

深度窄型架构
优先增加模型深度而非宽度,研究表明这种架构在下游任务中更高效。
高效预训练
在C4数据集上进行了524,288步的预训练,使用跨度的掩码语言建模目标。
参数效率
相比同等参数量的其他架构,在计算效率(参数数量、FLOPs和速度)上表现更优。

模型能力

文本生成
文本摘要
问答系统
文本分类(需微调)

使用案例

文本生成
自动摘要
对长文档生成简洁摘要
问答系统
开放域问答
基于给定文本回答问题