T

T5 Efficient Base

由 google 开发
T5-Efficient-BASE是基于谷歌T5架构的变体,采用深度窄型设计优化下游任务表现,参数量2.229亿
下载量 735
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是对原始T5架构的改进版本,通过优先增加模型深度而非宽度来提升效率,适用于英文NLP任务。需微调后使用。

模型特点

深度窄型架构
相比标准T5,优先增加模型深度而非宽度,在相同参数量下提升下游任务表现
高效预训练
在C4数据集上进行524,288步预训练,采用跨度的掩码语言建模目标
参数效率优化
通过高瘦型设计实现更好的帕累托效率,平衡参数量、FLOPs和推理速度

模型能力

文本生成
文本摘要
问答系统
文本分类(需调整架构)

使用案例

文本生成
自动摘要生成
将长文档压缩为简洁摘要
问答系统
开放域问答
基于给定上下文回答自然语言问题