T

T5 V1 1 Base

由 google 开发
T5 1.1是谷歌改进的文本到文本转换模型,采用GEGLU激活函数和优化架构,专注于无监督预训练
下载量 150.73k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

改进版T5模型,通过架构优化提升迁移学习性能,需微调后用于下游NLP任务

模型特点

GEGLU激活函数
前馈隐藏层采用GEGLU替代ReLU,提升模型表达能力
纯无监督预训练
仅使用C4数据集进行预训练,不混合下游任务数据
参数共享优化
取消嵌入层与分类器层的参数共享,提升模型灵活性
结构优化
调整xl/xxl规格的维度配置,增大d_model并减少注意力头数

模型能力

文本生成
文本分类
问答系统
摘要生成
机器翻译

使用案例

文本生成
内容摘要
对长文档生成简洁摘要
在CNN/Daily Mail数据集达到SOTA
问答系统
开放域问答
回答基于文本知识的自然语言问题
在Natural Questions基准表现优异