T

T5 V1 1 Xxl

由 google 开发
T5 1.1是谷歌改进的文本到文本转换Transformer模型,采用GEGLU激活函数和纯无监督预训练策略
下载量 597.64k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

基于Transformer的统一文本处理框架,通过迁移学习在多种NLP任务上实现优异性能

模型特点

GEGLU激活函数
在前馈隐藏层使用GEGLU替代ReLU,提升模型表现力
纯无监督预训练
仅在C4数据集上进行无监督预训练,不混合下游任务数据
参数分离策略
嵌入层与分类器层不共享参数,提升模型灵活性
规模化架构调整
采用更大的d_model和更小的num_heads/d_ff比例优化大模型性能

模型能力

文本生成
文本分类
问答系统
摘要生成
机器翻译
文本改写

使用案例

文本摘要
新闻摘要生成
将长篇文章压缩为关键信息摘要
在CNN/Daily Mail数据集达到SOTA
智能问答
开放域问答
回答基于文本内容的自然语言问题
在Natural Questions等基准测试表现优异
文本分类
情感分析
判断文本情感倾向(正面/负面)
在GLUE基准测试中竞争力强