T

T5 Efficient Small Kv256

由 google 开发
T5-Efficient-SMALL-KV256是谷歌T5的变体,采用深度窄型架构优化下游任务性能,参数量1.17亿,需微调使用。
下载量 16
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

基于T5架构的深度窄型预训练模型,优先增加模型深度以提升下游任务效率,需微调后用于英语NLP任务。

模型特点

深度窄型架构
通过增加Transformer层数(深度)而非宽度优化性能,论文证明该策略对下游任务更高效
KV投影优化
键值投影维度设置为256,平衡计算效率与模型容量
预训练目标
使用C4数据集基于跨度的掩码语言建模(MLM)目标训练

模型能力

文本生成
文本摘要
问答系统
文本分类(需调整)

使用案例

文本生成
新闻摘要
微调后生成输入文本的简洁摘要
问答系统
开放域问答
根据上下文生成问题答案