N

Nystromformer 512

由 uw-madison 开发
基于Nyström方法优化的高效Transformer模型,用于处理长序列任务
下载量 1,570
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

Nyströmformer是一种改进的自注意力机制Transformer模型,通过Nyström方法近似标准自注意力,显著降低了计算复杂度,使其能够高效处理长序列任务。

模型特点

高效自注意力机制
采用Nyström方法近似标准自注意力,将复杂度从O(n²)降至O(n)
长序列处理能力
特别适合处理包含数千词元的长序列任务
性能优越
在GLUE基准测试和长序列竞技场(LRA)基准测试中表现优异

模型能力

文本填充
语言建模
长文本处理

使用案例

自然语言处理
文本补全
预测并填充文本中的缺失部分
如示例所示,能准确预测'巴黎是法国的首都'
长文档分析
处理和分析长篇幅文档内容
由于优化的注意力机制,能有效处理长序列输入