Nystromformer 512

由 uw-madison 开发

基于Nyström方法优化的高效Transformer模型，用于处理长序列任务

大型语言模型

Transformers

#长序列处理 #高效自注意力 #掩码语言建模

下载量 1,570

发布时间 : 3/2/2022

模型介绍

内容详情

替代品

模型简介

Nyströmformer是一种改进的自注意力机制Transformer模型，通过Nyström方法近似标准自注意力，显著降低了计算复杂度，使其能够高效处理长序列任务。

模型特点

高效自注意力机制

采用Nyström方法近似标准自注意力，将复杂度从O(n²)降至O(n)

长序列处理能力

特别适合处理包含数千词元的长序列任务

性能优越

在GLUE基准测试和长序列竞技场(LRA)基准测试中表现优异

模型能力

文本填充

语言建模

长文本处理

使用案例

自然语言处理

文本补全

预测并填充文本中的缺失部分

如示例所示，能准确预测'巴黎是法国的首都'

长文档分析

处理和分析长篇幅文档内容

由于优化的注意力机制，能有效处理长序列输入

Nyströmformer

基于BookCorpus和英文维基百科预训练的Nyströmformer掩码语言建模(MLM)模型，序列长度512。

关于Nyströmformer

Nyströmformer模型由Yunyang Xiong、Zhanpeng Zeng、Rudrasis Chakraborty、Mingxing Tan、Glenn Fung、Yin Li和Vikas Singh在论文《Nyströmformer: 基于Nyström方法的自注意力近似算法》中提出。

论文摘要如下： Transformer已成为处理各类自然语言处理任务的强大工具。驱动Transformer卓越性能的关键组件是自注意力机制，它能编码其他词元对每个特定词元的影响或依赖关系。尽管效果显著，但自注意力在输入序列长度上的二次方复杂度限制了其在较长序列中的应用——这是学术界正在积极研究的课题。为突破这一限制，我们提出Nyströmformer——该模型在序列长度函数上展现出优越的可扩展性。我们的思路是基于Nyström方法来近似标准自注意力，实现O(n)复杂度。Nyströmformer的可扩展性使其能够应用于包含数千个词元的更长序列。我们在GLUE基准测试的标准长度序列和IMDB影评上对多个下游任务进行评估，发现Nyströmformer表现与标准自注意力相当，甚至在某些情况下略胜一筹。在长序列竞技场(LRA)基准测试的长序列任务中，Nyströmformer相较其他高效自注意力方法表现更优。代码可通过此https URL获取。

使用示例

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='uw-madison/nystromformer-512')
>>> unmasker("巴黎是法国的[MASK]。")

[{'score': 0.829957902431488,
  'token': 1030,
  'token_str': '首都',
  'sequence': '巴黎是法国的首都。'},
 {'score': 0.022157637402415276,
  'token': 16081,
  'token_str': '发源地',
  'sequence': '巴黎是法国的发源地。'},
 {'score': 0.01904447190463543,
  'token': 197,
  'token_str': '名称',
  'sequence': '巴黎是法国的名称。'},
 {'score': 0.017583081498742104,
  'token': 1107,
  'token_str': '王国',
  'sequence': '巴黎是法国的王国。'},
 {'score': 0.005948934704065323,
  'token': 148,
  'token_str': '城市',
  'sequence': '巴黎是法国的城市。'}]