N

Nystromformer 2048

由 uw-madison 开发
基于WikiText-103数据集训练的Nystromformer模型,支持长序列处理(2048 tokens)
下载量 38
发布时间 : 4/18/2022
模型介绍
内容详情
替代品

模型简介

采用Nyström方法近似自注意力机制的Transformer变体,适用于长文本序列处理任务

模型特点

长序列处理
支持2048 tokens的上下文长度,适合处理长文档
高效注意力机制
使用Nyström方法降低标准自注意力的计算复杂度
内存优化
相比标准Transformer减少内存消耗,适合更长序列

模型能力

文本生成
语言建模
长文本理解

使用案例

文本生成
长文档续写
根据前文自动生成连贯的长篇文本
保持上下文一致性的长文本输出
语言建模
文本概率评估
计算文本序列的似然概率
可用于文本质量评估或异常检测