B

Bigbird Roberta Large

由 google 开发
BigBird是一种基于稀疏注意力的Transformer模型,能够处理长达4096的序列,适用于长文档任务。
下载量 1,152
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

BigBird通过块稀疏注意力机制扩展了传统Transformer模型的处理能力,显著降低了长序列处理的计算成本,适用于长文档摘要、长上下文问答等任务。

模型特点

稀疏注意力机制
使用块稀疏注意力而非普通注意力,显著降低长序列处理的计算成本。
长序列处理
能够处理长达4096的序列,适用于长文档任务。
灵活配置
支持调整注意力类型(块稀疏或全注意力)、块大小和随机块数量。

模型能力

长文档摘要
长上下文问答
掩码语言建模

使用案例

自然语言处理
长文档摘要
处理超长文档并生成摘要。
在长文档摘要任务中达到最先进水平。
长上下文问答
回答需要长上下文理解的问题。
在长上下文问答任务中表现优异。