bigbird-pegasus-large-arxiv开源模型 - 处理长序列，高效完成长文档摘要任务

首页

Bigbird Pegasus Large Arxiv

由 google 开发

BigBird是一种基于稀疏注意力的Transformer模型，能够处理更长的序列，适用于长文档摘要等任务。

文本生成

Transformers

英语开源协议:Apache-2.0 #长文本摘要 #稀疏注意力 #科学论文处理

下载量 8,528

发布时间 : 3/2/2022

模型简介

BigBirdPegasus是基于稀疏注意力的Transformer模型，扩展了传统Transformer的能力，特别适合处理长序列任务，如科学论文摘要生成。

模型特点

稀疏注意力机制

采用块稀疏注意力机制，能够高效处理长达4096的序列，计算成本低于传统注意力机制。

长序列处理能力

特别适合处理超长序列任务，如长文档摘要和长上下文问答。

多任务适应

在多种摘要生成任务上表现良好，包括科学论文和新闻摘要。

模型能力

科学论文摘要生成

长文档摘要生成

长上下文问答

使用案例

学术研究

科学论文摘要生成

为科学论文生成简洁准确的摘要。

在arxiv数据集上ROUGE-1得分43.4702。

新闻媒体

新闻摘要生成

为新闻文章生成摘要。

在cnn_dailymail数据集上ROUGE-1得分9.0885。

🚀 BigBirdPegasus模型（大型）

BigBirdPegasus模型是基于稀疏注意力机制的Transformer模型，它将基于Transformer的模型（如BERT）扩展到更长的序列处理中。此外，BigBird还从理论上阐释了稀疏模型所能处理的完整Transformer的能力。该模型在处理长文档摘要、长上下文问答等涉及长序列的任务中表现出色。

🚀 快速开始

模型简介

BigBird采用块稀疏注意力机制，而非普通的注意力机制（如BERT的注意力机制）。与BERT相比，它能够以更低的计算成本处理长度达4096的序列。在各种涉及长序列的任务中，如长文档摘要、长上下文问答等，该模型已达到了当前的最优水平。

使用方法

以下是如何在PyTorch中使用该模型获取给定文本特征的示例：

from transformers import BigBirdPegasusForConditionalGeneration, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("google/bigbird-pegasus-large-arxiv")

# 默认情况下，编码器注意力为 `block_sparse`，num_random_blocks=3，block_size=64
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv")

# 解码器注意力类型不能更改，将为 "original_full"
# 你可以像这样将 `attention_type`（仅编码器）更改为全注意力：
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv", attention_type="original_full")

# 你可以像这样更改 `block_size` 和 `num_random_blocks`：
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv", block_size=16, num_random_blocks=2)

text = "Replace me by any text you'd like."
inputs = tokenizer(text, return_tensors='pt')
prediction = model.generate(**inputs)
prediction = tokenizer.batch_decode(prediction)

训练过程

此检查点是在 scientific_papers 中的 arxiv 数据集上对 BigBirdPegasusForConditionalGeneration 进行摘要生成微调后得到的。

📚 详细文档

模型信息

属性	详情
模型类型	BigBirdPegasus模型（大型）
训练数据	scientific_papers（arxiv数据集）

评估指标

该模型在多个数据集上进行了评估，以下是具体的评估指标：

scientific_papers（pubmed）

指标	值
ROUGE-1	36.0276
ROUGE-2	13.4166
ROUGE-L	21.9612
ROUGE-LSUM	29.648
loss	2.774355173110962
meteor	0.2824
gen_len	209.2537

cnn_dailymail

指标	值
ROUGE-1	9.0885
ROUGE-2	1.0325
ROUGE-L	7.3182
ROUGE-LSUM	8.1455
loss	.nan
gen_len	210.4762

xsum

指标	值
ROUGE-1	4.9787
ROUGE-2	0.3527
ROUGE-L	4.3679
ROUGE-LSUM	4.1723
loss	.nan
gen_len	230.4886

scientific_papers（arxiv）

指标	值
ROUGE-1	43.4702
ROUGE-2	17.4297
ROUGE-L	26.2587
ROUGE-LSUM	35.5587
loss	2.1113228797912598
gen_len	183.3702

samsum

指标	值
ROUGE-1	3.621
ROUGE-2	0.1699
ROUGE-L	3.2016
ROUGE-LSUM	3.3269
loss	7.664482116699219
gen_len	233.8107

🔧 技术细节

BigBird模型的相关研究在论文 Big Bird: Transformers for Longer Sequences 中进行了详细阐述，该模型最初发布于此仓库。

📄 许可证

本模型采用Apache-2.0许可证。

📖 引用信息

如果你在研究中使用了该模型，请引用以下论文：

@misc{zaheer2021big,
      title={Big Bird: Transformers for Longer Sequences}, 
      author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
      year={2021},
      eprint={2007.14062},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}