语言: 中文
许可证: Apache-2.0
数据集:
模型索引:
- 名称: google/bigbird-pegasus-large-arxiv
结果:
-
任务:
类型: 摘要生成
名称: 摘要生成
数据集:
名称: 科学论文
类型: 科学论文
配置: pubmed
分割: 测试集
指标:
- 名称: ROUGE-1
类型: rouge
值: 36.0276
已验证: 是
- 名称: ROUGE-2
类型: rouge
值: 13.4166
已验证: 是
- 名称: ROUGE-L
类型: rouge
值: 21.9612
已验证: 是
- 名称: ROUGE-LSUM
类型: rouge
值: 29.648
已验证: 是
- 名称: 损失值
类型: loss
值: 2.774355173110962
已验证: 是
- 名称: meteor
类型: meteor
值: 0.2824
已验证: 是
- 名称: 生成长度
类型: gen_len
值: 209.2537
已验证: 是
-
任务:
类型: 摘要生成
名称: 摘要生成
数据集:
名称: cnn_dailymail
类型: cnn_dailymail
配置: 3.0.0
分割: 测试集
指标:
- 名称: ROUGE-1
类型: rouge
值: 9.0885
已验证: 是
- 名称: ROUGE-2
类型: rouge
值: 1.0325
已验证: 是
- 名称: ROUGE-L
类型: rouge
值: 7.3182
已验证: 是
- 名称: ROUGE-LSUM
类型: rouge
值: 8.1455
已验证: 是
- 名称: 损失值
类型: loss
值: .nan
已验证: 是
- 名称: 生成长度
类型: gen_len
值: 210.4762
已验证: 是
-
任务:
类型: 摘要生成
名称: 摘要生成
数据集:
名称: xsum
类型: xsum
配置: 默认
分割: 测试集
指标:
- 名称: ROUGE-1
类型: rouge
值: 4.9787
已验证: 是
- 名称: ROUGE-2
类型: rouge
值: 0.3527
已验证: 是
- 名称: ROUGE-L
类型: rouge
值: 4.3679
已验证: 是
- 名称: ROUGE-LSUM
类型: rouge
值: 4.1723
已验证: 是
- 名称: 损失值
类型: loss
值: .nan
已验证: 是
- 名称: 生成长度
类型: gen_len
值: 230.4886
已验证: 是
-
任务:
类型: 摘要生成
名称: 摘要生成
数据集:
名称: 科学论文
类型: 科学论文
配置: arxiv
分割: 测试集
指标:
- 名称: ROUGE-1
类型: rouge
值: 43.4702
已验证: 是
- 名称: ROUGE-2
类型: rouge
值: 17.4297
已验证: 是
- 名称: ROUGE-L
类型: rouge
值: 26.2587
已验证: 是
- 名称: ROUGE-LSUM
类型: rouge
值: 35.5587
已验证: 是
- 名称: 损失值
类型: loss
值: 2.1113228797912598
已验证: 是
- 名称: 生成长度
类型: gen_len
值: 183.3702
已验证: 是
-
任务:
类型: 摘要生成
名称: 摘要生成
数据集:
名称: samsum
类型: samsum
配置: samsum
分割: 测试集
指标:
- 名称: ROUGE-1
类型: rouge
值: 3.621
已验证: 是
- 名称: ROUGE-2
类型: rouge
值: 0.1699
已验证: 是
- 名称: ROUGE-L
类型: rouge
值: 3.2016
已验证: 是
- 名称: ROUGE-LSUM
类型: rouge
值: 3.3269
已验证: 是
- 名称: 损失值
类型: loss
值: 7.664482116699219
已验证: 是
- 名称: 生成长度
类型: gen_len
值: 233.8107
已验证: 是
BigBirdPegasus 模型(大型)
BigBird 是一种基于稀疏注意力的 Transformer 模型,它扩展了基于 Transformer 的模型(如 BERT),能够处理更长的序列。此外,BigBird 还具备对完整 Transformer 能力的理论理解,稀疏模型可以处理这些能力。
BigBird 在这篇论文中首次提出,并在这个代码库中首次发布。
免责声明:发布 BigBird 的团队没有为此模型编写模型卡,因此本模型卡由 Hugging Face 团队编写。
模型描述
BigBird 依赖于块稀疏注意力,而不是普通注意力(即 BERT 的注意力),可以处理长达 4096 的序列,计算成本远低于 BERT。它在涉及超长序列的各种任务中实现了最先进的性能,例如长文档摘要、长上下文问答等。
使用方法
以下是如何在 PyTorch 中使用此模型获取给定文本的特征:
from transformers import BigBirdPegasusForConditionalGeneration, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("google/bigbird-pegasus-large-arxiv")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv", attention_type="original_full")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv", block_size=16, num_random_blocks=2)
text = "替换为任何你想要的文本。"
inputs = tokenizer(text, return_tensors='pt')
prediction = model.generate(**inputs)
prediction = tokenizer.batch_decode(prediction)
训练过程
此检查点是通过在 scientific_papers 的 arxiv 数据集上微调 BigBirdPegasusForConditionalGeneration
进行摘要生成后获得的。
BibTeX 条目和引用信息
@misc{zaheer2021big,
title={Big Bird: Transformers for Longer Sequences},
author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
year={2021},
eprint={2007.14062},
archivePrefix={arXiv},
primaryClass={cs.LG}
}