语言: 中文
许可证: apache-2.0
数据集:
- 科学论文
标签:
- 摘要生成
模型索引:
- 名称: google/bigbird-pegasus-large-pubmed
结果:
- 任务:
类型: 摘要生成
名称: 摘要生成
数据集:
名称: 科学论文
类型: 科学论文
配置: pubmed
拆分: 测试集
指标:
- 名称: ROUGE-1
类型: rouge
值: 40.8966
已验证: 是
- 名称: ROUGE-2
类型: rouge
值: 18.1161
已验证: 是
- 名称: ROUGE-L
类型: rouge
值: 26.1743
已验证: 是
- 名称: ROUGE-LSUM
类型: rouge
值: 34.2773
已验证: 是
- 名称: 损失值
类型: 损失
值: 2.1707184314727783
已验证: 是
- 名称: meteor
类型: meteor
值: 0.3513
已验证: 是
- 名称: 生成长度
类型: 生成长度
值: 221.2531
已验证: 是
- 任务:
类型: 摘要生成
名称: 摘要生成
数据集:
名称: 科学论文
类型: 科学论文
配置: arxiv
拆分: 测试集
指标:
- 名称: ROUGE-1
类型: rouge
值: 40.3815
已验证: 是
- 名称: ROUGE-2
类型: rouge
值: 14.374
已验证: 是
- 名称: ROUGE-L
类型: rouge
值: 23.4773
已验证: 是
- 名称: ROUGE-LSUM
类型: rouge
值: 33.772
已验证: 是
- 名称: 损失值
类型: 损失
值: 3.235051393508911
已验证: 是
- 名称: 生成长度
类型: 生成长度
值: 186.2003
已验证: 是
BigBirdPegasus 模型(大型版)
BigBird 是一种基于稀疏注意力的 Transformer 模型,它扩展了基于 Transformer 的模型(如 BERT),能够处理更长的序列。此外,BigBird 还从理论上阐述了稀疏模型能够处理的完整 Transformer 的能力范围。
BigBird 在这篇论文中被提出,并首次发布于这个代码库。
免责声明:发布 BigBird 的团队未为此模型编写模型卡片,因此本模型卡片由 Hugging Face 团队编写。
模型描述
BigBird 依赖于块稀疏注意力机制,而非普通注意力机制(如 BERT 的注意力),能够以比 BERT 低得多的计算成本处理长达 4096 的序列。它在涉及超长序列的各种任务中取得了最先进的成果,例如长文档摘要和长上下文问答。
使用方法
以下是如何在 PyTorch 中使用此模型获取给定文本的特征:
from transformers import BigBirdPegasusForConditionalGeneration, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("google/bigbird-pegasus-large-pubmed")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-pubmed")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-pubmed", attention_type="original_full")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-pubmed", block_size=16, num_random_blocks=2)
text = "替换为你想要的任何文本。"
inputs = tokenizer(text, return_tensors='pt')
prediction = model.generate(**inputs)
prediction = tokenizer.batch_decode(prediction)
训练过程
此检查点是通过在 scientific_papers 的 pubmed 数据集上对 BigBirdPegasusForConditionalGeneration
进行摘要生成微调后获得的。
BibTeX 条目及引用信息
@misc{zaheer2021big,
title={Big Bird: Transformers for Longer Sequences},
author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
year={2021},
eprint={2007.14062},
archivePrefix={arXiv},
primaryClass={cs.LG}
}