语言:
- 英语
标签:
- 摘要生成
许可证: MIT
缩略图: https://huggingface.co/front/thumbnails/facebook.png
模型索引:
- 名称: facebook/bart-large-cnn
结果:
- 任务:
类型: 摘要生成
名称: 摘要生成
数据集:
名称: cnn_dailymail
类型: cnn_dailymail
配置: 3.0.0
分割: 训练集
指标:
- 名称: ROUGE-1
类型: rouge
值: 42.9486
已验证: 是
- 名称: ROUGE-2
类型: rouge
值: 20.8149
已验证: 是
- 名称: ROUGE-L
类型: rouge
值: 30.6186
已验证: 是
- 名称: ROUGE-LSUM
类型: rouge
值: 40.0376
已验证: 是
- 名称: 损失值
类型: loss
值: 2.529000997543335
已验证: 是
- 名称: 生成长度
类型: gen_len
值: 78.5866
已验证: 是
BART(大型模型),基于CNN每日邮报微调
BART模型在英语语言上进行了预训练,并在CNN每日邮报上进行了微调。该模型由Lewis等人在论文BART:用于自然语言生成、翻译和理解的去噪序列到序列预训练中提出,并首次发布于此代码库。
免责声明:发布BART的团队未为此模型编写模型卡,因此本模型卡由Hugging Face团队编写。
模型描述
BART是一个基于Transformer的编码器-解码器(序列到序列)模型,具有双向(类似BERT)的编码器和自回归(类似GPT)的解码器。BART通过(1)使用任意噪声函数破坏文本,以及(2)学习模型以重建原始文本来进行预训练。
BART在微调用于文本生成(如摘要、翻译)时特别有效,但在理解任务(如文本分类、问答)上也表现良好。此特定检查点已在CNN每日邮报(大量文本-摘要对集合)上进行了微调。
预期用途与限制
您可以将此模型用于文本摘要生成。
使用方法
以下是使用pipeline API调用此模型的方法:
from transformers import pipeline
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
ARTICLE = """ 纽约(CNN)当Liana Barrientos 23岁时,她在纽约威彻斯特郡结婚。
一年后,她再次在威彻斯特郡结婚,但对象是另一个男人,且未与第一任丈夫离婚。
仅18天后,她又结婚了。随后,Barrientos又说了五次“我愿意”,有时两次婚礼之间仅隔两周。
2010年,她再次结婚,这次是在布朗克斯。在结婚许可证申请中,她声称这是她的“第一次也是唯一一次”婚姻。
现年39岁的Barrientos面临两项“一级提供虚假文书”的刑事指控,涉及她在2010年结婚许可证申请中的虚假陈述,根据法庭文件。
检察官称这些婚姻是移民骗局的一部分。
周五,她在布朗克斯州最高法院表示不认罪,据其律师Christopher Wright称,他拒绝进一步评论。
离开法庭后,Barrientos因涉嫌通过紧急出口潜入纽约地铁而被捕并被指控盗窃服务和刑事侵入,警方发言人Annette Markowski侦探表示。Barrientos总共结婚10次,其中9次婚姻发生在1999年至2002年之间。
所有这些婚姻要么发生在威彻斯特郡、长岛、新泽西州,要么发生在布朗克斯。据检察官称,她据信仍与四名男子保持婚姻关系,且曾一度同时与八名男子结婚。
检察官称,移民骗局涉及她的一些丈夫,他们在婚后不久就申请了永久居留身份。
任何离婚都发生在这些申请获批之后。目前尚不清楚是否有任何男子会被起诉。
此案由移民与海关执法局及国土安全部调查司转交布朗克斯地区检察官办公室处理。其中七名男子来自所谓的“红旗”国家,包括埃及、土耳其、格鲁吉亚、巴基斯坦和马里。
她的第八任丈夫Rashid Rajput在联合反恐工作组的调查后,于2006年被驱逐回其祖国巴基斯坦。
如果被判有罪,Barrientos将面临最高四年监禁。她的下一次出庭定于5月18日。
"""
print(summarizer(ARTICLE, max_length=130, min_length=30, do_sample=False))
>>> [{'summary_text': '现年39岁的Liana Barrientos被指控两项“一级提供虚假文书”罪名。她总共结婚10次,其中9次婚姻发生在1999年至2002年之间。据信她仍与四名男子保持婚姻关系。'}]
BibTeX条目及引用信息
@article{DBLP:journals/corr/abs-1910-13461,
author = {Mike Lewis and
Yinhan Liu and
Naman Goyal and
Marjan Ghazvininejad and
Abdelrahman Mohamed and
Omer Levy and
Veselin Stoyanov and
Luke Zettlemoyer},
title = {{BART:} 用于自然语言生成、翻译和理解的去噪序列到序列预训练},
journal = {CoRR},
volume = {abs/1910.13461},
year = {2019},
url = {http://arxiv.org/abs/1910.13461},
eprinttype = {arXiv},
eprint = {1910.13461},
timestamp = {Thu, 31 Oct 2019 14:02:26 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-1910-13461.bib},
bibsource = {dblp计算机科学文献库, https://dblp.org}
}