语言:
- 英文
任务标签: 文本摘要
许可证: MIT协议
缩略图: https://huggingface.co/front/thumbnails/facebook.png
数据集:
- CNN每日邮报
模型索引:
- 名称: facebook/bart-large-cnn
性能指标:
- 任务类型: 文本摘要
数据集名称: CNN每日邮报
版本: 3.0.0
数据分割: 训练集
评估指标:
- ROUGE-1得分: 42.9486(已验证)
- ROUGE-2得分: 20.8149(已验证)
- ROUGE-L得分: 30.6186(已验证)
- ROUGE-LSUM得分: 40.0376(已验证)
- 损失值: 2.5290(已验证)
- 生成文本平均长度: 78.5866(已验证)
BART(大尺寸模型)在CNN每日邮报数据集上的微调版本
该BART模型基于英语语料预训练,并在CNN每日邮报数据集上进行了微调。该模型由Lewis等人在论文BART:面向自然语言生成、翻译与理解的去噪序列到序列预训练中提出,并首次发布于此代码库。
免责声明:BART研发团队未提供本模型的说明文档,本文档由Hugging Face团队撰写。
模型架构
BART采用Transformer编码器-解码器(seq2seq)架构,包含双向编码器(类似BERT)和自回归解码器(类似GPT)。其预训练过程包含两个阶段:(1) 通过任意噪声函数破坏文本;(2) 训练模型重建原始文本。
该模型在文本生成任务(如摘要、翻译)中表现优异,同时在文本理解任务(如分类、问答)中也有良好表现。当前检查点专门针对CNN每日邮报的大规模文本-摘要配对数据进行了微调。
应用场景与限制
本模型适用于文本摘要任务。
使用方法
通过pipeline API调用示例:
from transformers import pipeline
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
新闻原文 = """ 纽约(CNN)当Liana Barrientos 23岁时,她在纽约威彻斯特郡首次结婚。
一年后,她未解除第一次婚姻的情况下,在同一郡与另一男子再次结婚。
18天后她又举行了第三次婚礼。随后五年内,她又连续五次说出"我愿意",有时两次婚礼间隔不足两周。
2010年她在布朗克斯区最后一次结婚时,竟在结婚申请表上声明这是她"第一次也是唯一一次"婚姻。
现年39岁的Barrientos因在2010年婚姻申请中做虚假陈述,被控两项"一级提供虚假文书"刑事罪名。
检方指控这些婚姻是移民骗局的一部分。
周五她在布朗克斯最高法院通过律师Christopher Wright表示不认罪,律师拒绝进一步置评。
庭审后,Barrientos因涉嫌通过紧急出口逃票搭乘纽约地铁,被追加盗窃服务和刑事侵入罪名。
据统计,Barrientos共计结婚10次,其中9次发生在1999至2002年间。
所有婚姻地点分布在威彻斯特郡、长岛、新泽西或布朗克斯区。检方称她目前仍与四名男子存在婚姻关系,并曾同时与八人保持婚姻状态。
部分丈夫在婚后立即提交了永久居留申请,离婚均发生在申请获批之后。目前尚不清楚这些男子是否会面临起诉。
本案由移民海关执法局和国土安全部调查局移交给布朗克斯地区检察官办公室。七名丈夫来自"红标国家"包括埃及、土耳其、格鲁吉亚、巴基斯坦和马里。
其第八任丈夫Rashid Rajput因联合反恐工作组调查,已于2006年被遣返巴基斯坦。
若罪名成立,Barrientos将面临最高四年监禁。下次开庭时间为5月18日。
"""
print(summarizer(新闻原文, max_length=130, min_length=30, do_sample=False))
>>> [{'summary_text': '39岁的Liana Barrientos被控两项"一级提供虚假文书"罪名。她共计结婚10次,其中9次发生在1999至2002年间。目前仍与四名男子存在婚姻关系。'}]
文献引用
@article{DBLP:journals/corr/abs-1910-13461,
作者 = {Mike Lewis and Yinhan Liu and Naman Goyal and Marjan Ghazvininejad and Abdelrahman Mohamed and Omer Levy and Veselin Stoyanov and Luke Zettlemoyer},
标题 = {{BART:面向自然语言生成、翻译与理解的去噪序列到序列预训练}},
期刊 = {CoRR},
卷号 = {abs/1910.13461},
年份 = {2019},
网址 = {http://arxiv.org/abs/1910.13461},
电子版类型 = {arXiv},
电子版号 = {1910.13461},
时间戳 = {2019年10月31日14:02:26 +0100},
文献链接 = {https://dblp.org/rec/journals/corr/abs-1910-13461.bib},
数据源 = {dblp计算机科学文献库}
}