语言:
许可证: mit
数据集:
管道标签: "摘要生成"
小部件示例:
- 文本: «开业前一天,我打算为即将复工的员工请一位教练。虽然要花费300欧元,但在数月强制停业后重新开工并不容易。部分员工自2020年3月起就处于半失业状态」,巴黎交易所街区Le Mesturet餐厅老板阿兰·方丹说道。如今他终于确定了开业日期——埃马纽埃尔·马克龙已批准5月19日周三开放露天座位接待顾客。方丹先生甚至计划当天请乐队来庆祝。不过他的露台尚未搭建完成,原定5月1日周六施工的工人最终推迟了工期。目前木材堆放在餐厅大厅里,该场所自2020年10月29日行政关闭令生效后就再未接待过食客。作为法国餐饮大师协会主席,方丹先生将面临众多准备抢占酒吧餐馆首波复工商机的竞争者,尽管宵禁政策将营业时间限制至晚9点。加之巴黎市政府刚宣布延续2020年设立的临时露台政策,整个夏季都将免费开放。
标签:
新闻文章自动摘要模型
本模型基于facebook/mbart-large-50
架构,使用MLSUM数据库中的新闻文章进行微调。建模假设文章导语可作为优质参考摘要。
训练过程
我们测试了两种模型架构(T5和BART),输入文本分别采用512或1024个词元。最终选定512词元的BART模型。
在Tesla V100显卡上经过2轮训练(约70万篇文章,耗时32小时)。
评估结果

将本模型(图中标注为mbart-large-512-full
)与两个基准对比:
- MBERT:MLSUM原始团队训练的模型表现
- Barthez:基于OrangeSum新闻数据库的另一模型
虽然本模型的新颖性评分(参见MLSUM论文)尚未达到基准水平,更不及人工摘要质量,但生成的摘要整体质量良好。
使用方式
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
from transformers import SummarizationPipeline
model_name = 'lincoln/mbart-mlsum-automatic-summarization'
loaded_tokenizer = AutoTokenizer.from_pretrained(model_name)
loaded_model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
nlp = SummarizationPipeline(model=loaded_model, tokenizer=loaded_tokenizer)
nlp("""
«开业前一天,我打算为即将复工的员工请一位教练。虽然要花费300欧元,但在数月强制停业后重新开工并不容易。
部分员工自2020年3月起就处于半失业状态」,巴黎交易所街区Le Mesturet餐厅老板阿兰·方丹说道。如今他终于确定了开业日期——埃马纽埃尔·马克龙已批准5月19日周三开放露天座位接待顾客。方丹先生甚至计划当天请乐队来庆祝。
不过他的露台尚未搭建完成,原定5月1日周六施工的工人最终推迟了工期。目前木材堆放在餐厅大厅里,该场所自2020年10月29日行政关闭令生效后就再未接待过食客。
作为法国餐饮大师协会主席,方丹先生将面临众多准备抢占酒吧餐馆首波复工商机的竞争者,尽管宵禁政策将营业时间限制至晚9点。
加之巴黎市政府刚宣布延续2020年设立的临时露台政策,整个夏季都将免费开放。
""")
引用文献
@article{scialom2020mlsum,
title={MLSUM: The Multilingual Summarization Corpus},
author={Thomas Scialom and Paul-Alexis Dray and Sylvain Lamprier and Benjamin Piwowarski and Jacopo Staiano},
year={2020},
eprint={2004.14900},
archivePrefix={arXiv},
primaryClass={cs.CL}
}