mbart-mlsum自动摘要模型 - 开源免费实现法语新闻文章自动摘要

首页

Mbart Mlsum Automatic Summarization

由 lincoln 开发

基于mbart-large-50架构的新闻文章自动摘要模型，使用MLSUM法语新闻数据集微调

文本生成

Transformers

法语开源协议:MIT #法语新闻摘要 #BART架构 #餐饮行业适用

下载量 98

发布时间 : 3/2/2022

模型简介

该模型专门用于生成法语新闻文章的自动摘要，通过提取文章关键信息生成简洁概述

模型特点

法语新闻摘要优化

专门针对法语新闻内容进行微调，能有效捕捉法语新闻特点

高效训练

在Tesla V100显卡上仅需32小时完成70万篇文章的训练

多架构测试

经过T5和BART两种架构对比测试，最终选择最优方案

模型能力

法语文本理解

新闻摘要生成

关键信息提取

使用案例

新闻媒体

新闻快报生成

为长篇新闻文章自动生成简洁摘要

生成质量良好的摘要，虽新颖性评分不及人工摘要

内容聚合

新闻聚合平台

为新闻聚合应用提供自动摘要功能

🚀 新闻文章自动摘要

本模型基于facebook/mbart-large-50模型，并使用MLSUM数据库中的新闻文章进行微调。我们假设文章的标题是很好的参考摘要。

🚀 快速开始

本模型可用于新闻文章的自动摘要生成，能帮助用户快速获取文章核心内容。

✨ 主要特性

模型基础：基于facebook/mbart-large-50模型进行微调。
数据来源：使用MLSUM数据库中的新闻文章进行训练。

📦 安装指南

暂未提及安装相关内容，跳过此章节。

💻 使用示例

基础用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
from transformers import SummarizationPipeline

model_name = 'lincoln/mbart-mlsum-automatic-summarization'

loaded_tokenizer = AutoTokenizer.from_pretrained(model_name)
loaded_model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

nlp = SummarizationPipeline(model=loaded_model, tokenizer=loaded_tokenizer)
nlp("""
« La veille de l’ouverture, je vais faire venir un coach pour les salariés qui reprendront le travail. 
Cela va me coûter 300 euros, mais après des mois d’oisiveté obligatoire, la reprise n’est pas simple. 
Certains sont au chômage partiel depuis mars 2020 », raconte Alain Fontaine, propriétaire du restaurant Le Mesturet, 
dans le quartier de la Bourse, à Paris. Cette date d’ouverture, désormais, il la connaît. Emmanuel Macron a, en effet, 
donné le feu vert pour un premier accueil des clients en terrasse, mercredi 19 mai. M. Fontaine imagine même faire venir un orchestre ce jour-là pour fêter l’événement.  
Il lui reste toutefois à construire sa terrasse. Il pensait que les ouvriers passeraient samedi 1er mai pour l’installer, mais, finalement, le rendez-vous a été décalé. 
Pour l’instant, le tas de bois est entreposé dans la salle de restaurant qui n’a plus accueilli de convives depuis le 29 octobre 2020, 
quand le couperet de la fermeture administrative est tombé.M. Fontaine, président de l’Association française des maîtres restaurateurs, 
ne manquera pas de concurrents prêts à profiter de ce premier temps de réouverture des bars et restaurants. Même si le couvre-feu limite le service à 21 heures. 
D’autant que la Mairie de Paris vient d’annoncer le renouvellement des terrasses éphémères installées en 2020 et leur gratuité jusqu’à la fin de l’été.
""")

📚 详细文档

训练过程

我们测试了两种模型架构（T5和BART），输入文本的长度为512或1024个标记。最终选择了具有512个标记的BART模型。该模型在Tesla V100上进行了2个周期（约700K篇文章）的训练，训练时长为32小时。

结果展示

Score de novelty

我们将我们的模型（图中的mbart-large-512-full）与两个参考模型进行了比较：

MBERT：对应于MLSUM文章数据库原始团队训练的模型性能。
Barthez：另一个基于OrangeSum数据库中新闻文章的模型。

可以看到，我们模型的新颖性得分（参见MLSUM论文）与这两个参考模型仍不可比，更无法与人工生成的摘要相比。不过，生成的摘要总体质量较好。

🔧 技术细节

本模型基于facebook/mbart-large-50进行微调，在模型架构选择上经过了对T5和BART的测试，最终确定使用BART模型并将输入文本长度设置为512个标记。训练过程在特定硬件上进行了一定周期的训练，以达到较好的摘要生成效果。

📄 许可证

本项目采用MIT许可证。

📖 引用

@article{scialom2020mlsum,
      title={MLSUM: The Multilingual Summarization Corpus}, 
      author={Thomas Scialom and Paul-Alexis Dray and Sylvain Lamprier and Benjamin Piwowarski and Jacopo Staiano},
      year={2020},
      eprint={2004.14900},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}