bart-base-cnn-swe开源瑞典语摘要模型 - 免费实现新闻文本精准摘要提取

首页

Bart Base Cnn Swe

由 Gabriel 开发

基于BART架构的瑞典语摘要模型，在CNN Daily瑞典语数据集上微调

文本生成

Transformers

其他开源协议:MIT #瑞典语摘要 #BART微调 #新闻摘要

下载量 31

发布时间 : 8/26/2022

模型简介

该模型是基于Transformer的编码器-解码器结构，专门用于瑞典语文本摘要任务。通过对KBLab的瑞典语BART基础模型进行微调，优化了新闻摘要生成能力。

模型特点

瑞典语优化

专门针对瑞典语文本进行微调，优化了瑞典语新闻摘要效果

BART架构优势

结合双向编码器和自回归解码器，既能理解上下文又能生成流畅摘要

新闻摘要专用

在CNN Daily瑞典语新闻数据集上微调，特别适合新闻类文本摘要

模型能力

瑞典语文本摘要

新闻内容压缩

关键信息提取

使用案例

新闻媒体

新闻自动摘要

为新闻机构自动生成文章摘要

ROUGE-1得分22.2，能有效提取关键信息

内容聚合

为内容聚合平台提供简洁的新闻概览

生成30-120字的连贯摘要

🚀 bart-base-cnn-swe

该模型仍在开发中，它可以用于文本摘要任务，基于特定数据集微调而来。

🚀 快速开始

from transformers import pipeline
summarizer = pipeline("summarization", model="Gabriel/bart-base-cnn-swe")
ARTICLE = """
Frankrike lås Sebastien Chabal har nämnts för en farlig tackling på Englands Simon Shaw under lördagens VM semifinal i Paris. Simon Shaw lastar av trots att Raphael Ibanez, vänster, och Sebastien Chabal. Sale Sharks framåt kommer att ställas inför en disciplinär utfrågning på måndag efter hans tackling på motsatt andra-rower Shaw noterades genom att citera kommissionär Dennis Wheelahan. Chabal började matchen på ersättningsbänken, men kom i 26: e minuten att ersätta den skadade Fabien Pelous under värd Frankrikes 14-9 nederlag. Om han blir avstängd missar Chabal fredagens tredje och fjärde match på Parc des Princes. Samtidigt, Frankrike tränare Bernard Laporte sade att nederlaget var svårare att ta än Englands 24-7 seger i 2003 semifinalen. "År 2003 var de bättre än oss. I själva verket var de bättre än alla", sade Laporte, som lämnar sin roll att tillträda posten som junior idrottsminister i den franska regeringen. "De var som Nya Zeeland i denna turnering - favoriten, förutom att de gick hela vägen. Den här gången är det svårare för igår var det 50-50." Samtidigt, England -- försöker bli den första nationen att försvara VM-titeln -- avslöjade att stjärna kicker Jonny Wilkinson återigen hade problem med matchbollarna under semifinalen. Flughalvan, som uttryckte sin oro efter att ha kämpat med stöveln mot Australien, avvisade en boll innan han sparkade en vital trepoängare mot Frankrike. "Vi sa det inte förra veckan men en icke-match bollen kom ut på fältet i Marseille som Jonny sparkade," chef för rugby Rob Andrew sade. "Han tänkte inte på det när han sparkade det. Matchbollarna är märkta, numrerade ett till sex. Igår kväll hade de "World Cup semifinal England vs Frankrike" skrivet på dem. På matchkvällen var Jonny vaksam när han sparkade för mål att de faktiskt var matchbollar han sparkade. "Träningsbollarna förlorar tryck och form. Hela frågan förra veckan, arrangörerna accepterade alla sex matchbollar bör användas av båda sidor på torsdagen före matchen. " E-post till en vän.
"""
print(summarizer(ARTICLE, max_length=130, min_length=30, num_beams=10 ,do_sample=False))
>>> [{'summary_text': """ Frankrike lås Sebastien Chabal har nämnts för en farlig tackling på Englands Simon Shaw under VM semifinal i Paris. Sale Sharks framåt kommer att ställas inför en disciplinär utfrågning på måndag efter hans tackling på motsatt andra - rower Shaw noterades genom att citera kommissionär Dennis Wheelahan. Om Chabal blir avstängd missar Chabal fredagens tredje och fjärde match på Parc des Princes."""}]

✨ 主要特性

BART是一种Transformer编码器 - 编码器（seq2seq）模型，具有双向（类似BERT）编码器和自回归（类似GPT）解码器。BART通过以下方式进行预训练：（1）使用任意噪声函数破坏文本；（2）学习一个模型来重建原始文本。该模型是KBLab/bart-base-swedish-cased在Gabriel/bart-base-cnn-swe数据集上的微调版本，可用于摘要任务。

💻 使用示例

基础用法

from transformers import pipeline
summarizer = pipeline("summarization", model="Gabriel/bart-base-cnn-swe")
ARTICLE = """
Frankrike lås Sebastien Chabal har nämnts för en farlig tackling på Englands Simon Shaw under lördagens VM semifinal i Paris. Simon Shaw lastar av trots att Raphael Ibanez, vänster, och Sebastien Chabal. Sale Sharks framåt kommer att ställas inför en disciplinär utfrågning på måndag efter hans tackling på motsatt andra-rower Shaw noterades genom att citera kommissionär Dennis Wheelahan. Chabal började matchen på ersättningsbänken, men kom i 26: e minuten att ersätta den skadade Fabien Pelous under värd Frankrikes 14-9 nederlag. Om han blir avstängd missar Chabal fredagens tredje och fjärde match på Parc des Princes. Samtidigt, Frankrike tränare Bernard Laporte sade att nederlaget var svårare att ta än Englands 24-7 seger i 2003 semifinalen. "År 2003 var de bättre än oss. I själva verket var de bättre än alla", sade Laporte, som lämnar sin roll att tillträda posten som junior idrottsminister i den franska regeringen. "De var som Nya Zeeland i denna turnering - favoriten, förutom att de gick hela vägen. Den här gången är det svårare för igår var det 50-50." Samtidigt, England -- försöker bli den första nationen att försvara VM-titeln -- avslöjade att stjärna kicker Jonny Wilkinson återigen hade problem med matchbollarna under semifinalen. Flughalvan, som uttryckte sin oro efter att ha kämpat med stöveln mot Australien, avvisade en boll innan han sparkade en vital trepoängare mot Frankrike. "Vi sa det inte förra veckan men en icke-match bollen kom ut på fältet i Marseille som Jonny sparkade," chef för rugby Rob Andrew sade. "Han tänkte inte på det när han sparkade det. Matchbollarna är märkta, numrerade ett till sex. Igår kväll hade de "World Cup semifinal England vs Frankrike" skrivet på dem. På matchkvällen var Jonny vaksam när han sparkade för mål att de faktiskt var matchbollar han sparkade. "Träningsbollarna förlorar tryck och form. Hela frågan förra veckan, arrangörerna accepterade alla sex matchbollar bör användas av båda sidor på torsdagen före matchen. " E-post till en vän.
"""
print(summarizer(ARTICLE, max_length=130, min_length=30, num_beams=10 ,do_sample=False))
>>> [{'summary_text': """ Frankrike lås Sebastien Chabal har nämnts för en farlig tackling på Englands Simon Shaw under VM semifinal i Paris. Sale Sharks framåt kommer att ställas inför en disciplinär utfrågning på måndag efter hans tackling på motsatt andra - rower Shaw noterades genom att citera kommissionär Dennis Wheelahan. Om Chabal blir avstängd missar Chabal fredagens tredje och fjärde match på Parc des Princes."""}]

🔧 技术细节

训练超参数

训练期间使用了以下超参数：

学习率：5e - 05
训练批次大小：8
评估批次大小：8
随机种子：42
梯度累积步数：2
总训练批次大小：16
优化器：Adam，β=(0.9, 0.999)，ε=1e - 08
学习率调度器类型：线性
训练轮数：2 * 2 = 4
混合精度训练：原生AMP

训练结果

训练损失	轮数	步数	验证损失	Rouge1	Rouge2	Rougel	Rougelsum	生成长度
2.2349	1.0	17944	2.0643	21.9564	10.2133	17.9958	20.6502	19.9992
2.0726	2.0	35888	2.0253	22.0568	10.3302	18.0648	20.7482	19.9996
1.8658	3.0	53832	2.0333	22.0871	10.2902	18.0577	20.7082	19.998
1.8121	4.0	71776	1.9759	22.2046	10.4332	18.1753	20.846	19.9971