语言: 瑞典语
许可证: MIT
标签:
- 摘要
数据集:
- Gabriel/cnn_daily_swe
小部件示例:
- 文本: '法国球员塞巴斯蒂安·沙巴尔因在巴黎举行的周六世界杯半决赛中对英格兰球员西蒙·肖的危险铲球被点名。尽管拉斐尔·伊巴内斯(左)和塞巴斯蒂安·沙巴尔在场,西蒙·肖仍被罚下。Sale Sharks前锋因对对方第二排球员肖的铲球,将于周一接受纪律听证会,此事通过引用专员丹尼斯·惠勒汉的记录被注意到。沙巴尔本场比赛从替补席开始,但在第26分钟替换受伤的法比安·佩卢上场,最终东道主法国队以14-9落败。如果被禁赛,沙巴尔将错过周五在王子公园体育场举行的第三和第四场比赛。与此同时,法国教练伯纳德·拉波特表示,这次失利比2003年半决赛英格兰24-7的胜利更难接受。"2003年他们比我们强。实际上,他们比所有人都强,"即将离任担任法国政府青年体育部长职务的拉波特说。"他们就像本届比赛的新西兰——夺冠热门,只是他们一路走到了最后。这次更难,因为昨天是五五开。"同时,英格兰——试图成为首个卫冕世界杯冠军的国家——透露,明星踢球手乔尼·威尔金森在半决赛中再次遇到比赛用球问题。这位飞鹰队员在对阵澳大利亚时曾因球靴问题表达过担忧,此次在对阵法国前拒绝了一个球,随后踢出一记关键的三分球。"我们上周没提,但马赛的场地上出现了一个非比赛用球,乔尼踢了它,"橄榄球主管罗伯·安德鲁说。"他踢的时候没想那么多。比赛用球都标有编号,从一到六。昨晚的球上写着'世界杯半决赛英格兰对法国'。比赛当晚,乔尼踢球时很警惕,确保踢的是真正的比赛用球。""训练用球会失去压力和形状。上周整个问题在于,组织方同意在周四赛前,双方应使用全部六个比赛用球。" 发送邮件给朋友。'
推理参数:
- 温度: 0.7
- 最小长度: 30
- 最大长度: 120
训练评估索引:
- 配置: Gabriel--xsum_swe
任务: 摘要
任务ID: summarization
数据分割:
评估分割: 测试
列映射:
文档: text
摘要: target
二氧化碳当量排放:
排放量: 0.0334
来源: Google Colab
训练类型: 微调
地理位置: 丹麦腓特烈西亚
使用硬件: Tesla P100-PCIE-16GB
模型索引:
- 名称: bart-base-cnn-swe
结果:
- 任务:
类型: 摘要
名称: summarization
数据集:
名称: Gabriel/cnn_daily_swe
类型: Gabriel/cnn_daily_swe
分割: 验证
指标:
- 类型: rouge-1
值: 22.2046
名称: 验证ROGUE-1
已验证: 是
验证令牌: (略)
- 类型: rouge-2
值: 10.4332
名称: 验证ROGUE-2
已验证: 是
验证令牌: (略)
- 类型: rouge-l
值: 18.1753
名称: 验证ROGUE-L
已验证: 是
验证令牌: (略)
- 类型: rouge-l-sum
值: 20.846
名称: 验证ROGUE-L-SUM
已验证: 是
验证令牌: (略)
bart-base-cnn-swe
该模型为开发中版本
模型描述
BART是一种基于Transformer的编码器-解码器(序列到序列)模型,具有双向(类似BERT)编码器和自回归(类似GPT)解码器。BART通过(1)用任意噪声函数破坏文本,(2)学习模型重建原始文本来进行预训练。本模型是在Gabriel/bart-base-cnn-swe数据集上对KBLab/bart-base-swedish-cased进行微调的版本,可用于摘要任务。
预期用途与限制
该模型应仅用于进一步微调和摘要任务。
from transformers import pipeline
summarizer = pipeline("summarization", model="Gabriel/bart-base-cnn-swe")
ARTICLE = """
(此处同上文瑞典语新闻原文)
"""
print(summarizer(ARTICLE, max_length=130, min_length=30, num_beams=10 ,do_sample=False))
>>> [{'summary_text': """ 法国球员塞巴斯蒂安·沙巴尔因在巴黎世界杯半决赛中对英格兰球员西蒙·肖的危险铲球被点名。Sale Sharks前锋因对对方第二排球员肖的铲球,将于周一接受纪律听证会,此事通过引用专员丹尼斯·惠勒汉的记录被注意到。如果沙巴尔被禁赛,将错过周五在王子公园体育场举行的第三和第四场比赛。"""}]
训练过程
训练超参数
训练中使用以下超参数:
- 学习率: 5e-05
- 训练批次大小: 8
- 评估批次大小: 8
- 随机种子: 42
- 梯度累积步数: 2
- 总训练批次大小: 16
- 优化器: 带betas=(0.9,0.999)和epsilon=1e-08的Adam
- 学习率调度器类型: 线性
- 训练轮次: 2*2 = 4
- 混合精度训练: 原生AMP
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
Rouge1 |
Rouge2 |
Rougel |
Rougelsum |
生成长度 |
2.2349 |
1.0 |
17944 |
2.0643 |
21.9564 |
10.2133 |
17.9958 |
20.6502 |
19.9992 |
2.0726 |
2.0 |
35888 |
2.0253 |
22.0568 |
10.3302 |
18.0648 |
20.7482 |
19.9996 |
1.8658 |
3.0 |
53832 |
2.0333 |
22.0871 |
10.2902 |
18.0577 |
20.7082 |
19.998 |
1.8121 |
4.0 |
71776 |
1.9759 |
22.2046 |
10.4332 |
18.1753 |
20.846 |
19.9971 |
框架版本
- Transformers 4.22.1
- Pytorch 1.12.1+cu113
- Datasets 2.4.0
- Tokenizers 0.12.1