标签:
- 摘要生成
- mT5模型
数据集:
- csebuetnlp/xlsum
支持语言:
- 阿姆哈拉语
- 阿拉伯语
- 阿塞拜疆语
- 孟加拉语
- 缅甸语
- 中文
- 英语
- 法语
- 古吉拉特语
- 豪萨语
- 印地语
- 伊博语
- 印尼语
- 日语
- 基隆迪语
- 韩语
- 吉尔吉斯语
- 马拉地语
- 尼泊尔语
- 奥罗莫语
- 普什图语
- 波斯语
- 皮钦语
- 葡萄牙语
- 旁遮普语
- 俄语
- 苏格兰盖尔语
- 塞尔维亚语(西里尔)
- 僧伽罗语
- 索马里语
- 西班牙语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 提格里尼亚语
- 土耳其语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 威尔士语
- 约鲁巴语
许可证:
- 知识共享-非商业性使用-相同方式共享4.0
示例输入:
- 文本: 该公司表示,宣称获批疫苗危险并导致自闭症、癌症或不孕的视频将被下架。该政策包括封禁反疫苗影响者的账户。科技巨头因未采取更多措施打击其平台上的虚假健康信息而受到批评。7月,美国总统拜登表示,社交媒体平台通过传播错误信息,对人们接种疫苗的怀疑态度负有很大责任,并呼吁它们解决这个问题。谷歌旗下的YouTube表示,自去年实施禁止传播有关新冠疫苗错误信息的内容以来,已从其平台删除了13万个视频。在一篇博客文章中,该公司表示已看到关于新冠疫苗的错误说法"蔓延到关于疫苗的普遍错误信息"。新政策涵盖长期获批的疫苗,如麻疹或乙肝疫苗。"我们正在扩大YouTube上的医疗错误信息政策,新增关于当地卫生部门和世界卫生组织批准并确认安全有效的当前接种疫苗的新指南,"文章称,指的是世界卫生组织。
模型索引:
- 名称: csebuetnlp/mT5_multilingual_XLSum
结果:
- 任务:
类型: 摘要生成
名称: 摘要生成
数据集:
名称: xsum
类型: xsum
配置: 默认
分割: 测试集
指标:
- 名称: ROUGE-1
类型: rouge
值: 36.5002
已验证: 是
- 名称: ROUGE-2
类型: rouge
值: 13.934
已验证: 是
- 名称: ROUGE-L
类型: rouge
值: 28.9876
已验证: 是
- 名称: ROUGE-LSUM
类型: rouge
值: 28.9958
已验证: 是
- 名称: 损失值
类型: 损失值
值: 2.0674800872802734
已验证: 是
- 名称: 生成长度
类型: 生成长度
值: 26.9733
已验证: 是
mT5多语言XLSum模型
本仓库包含基于XL-Sum数据集45种语言微调的mT5检查点。关于微调细节和脚本,请参阅论文和官方仓库。
在transformers
中使用该模型(测试版本4.11.0.dev0)
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
article_text = """该公司表示,宣称获批疫苗危险并导致自闭症、癌症或不孕的视频将被下架...(示例文本延续)"""
model_name = "csebuetnlp/mT5_multilingual_XLSum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
input_ids = tokenizer(
[WHITESPACE_HANDLER(article_text)],
return_tensors="pt",
padding="max_length",
truncation=True,
max_length=512
)["input_ids"]
output_ids = model.generate(
input_ids=input_ids,
max_length=84,
no_repeat_ngram_size=2,
num_beams=4
)[0]
summary = tokenizer.decode(
output_ids,
skip_special_tokens=True,
clean_up_tokenization_spaces=False
)
print(summary)
基准测试
XL-Sum测试集上的得分如下:
语言 |
ROUGE-1 / ROUGE-2 / ROUGE-L |
阿姆哈拉语 |
20.0485 / 7.4111 / 18.0753 |
阿拉伯语 |
34.9107 / 14.7937 / 29.1623 |
...(其他语言分数延续) |
|
引用
如果使用本模型,请引用以下论文:
@inproceedings{hasan-etal-2021-xl,
title = "{XL}-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages",
author = "Hasan, Tahmid 等",
booktitle = "ACL-IJCNLP 2021会议论文集",
year = "2021",
pages = "4693--4703",
}