标签:
- 摘要生成
- mT5模型
语言:
- 阿姆哈拉语
- 阿拉伯语
- 阿塞拜疆语
- 孟加拉语
- 缅甸语
- 中文
- 英语
- 法语
- 古吉拉特语
- 豪萨语
- 印地语
- 伊博语
- 印尼语
- 日语
- 基隆迪语
- 韩语
- 吉尔吉斯语
- 马拉地语
- 尼泊尔语
- 奥罗莫语
- 普什图语
- 波斯语
- 皮钦语
- 葡萄牙语
- 旁遮普语
- 俄语
- 苏格兰盖尔语
- 塞尔维亚语(西里尔字母)
- 塞尔维亚语(拉丁字母)
- 僧伽罗语
- 索马里语
- 西班牙语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 提格里尼亚语
- 土耳其语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 威尔士语
- 约鲁巴语
许可证:
- 知识共享-非商业性使用-相同方式共享4.0
示例输入:
- 文本: >-
该公司表示,宣称获批疫苗危险并会导致自闭症、癌症或不孕的视频将被下架。该政策包括封禁反疫苗影响者的账户。科技巨头因未在其平台上更积极地打击虚假健康信息而受到批评。今年7月,美国总统乔·拜登称社交媒体平台通过传播错误信息,在很大程度上导致了人们对接种疫苗的怀疑,并呼吁它们解决这一问题。谷歌旗下的YouTube表示,自去年实施禁止传播新冠疫苗错误内容的规定以来,已从其平台删除了13万个视频。在一篇博客文章中,该公司表示已发现关于新冠疫苗的错误说法"蔓延至对疫苗整体的错误信息"。新政策涵盖长期获批的疫苗,如麻疹或乙肝疫苗。"我们正在扩展YouTube上的医疗错误信息政策,新增关于当前接种疫苗的指导原则,这些疫苗已获地方卫生部门和世界卫生组织批准并确认安全有效,"文章提到世界卫生组织时说道。
数据集:
- csebuetnlp/CrossSum
mT5-m2m-CrossSum
本仓库包含基于CrossSum数据集所有跨语言对进行微调的多对多(m2m)mT5检查点。该模型能够以指定目标语言摘要任何语言的文本。微调细节和脚本请参阅论文及官方仓库。
在transformers
中使用该模型(测试版本4.11.0.dev0)
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
article_text = """公司声明,宣称获批疫苗危险并会导致自闭症、癌症或不孕的视频将被下架。该政策包括封禁反疫苗影响者的账户。科技巨头因未积极打击平台虚假健康信息而受批评。7月美国总统拜登指出,社交媒体传播错误信息是导致民众接种疑虑的主因,呼吁平台解决问题。谷歌旗下YouTube表示,自去年禁止新冠疫苗不实内容以来已删除13万视频。博客文章称,关于新冠疫苗的错误说法已"扩散为对疫苗整体的误解"。新政策涵盖麻疹、乙肝等长期获批疫苗。"我们正依据地方卫生部门和世卫组织的安全有效性认证,扩展YouTube医疗不实信息政策,新增现行接种疫苗指南。"文中提及世界卫生组织时表示。"""
model_name = "csebuetnlp/mT5_m2m_crossSum"
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
get_lang_id = lambda lang: tokenizer._convert_token_to_id(
model.config.task_specific_params["langid_map"][lang][1]
)
target_lang = "chinese_simplified"
input_ids = tokenizer(
[WHITESPACE_HANDLER(article_text)],
return_tensors="pt",
padding="max_length",
truncation=True,
max_length=512
)["input_ids"]
output_ids = model.generate(
input_ids=input_ids,
decoder_start_token_id=get_lang_id(target_lang),
max_length=84,
no_repeat_ngram_size=2,
num_beams=4,
)[0]
summary = tokenizer.decode(
output_ids,
skip_special_tokens=True,
clean_up_tokenization_spaces=False
)
print(summary)
可用目标语言名称
阿姆哈拉语
阿拉伯语
阿塞拜疆语
孟加拉语
缅甸语
简体中文
繁体中文
英语
法语
古吉拉特语
豪萨语
印地语
伊博语
印尼语
日语
基隆迪语
韩语
吉尔吉斯语
马拉地语
尼泊尔语
奥罗莫语
普什图语
波斯语
皮钦语
葡萄牙语
旁遮普语
俄语
苏格兰盖尔语
塞尔维亚语(西里尔字母)
塞尔维亚语(拉丁字母)
僧伽罗语
索马里语
西班牙语
斯瓦希里语
泰米尔语
泰卢固语
泰语
提格里尼亚语
土耳其语
乌克兰语
乌尔都语
乌兹别克语
越南语
威尔士语
约鲁巴语
引用
若使用本模型,请引用以下论文:
@article{hasan2021crosssum,
author = {Tahmid Hasan and Abhik Bhattacharjee and Wasi Uddin Ahmad and Yuan-Fang Li and Yong-bin Kang and Rifat Shahriyar},
title = {CrossSum: Beyond English-Centric Cross-Lingual Abstractive Text Summarization for 1500+ Language Pairs},
journal = {CoRR},
volume = {abs/2112.08804},
year = {2021},
url = {https://arxiv.org/abs/2112.08804},
eprinttype = {arXiv},
eprint = {2112.08804}
}