标签:
语言支持:
- 阿姆哈拉语
- 阿拉伯语
- 阿塞拜疆语
- 孟加拉语
- 缅甸语
- 简体中文
- 繁体中文
- 英语
- 法语
- 古吉拉特语
- 豪萨语
- 印地语
- 伊博语
- 印尼语
- 日语
- 基隆迪语
- 韩语
- 吉尔吉斯语
- 马拉地语
- 尼泊尔语
- 奥罗莫语
- 普什图语
- 波斯语
- 皮钦语
- 葡萄牙语
- 旁遮普语
- 俄语
- 苏格兰盖尔语
- 塞尔维亚语(西里尔字母)
- 塞尔维亚语(拉丁字母)
- 僧伽罗语
- 索马里语
- 西班牙语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 提格里尼亚语
- 土耳其语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 威尔士语
- 约鲁巴语
许可证:
- 知识共享署名-非商业性使用-相同方式共享4.0协议
示例输入:
- 文本: >-
该公司表示,宣称获批疫苗会导致自闭症、癌症或不孕等危害的视频将被下架。这项政策还包括封禁反疫苗意见领袖的账号。科技巨头因未能在其平台上更有效打击虚假健康信息而受到批评。今年7月,美国总统拜登指出社交媒体平台通过传播错误信息,极大助长了民众对接种疫苗的怀疑态度,并呼吁平台解决此问题。谷歌旗下YouTube表示,自去年实施禁止传播新冠疫苗不实信息的规定以来,已移除13万条相关视频。在一篇博客中,该公司指出关于新冠疫苗的虚假指控已"蔓延至对疫苗整体的误解"。新政策涵盖麻疹、乙肝等长期获批的疫苗。"我们正与地方卫生部门和世卫组织合作,基于当前获批且被证实安全有效的疫苗,扩展YouTube医疗不实信息政策指南,"博客中提及世界卫生组织时写道。
数据集:
mT5-m2m-CrossSum增强版
本仓库包含基于CrossSum数据集所有跨语言对微调的增强型多对多(m2m)mT5模型。该模型能够以指定目标语言生成任意源语言文本的摘要。微调细节和脚本详见论文及官方代码库。
在transformers
中使用本模型(测试版本4.11.0.dev0)
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
article_text = """视频内容声称获批疫苗会导致自闭症、癌症或不孕等将被下架,公司声明称。该政策还包括封禁反疫苗网红账号。科技巨头因未有效遏制平台健康虚假信息受批评。七月时,美国总统拜登指出社交媒体通过传播错误信息助长疫苗怀疑论,呼吁整改。谷歌旗下YouTube表示自去年实施新冠疫苗不实信息禁令以来,已移除13万条视频。博客文章指出,关于新冠疫苗的虚假指控已"泛化至疫苗整体误解"。新政策涵盖麻疹、乙肝等长期获批疫苗。"我们正与地方卫生机构和世卫组织合作,基于当前被证实安全有效的疫苗,扩展YouTube医疗不实信息政策指南,"文中提及世界卫生组织时表示。"""
model_name = "csebuetnlp/mT5_m2m_crossSum_enhanced"
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
get_lang_id = lambda lang: tokenizer._convert_token_to_id(
model.config.task_specific_params["langid_map"][lang][1]
)
target_lang = "chinese_simplified"
input_ids = tokenizer(
[WHITESPACE_HANDLER(article_text)],
return_tensors="pt",
padding="max_length",
truncation=True,
max_length=512
)["input_ids"]
output_ids = model.generate(
input_ids=input_ids,
decoder_start_token_id=get_lang_id(target_lang),
max_length=84,
no_repeat_ngram_size=2,
num_beams=4,
)[0]
summary = tokenizer.decode(
output_ids,
skip_special_tokens=True,
clean_up_tokenization_spaces=False
)
print(summary)
支持的目标语言名称
- 阿姆哈拉语
- 阿拉伯语
- 阿塞拜疆语
- 孟加拉语
- 缅甸语
- 简体中文
- 繁体中文
- 英语
- 法语
- 古吉拉特语
- 豪萨语
- 印地语
- 伊博语
- 印尼语
- 日语
- 基隆迪语
- 韩语
- 吉尔吉斯语
- 马拉地语
- 尼泊尔语
- 奥罗莫语
- 普什图语
- 波斯语
- 皮钦语
- 葡萄牙语
- 旁遮普语
- 俄语
- 苏格兰盖尔语
- 塞尔维亚语(西里尔字母)
- 塞尔维亚语(拉丁字母)
- 僧伽罗语
- 索马里语
- 西班牙语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 提格里尼亚语
- 土耳其语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 威尔士语
- 约鲁巴语
引用
若使用本模型,请引用以下论文:
@article{hasan2021crosssum,
author = {Tahmid Hasan and Abhik Bhattacharjee and Wasi Uddin Ahmad and Yuan-Fang Li and Yong-bin Kang and Rifat Shahriyar},
title = {CrossSum: Beyond English-Centric Cross-Lingual Abstractive Text Summarization for 1500+ Language Pairs},
journal = {CoRR},
volume = {abs/2112.08804},
year = {2021},
url = {https://arxiv.org/abs/2112.08804},
eprinttype = {arXiv},
eprint = {2112.08804}
}