mbart-large-50-many-to-many-mmt开源多语言翻译模型

首页

Mbart Large 50 Many To Many Mmt

由 facebook 开发

基于mBART-large-50微调的多语言机器翻译模型，支持50种语言间的互译

机器翻译支持多种语言#50语种互译 #无需中间语 #多语言预训练

下载量 404.66k

发布时间 : 3/2/2022

模型简介

该模型专为多语言机器翻译任务设计，可直接在50种语言之间进行互译，需通过指定目标语言ID实现翻译方向控制。

模型特点

多语言直接互译

支持50种语言间的直接互译，无需通过英语中转

目标语言控制

通过forced_bos_token_id参数指定目标语言ID，灵活控制翻译方向

大规模预训练

基于mBART-large-50架构，经过大规模多语言预训练

模型能力

文本翻译

多语言处理

跨语言转换

使用案例

多语言服务

国际组织文档翻译

为联合国等国际机构提供多语言文档即时翻译服务

实现50种官方语言间的无缝互译

多语言内容平台

支持新闻媒体、社交平台的内容多语言发布

单次翻译即可覆盖多种语言受众

商业应用

跨境电商

实现商品描述的多语言本地化

提升全球市场覆盖率和转化率

🚀 mBART - 50 多对多多语言机器翻译

mBART - 50 是一个强大的多语言机器翻译模型，它能够在 50 种语言之间直接进行翻译，为跨语言交流提供了高效的解决方案。

🚀 快速开始

本模型是 mBART - large - 50 的微调版本。mbart-large-50-many-to-many-mmt 针对多语言机器翻译进行了微调，其相关研究在 Multilingual Translation with Extensible Multilingual Pretraining and Finetuning 论文中被提出。

该模型可以在任意 50 种语言对之间直接进行翻译。若要将内容翻译成目标语言，需要将目标语言 ID 作为首个生成的标记。可通过向 generate 方法传递 forced_bos_token_id 参数来实现这一操作。

💻 使用示例

基础用法

from transformers import MBartForConditionalGeneration, MBart50TokenizerFast

article_hi = "संयुक्त राष्ट्र के प्रमुख का कहना है कि सीरिया में कोई सैन्य समाधान नहीं है"
article_ar = "الأمين العام للأمم المتحدة يقول إنه لا يوجد حل عسكري في سوريا."

model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")

# translate Hindi to French
tokenizer.src_lang = "hi_IN"
encoded_hi = tokenizer(article_hi, return_tensors="pt")
generated_tokens = model.generate(
    **encoded_hi,
    forced_bos_token_id=tokenizer.lang_code_to_id["fr_XX"]
)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# => "Le chef de l 'ONU affirme qu 'il n 'y a pas de solution militaire dans la Syrie."

# translate Arabic to English
tokenizer.src_lang = "ar_AR"
encoded_ar = tokenizer(article_ar, return_tensors="pt")
generated_tokens = model.generate(
    **encoded_ar,
    forced_bos_token_id=tokenizer.lang_code_to_id["en_XX"]
)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# => "The Secretary-General of the United Nations says there is no military solution in Syria."

📚 详细文档

可前往模型中心查找更多微调版本。

📋 支持语言

属性	详情
支持语言	阿拉伯语 (ar_AR)、捷克语 (cs_CZ)、德语 (de_DE)、英语 (en_XX)、西班牙语 (es_XX)、爱沙尼亚语 (et_EE)、芬兰语 (fi_FI)、法语 (fr_XX)、古吉拉特语 (gu_IN)、印地语 (hi_IN)、意大利语 (it_IT)、日语 (ja_XX)、哈萨克语 (kk_KZ)、韩语 (ko_KR)、立陶宛语 (lt_LT)、拉脱维亚语 (lv_LV)、缅甸语 (my_MM)、尼泊尔语 (ne_NP)、荷兰语 (nl_XX)、罗马尼亚语 (ro_RO)、俄语 (ru_RU)、僧伽罗语 (si_LK)、土耳其语 (tr_TR)、越南语 (vi_VN)、中文 (zh_CN)、南非荷兰语 (af_ZA)、阿塞拜疆语 (az_AZ)、孟加拉语 (bn_IN)、波斯语 (fa_IR)、希伯来语 (he_IL)、克罗地亚语 (hr_HR)、印尼语 (id_ID)、格鲁吉亚语 (ka_GE)、高棉语 (km_KH)、马其顿语 (mk_MK)、马拉雅拉姆语 (ml_IN)、蒙古语 (mn_MN)、马拉地语 (mr_IN)、波兰语 (pl_PL)、普什图语 (ps_AF)、葡萄牙语 (pt_XX)、瑞典语 (sv_SE)、斯瓦希里语 (sw_KE)、泰米尔语 (ta_IN)、泰卢固语 (te_IN)、泰语 (th_TH)、他加禄语 (tl_XX)、乌克兰语 (uk_UA)、乌尔都语 (ur_PK)、科萨语 (xh_ZA)、加利西亚语 (gl_ES)、斯洛文尼亚语 (sl_SI)

属性

详情

支持语言

阿拉伯语 (ar_AR)、捷克语 (cs_CZ)、德语 (de_DE)、英语 (en_XX)、西班牙语 (es_XX)、爱沙尼亚语 (et_EE)、芬兰语 (fi_FI)、法语 (fr_XX)、古吉拉特语 (gu_IN)、印地语 (hi_IN)、意大利语 (it_IT)、日语 (ja_XX)、哈萨克语 (kk_KZ)、韩语 (ko_KR)、立陶宛语 (lt_LT)、拉脱维亚语 (lv_LV)、缅甸语 (my_MM)、尼泊尔语 (ne_NP)、荷兰语 (nl_XX)、罗马尼亚语 (ro_RO)、俄语 (ru_RU)、僧伽罗语 (si_LK)、土耳其语 (tr_TR)、越南语 (vi_VN)、中文 (zh_CN)、南非荷兰语 (af_ZA)、阿塞拜疆语 (az_AZ)、孟加拉语 (bn_IN)、波斯语 (fa_IR)、希伯来语 (he_IL)、克罗地亚语 (hr_HR)、印尼语 (id_ID)、格鲁吉亚语 (ka_GE)、高棉语 (km_KH)、马其顿语 (mk_MK)、马拉雅拉姆语 (ml_IN)、蒙古语 (mn_MN)、马拉地语 (mr_IN)、波兰语 (pl_PL)、普什图语 (ps_AF)、葡萄牙语 (pt_XX)、瑞典语 (sv_SE)、斯瓦希里语 (sw_KE)、泰米尔语 (ta_IN)、泰卢固语 (te_IN)、泰语 (th_TH)、他加禄语 (tl_XX)、乌克兰语 (uk_UA)、乌尔都语 (ur_PK)、科萨语 (xh_ZA)、加利西亚语 (gl_ES)、斯洛文尼亚语 (sl_SI)

📖 引用信息

@article{tang2020multilingual,
    title={Multilingual Translation with Extensible Multilingual Pretraining and Finetuning},
    author={Yuqing Tang and Chau Tran and Xian Li and Peng-Jen Chen and Naman Goyal and Vishrav Chaudhary and Jiatao Gu and Angela Fan},
    year={2020},
    eprint={2008.00401},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}