语言:
- 多语言
- 阿拉伯语 (ar)
- 捷克语 (cs)
- 德语 (de)
- 英语 (en)
- 西班牙语 (es)
- 爱沙尼亚语 (et)
- 芬兰语 (fi)
- 法语 (fr)
- 古吉拉特语 (gu)
- 印地语 (hi)
- 意大利语 (it)
- 日语 (ja)
- 哈萨克语 (kk)
- 韩语 (ko)
- 立陶宛语 (lt)
- 拉脱维亚语 (lv)
- 缅甸语 (my)
- 尼泊尔语 (ne)
- 荷兰语 (nl)
- 罗马尼亚语 (ro)
- 俄语 (ru)
- 僧伽罗语 (si)
- 土耳其语 (tr)
- 越南语 (vi)
- 中文 (zh)
- 南非荷兰语 (af)
- 阿塞拜疆语 (az)
- 孟加拉语 (bn)
- 波斯语 (fa)
- 希伯来语 (he)
- 克罗地亚语 (hr)
- 印尼语 (id)
- 格鲁吉亚语 (ka)
- 高棉语 (km)
- 马其顿语 (mk)
- 马拉雅拉姆语 (ml)
- 蒙古语 (mn)
- 马拉地语 (mr)
- 波兰语 (pl)
- 普什图语 (ps)
- 葡萄牙语 (pt)
- 瑞典语 (sv)
- 斯瓦希里语 (sw)
- 泰米尔语 (ta)
- 泰卢固语 (te)
- 泰语 (th)
- 他加禄语 (tl)
- 乌克兰语 (uk)
- 乌尔都语 (ur)
- 科萨语 (xh)
- 加利西亚语 (gl)
- 斯洛文尼亚语 (sl)
标签:
- mbart-50
管道标签: 翻译
mBART-50 多对多多语言机器翻译
该模型是基于 mBART-large-50 微调的检查点。mbart-large-50-many-to-many-mmt
专为多语言机器翻译任务而微调,相关论文参见《通过可扩展多语言预训练与微调实现多语言翻译》。
该模型可直接在50种语言之间进行互译。翻译时需将目标语言ID作为生成的首个标记强制指定,通过向generate
方法传递forced_bos_token_id
参数实现。
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
hindi_text = "संयुक्त राष्ट्र के प्रमुख का कहना है कि सीरिया में कोई सैन्य समाधान नहीं है"
arabic_text = "الأمين العام للأمم المتحدة يقول إنه لا يوجد حل عسكري في سوريا."
model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
tokenizer.src_lang = "hi_IN"
encoded_hi = tokenizer(hindi_text, return_tensors="pt")
generated_tokens = model.generate(
**encoded_hi,
forced_bos_token_id=tokenizer.lang_code_to_id["fr_XX"]
)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
tokenizer.src_lang = "ar_AR"
encoded_ar = tokenizer(arabic_text, return_tensors="pt")
generated_tokens = model.generate(
**encoded_ar,
forced_bos_token_id=tokenizer.lang_code_to_id["en_XX"]
)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
访问模型中心探索更多微调版本。
覆盖语言
阿拉伯语 (ar_AR)、捷克语 (cs_CZ)、德语 (de_DE)、英语 (en_XX)、西班牙语 (es_XX)、爱沙尼亚语 (et_EE)、芬兰语 (fi_FI)、法语 (fr_XX)、古吉拉特语 (gu_IN)、印地语 (hi_IN)、意大利语 (it_IT)、日语 (ja_XX)、哈萨克语 (kk_KZ)、韩语 (ko_KR)、立陶宛语 (lt_LT)、拉脱维亚语 (lv_LV)、缅甸语 (my_MM)、尼泊尔语 (ne_NP)、荷兰语 (nl_XX)、罗马尼亚语 (ro_RO)、俄语 (ru_RU)、僧伽罗语 (si_LK)、土耳其语 (tr_TR)、越南语 (vi_VN)、中文 (zh_CN)、南非荷兰语 (af_ZA)、阿塞拜疆语 (az_AZ)、孟加拉语 (bn_IN)、波斯语 (fa_IR)、希伯来语 (he_IL)、克罗地亚语 (hr_HR)、印尼语 (id_ID)、格鲁吉亚语 (ka_GE)、高棉语 (km_KH)、马其顿语 (mk_MK)、马拉雅拉姆语 (ml_IN)、蒙古语 (mn_MN)、马拉地语 (mr_IN)、波兰语 (pl_PL)、普什图语 (ps_AF)、葡萄牙语 (pt_XX)、瑞典语 (sv_SE)、斯瓦希里语 (sw_KE)、泰米尔语 (ta_IN)、泰卢固语 (te_IN)、泰语 (th_TH)、他加禄语 (tl_XX)、乌克兰语 (uk_UA)、乌尔都语 (ur_PK)、科萨语 (xh_ZA)、加利西亚语 (gl_ES)、斯洛文尼亚语 (sl_SI)
BibTeX引用信息
@article{tang2020multilingual,
title={Multilingual Translation with Extensible Multilingual Pretraining and Finetuning},
author={Yuqing Tang and Chau Tran and Xian Li and Peng-Jen Chen and Naman Goyal and Vishrav Chaudhary and Jiatao Gu and Angela Fan},
year={2020},
eprint={2008.00401},
archivePrefix={arXiv},
primaryClass={cs.CL}
}