语言:
- 多语言
- 英语
- 德语
- 荷兰语
- 瑞典语
- 丹麦语
- 南非荷兰语
- 法语
- 西班牙语
- 意大利语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 捷克语
- 波兰语
- 保加利亚语
- 乌克兰语
- 印尼语
- 爪哇语
- 马来语
- 他加禄语
- 日语
- 中文
- 韩语
- 越南语
许可证: mit
管道标签: 翻译
MITRE 913M
描述
MITRE(多语言翻译与注册)是一个多语言、仅解码器模型,专为多对多翻译任务设计。
该技术(即注册)在我们的论文中介绍。
此存储库允许您使用我们的预训练模型进行推理。如果您想重现数据挖掘和训练过程,请参考此存储库。
该模型支持24种语言跨越5个语系的552个方向的直接翻译。
您可以通过transformers
库直接使用我们的模型。
MITRE的另一个版本,参数为466M,也可在此存储库中找到。
使用方法
在使用分词器之前,您需要先运行pip install sentencepiece
。
您可以通过以下方式简单地调用分词器和模型:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("naist-nlp/mitre_913m", trust_remote_code=True, use_fast=False)
model = AutoModel.from_pretrained("naist-nlp/mitre_913m", trust_remote_code=True)
要在本地使用此模型并查看代码,您可以克隆此中心,然后:
from mitre_913m.tokenization_mitre import MitreTokenizer
from mitre_913m.modeling_mitre import MitreForConditionalGeneration
tokenizer = MitreTokenizer.from_pretrained("mitre_913m")
model = MitreForConditionalGeneration.from_pretrained("mitre_913m")
获取模型和分词器对象后,我们可以进行翻译。
english_text = "I have a red apple."
chinese_text = "我有一个红苹果。"
model.half()
model.eval()
src_tokens = tokenizer.encode_source_tokens_to_input_ids([english_text, ], target_language="zh")
generated_tokens = model.generate(src_tokens.cuda())
results = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(results)
注意事项
我们基本上遵循M2M的风格,但做了一些必要的改进以减少生成成本。
您可以参考modeling_mitre.py中的'generate()'代码了解更多细节。
此外,我们计划实现FlashAttention V2以进一步提升我们的模型,这将尽快更新。
覆盖的语言
日耳曼语系: 英语 (en), 德语 (de), 荷兰语; 佛兰芒语 (nl), 瑞典语 (sv), 丹麦语 (da), 南非荷兰语 (af)
罗曼语系: 法语 (fr), 西班牙语 (es), 意大利语 (it), 葡萄牙语 (pt), 罗马尼亚语; 摩尔多瓦语 (ro)
斯拉夫语系: 俄语 (ru), 捷克语 (cs), 波兰语 (pl), 保加利亚语 (bg), 乌克兰语 (uk)
马来-波利尼西亚语系: 印尼语 (id), 马来语 (ms), 爪哇语 (jv), 他加禄语;菲律宾语 (tl)
亚洲*语系: 中文 (zh), 日语 (ja), 韩语 (ko), 越南语 (vi)
BibTeX条目和引用信息
@misc{qu2025registeringsourcetokenstarget,
title={Registering Source Tokens to Target Language Spaces in Multilingual Neural Machine Translation},
author={Zhi Qu and Yiran Wang and Jiannan Mao and Chenchen Ding and Hideki Tanaka and Masao Utiyama and Taro Watanabe},
year={2025},
eprint={2501.02979},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.02979},
}