语言:
标签:
许可证: cc-by-4.0
模型索引:
- 名称: opus-mt-tc-big-en-zle
结果:
- 任务:
名称: 英语-俄语翻译
类型: 翻译
参数: eng-rus
数据集:
名称: flores101-devtest
类型: flores_101
参数: eng rus devtest
指标:
- 名称: BLEU
类型: bleu
值: 32.7
- 任务:
名称: 英语-乌克兰语翻译
类型: 翻译
参数: eng-ukr
数据集:
名称: flores101-devtest
类型: flores_101
参数: eng ukr devtest
指标:
- 名称: BLEU
类型: bleu
值: 32.1
- 任务:
名称: 英语-白俄罗斯语翻译
类型: 翻译
参数: eng-bel
数据集:
名称: tatoeba-test-v2021-08-07
类型: tatoeba_mt
参数: eng-bel
指标:
- 名称: BLEU
类型: bleu
值: 24.9
- 任务:
名称: 英语-俄语翻译
类型: 翻译
参数: eng-rus
数据集:
名称: tatoeba-test-v2021-08-07
类型: tatoeba_mt
参数: eng-rus
指标:
- 名称: BLEU
类型: bleu
值: 45.5
- 任务:
名称: 英语-乌克兰语翻译
类型: 翻译
参数: eng-ukr
数据集:
名称: tatoeba-test-v2021-08-07
类型: tatoeba_mt
参数: eng-ukr
指标:
- 名称: BLEU
类型: bleu
值: 37.7
- 任务:
名称: 英语-俄语翻译
类型: 翻译
参数: eng-rus
数据集:
名称: tico19-test
类型: tico19-test
参数: eng-rus
指标:
- 名称: BLEU
类型: bleu
值: 33.7
- 任务:
名称: 英语-俄语翻译
类型: 翻译
参数: eng-rus
数据集:
名称: newstest2012
类型: wmt-2012-news
参数: eng-rus
指标:
- 名称: BLEU
类型: bleu
值: 36.8
- 任务:
名称: 英语-俄语翻译
类型: 翻译
参数: eng-rus
数据集:
名称: newstest2013
类型: wmt-2013-news
参数: eng-rus
指标:
- 名称: BLEU
类型: bleu
值: 26.9
- 任务:
名称: 英语-俄语翻译
类型: 翻译
参数: eng-rus
数据集:
名称: newstest2014
类型: wmt-2014-news
参数: eng-rus
指标:
- 名称: BLEU
类型: bleu
值: 43.5
- 任务:
名称: 英语-俄语翻译
类型: 翻译
参数: eng-rus
数据集:
名称: newstest2015
类型: wmt-2015-news
参数: eng-rus
指标:
- 名称: BLEU
类型: bleu
值: 34.9
- 任务:
名称: 英语-俄语翻译
类型: 翻译
参数: eng-rus
数据集:
名称: newstest2016
类型: wmt-2016-news
参数: eng-rus
指标:
- 名称: BLEU
类型: bleu
值: 33.1
- 任务:
名称: 英语-俄语翻译
类型: 翻译
参数: eng-rus
数据集:
名称: newstest2017
类型: wmt-2017-news
参数: eng-rus
指标:
- 名称: BLEU
类型: bleu
值: 37.3
- 任务:
名称: 英语-俄语翻译
类型: 翻译
参数: eng-rus
数据集:
名称: newstest2018
类型: wmt-2018-news
参数: eng-rus
指标:
- 名称: BLEU
类型: bleu
值: 32.9
- 任务:
名称: 英语-俄语翻译
类型: 翻译
参数: eng-rus
数据集:
名称: newstest2019
类型: wmt-2019-news
参数: eng-rus
指标:
- 名称: BLEU
类型: bleu
值: 31.8
- 任务:
名称: 英语-俄语翻译
类型: 翻译
参数: eng-rus
数据集:
名称: newstest2020
类型: wmt-2020-news
参数: eng-rus
指标:
- 名称: BLEU
类型: bleu
值: 25.5
opus-mt-tc-big-en-zle
用于从英语(en)翻译至东斯拉夫语族(zle)的神经机器翻译模型。
该模型是OPUS-MT项目的一部分,旨在使神经机器翻译模型在全球多种语言中广泛可用和易于获取。所有模型最初均使用高效的纯C++编写的Marian NMT框架训练。模型已通过huggingface的transformers库转换为pyTorch格式。训练数据取自OPUS,训练流程采用OPUS-MT-train的程序。
模型信息
这是一个多目标语言的翻译模型。需要在句子前添加形式为>>id<<
(id为有效目标语言ID)的语言标记,例如>>bel<<
。
使用示例
简短示例代码:
from transformers import MarianMTModel, MarianTokenizer
src_text = [
">>rus<< Are they coming as well?",
">>rus<< I didn't let Tom do what he wanted to do."
]
model_name = "pytorch-models/opus-mt-tc-big-en-zle"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))
for t in translated:
print( tokenizer.decode(t, skip_special_tokens=True) )
也可以使用transformers的pipeline功能,例如:
from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-en-zle")
print(pipe(">>rus<< Are they coming as well?"))
性能评估
语言对 |
测试集 |
chr-F |
BLEU |
句子数 |
词数 |
eng-bel |
tatoeba-test-v2021-08-07 |
0.50345 |
24.9 |
2500 |
16237 |
eng-rus |
tatoeba-test-v2021-08-07 |
0.66182 |
45.5 |
19425 |
134296 |
eng-ukr |
tatoeba-test-v2021-08-07 |
0.60175 |
37.7 |
13127 |
80998 |
eng-bel |
flores101-devtest |
0.42078 |
11.2 |
1012 |
24829 |
eng-rus |
flores101-devtest |
0.59654 |
32.7 |
1012 |
23295 |
eng-ukr |
flores101-devtest |
0.60131 |
32.1 |
1012 |
22810 |
eng-rus |
newstest2012 |
0.62842 |
36.8 |
3003 |
64790 |
eng-rus |
newstest2013 |
0.54627 |
26.9 |
3000 |
58560 |
eng-rus |
newstest2014 |
0.68348 |
43.5 |
3003 |
61603 |
eng-rus |
newstest2015 |
0.62621 |
34.9 |
2818 |
55915 |
eng-rus |
newstest2016 |
0.60595 |
33.1 |
2998 |
62014 |
eng-rus |
newstest2017 |
0.64249 |
37.3 |
3001 |
60253 |
eng-rus |
newstest2018 |
0.61219 |
32.9 |
3000 |
61907 |
eng-rus |
newstest2019 |
0.57902 |
31.8 |
1997 |
48147 |
eng-rus |
newstest2020 |
0.52939 |
25.5 |
2002 |
47083 |
eng-rus |
tico19-test |
0.59314 |
33.7 |
2100 |
55843 |
致谢
本工作由欧洲语言网格作为试点项目2866、由FoTran项目(欧洲研究理事会(ERC)根据欧盟Horizon 2020研究与创新计划资助,协议编号771113)以及MeMAD项目(欧盟Horizon 2020研究与创新计划资助,协议编号780069)支持