🚀 eng - fiu 英文到芬兰 - 乌戈尔语族翻译项目
本项目专注于英文到芬兰 - 乌戈尔语族语言的翻译,采用了先进的Transformer模型,为跨语言交流提供了有力支持。
🚀 快速开始
本项目提供了英文到芬兰 - 乌戈尔语族多种语言的翻译模型,你可以通过下载模型权重并结合相应的预处理方法来使用该模型。
✨ 主要特性
- 多语言支持:支持多种芬兰 - 乌戈尔语族语言的翻译,包括爱沙尼亚语(est)、芬兰语(fin)、匈牙利语(hun)等。
- 先进模型:采用Transformer模型进行翻译任务。
- 预处理:使用归一化和SentencePiece(spm32k, spm32k)进行预处理。
📦 安装指南
你可以从以下链接下载原始模型权重:
opus2m - 2020 - 08 - 01.zip
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
Transformer |
源语言 |
英文(eng) |
目标语言 |
爱沙尼亚语(est)、芬兰语(fin)、富尔辛语(fkv_Latn)、匈牙利语(hun)、伊热尔语(izh)、科米语(kpv)、卡累利阿语(krl)、利沃尼亚语(liv_Latn)、莫克沙语(mdf)、马里语(mhr)、埃尔齐亚语(myv)、南萨米语(sma)、北萨米语(sme)、乌德穆尔特语(udm)、沃罗语(vro) |
预处理 |
归一化 + SentencePiece(spm32k, spm32k) |
语言标记要求 |
需要以 >>id<< 形式的句子初始语言标记(id 为有效的目标语言 ID) |
测试集信息
基准测试
测试集 |
BLEU |
chr - F |
newsdev2015 - enfi - engfin.eng.fin |
18.7 |
0.522 |
newsdev2018 - enet - engest.eng.est |
19.4 |
0.521 |
newssyscomb2009 - enghun.eng.hun |
15.5 |
0.472 |
newstest2009 - enghun.eng.hun |
15.4 |
0.468 |
newstest2015 - enfi - engfin.eng.fin |
19.9 |
0.532 |
newstest2016 - enfi - engfin.eng.fin |
21.1 |
0.544 |
newstest2017 - enfi - engfin.eng.fin |
23.8 |
0.567 |
newstest2018 - enet - engest.eng.est |
20.4 |
0.532 |
newstest2018 - enfi - engfin.eng.fin |
15.6 |
0.498 |
newstest2019 - enfi - engfin.eng.fin |
20.0 |
0.520 |
newstestB2016 - enfi - engfin.eng.fin |
17.0 |
0.512 |
newstestB2017 - enfi - engfin.eng.fin |
19.7 |
0.531 |
Tatoeba - test.eng - chm.eng.chm |
0.9 |
0.115 |
Tatoeba - test.eng - est.eng.est |
49.8 |
0.689 |
Tatoeba - test.eng - fin.eng.fin |
34.7 |
0.597 |
Tatoeba - test.eng - fkv.eng.fkv |
1.3 |
0.187 |
Tatoeba - test.eng - hun.eng.hun |
35.2 |
0.589 |
Tatoeba - test.eng - izh.eng.izh |
6.0 |
0.163 |
Tatoeba - test.eng - kom.eng.kom |
3.4 |
0.012 |
Tatoeba - test.eng - krl.eng.krl |
6.4 |
0.202 |
Tatoeba - test.eng - liv.eng.liv |
1.6 |
0.102 |
Tatoeba - test.eng - mdf.eng.mdf |
3.7 |
0.008 |
Tatoeba - test.eng.multi |
35.4 |
0.590 |
Tatoeba - test.eng - myv.eng.myv |
1.4 |
0.014 |
Tatoeba - test.eng - sma.eng.sma |
2.6 |
0.097 |
Tatoeba - test.eng - sme.eng.sme |
7.3 |
0.221 |
Tatoeba - test.eng - udm.eng.udm |
1.4 |
0.079 |
系统信息
- Hugging Face 名称:eng - fiu
- 源语言:英文(eng)
- 目标语言:芬兰 - 乌戈尔语族(fiu)
- OPUS 文档链接:https://github.com/Helsinki - NLP/Tatoeba - Challenge/tree/master/models/eng - fiu/README.md
- 原始仓库:Tatoeba - Challenge
- 标签:['翻译']
- 支持语言:['en', 'se', 'fi', 'hu', 'et', 'fiu']
- 源语言组成:{'eng'}
- 目标语言组成:{'izh', 'mdf', 'vep', 'vro', 'sme', 'myv', 'fkv_Latn', 'krl', 'fin', 'hun', 'kpv', 'udm', 'liv_Latn', 'est', 'mhr', 'sma'}
- 源语言多语言性:否
- 目标语言多语言性:是
- 预处理:归一化 + SentencePiece(spm32k, spm32k)
- 模型链接:https://object.pouta.csc.fi/Tatoeba - MT - models/eng - fiu/opus2m - 2020 - 08 - 01.zip
- 测试集链接:https://object.pouta.csc.fi/Tatoeba - MT - models/eng - fiu/opus2m - 2020 - 08 - 01.test.txt
- 源语言 ISO 639 - 3 代码:eng
- 目标语言 ISO 639 - 3 代码:fiu
- 短语言对:en - fiu
- chrF2 分数:0.59
- BLEU 分数:35.4
- 简洁惩罚:0.9440000000000001
- 参考长度:59311.0
- 源语言名称:英文
- 目标语言名称:芬兰 - 乌戈尔语族语言
- 训练日期:2020 - 08 - 01
- 源语言 ISO 639 - 2 代码:en
- 目标语言 ISO 639 - 2 代码:fiu
- 是否偏好旧版本:否
- 长语言对:eng - fiu
- 赫尔辛基代码库 SHA:480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535
- Transformers 代码库 SHA:2207e5d8cb224e954a7cba69fa4ac2309e9ff30b
- 移植机器:brutasse
- 移植时间:2020 - 08 - 21 - 14:41
📄 许可证
本项目采用 Apache 2.0 许可证。