opus-mt-tc-big-en-fi开源翻译模型 - 免费将英语精准翻译成芬兰语

首页

Opus Mt Tc Big En Fi

由 Helsinki-NLP 开发

这是一个基于Transformer架构的大规模神经机器翻译模型，专门用于将英语翻译成芬兰语。该模型是OPUS-MT项目的一部分，使用Marian NMT框架训练，并通过Hugging Face的transformers库提供。

机器翻译

Transformers

支持多种语言#英语-芬兰语翻译 #多语言神经机器翻译 #高BLEU得分

下载量 1,255

发布时间 : 3/22/2022

模型简介

该模型是一个多目标语言的翻译模型，需要在句首添加语言标记（如>>fin<<）来指定目标语言。它支持从英语到芬兰语的翻译任务，适用于各种文本翻译场景。

模型特点

多目标语言支持

通过在输入文本前添加语言标记（如>>fin<<），可以指定翻译的目标语言。

高性能翻译

在多个基准测试中表现出色，如Tatoeba测试集上BLEU得分达到39.3。

基于OPUS数据训练

使用来自OPUS的高质量多语言平行语料库进行训练，确保翻译质量。

模型能力

英语到芬兰语的文本翻译

支持批量翻译

支持长文本翻译

使用案例

内容本地化

网站内容翻译

将英语网站内容翻译成芬兰语，帮助芬兰用户更好地理解内容。

在新闻翻译测试集上BLEU得分达到26.4-31.3

教育

学习辅助工具

帮助学生将英语学习材料翻译成芬兰语，辅助语言学习。

在Tatoeba测试集上BLEU得分达到39.3

🚀 opus-mt-tc-big-en-fi

opus-mt-tc-big-en-fi是一款用于将英语（en）翻译成芬兰语（fi）的神经机器翻译模型。它是OPUS - MT项目的一部分，该项目旨在让神经机器翻译模型在全球多种语言中广泛可用。

🚀 快速开始

环境准备

确保你已经安装了transformers库。如果未安装，可以使用以下命令进行安装：

pip install transformers

代码示例

以下是使用该模型进行翻译的简单代码示例：

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    "Russia is big.",
    "Touch wood!"
]

model_name = "pytorch-models/opus-mt-tc-big-en-fi"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print( tokenizer.decode(t, skip_special_tokens=True) )

# 预期输出:
#     Venäjä on suuri.
#     Kosketa puuta!

你也可以使用transformers的pipeline来使用OPUS - MT模型，示例如下：

from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-en-fi")
print(pipe("Russia is big."))

# 预期输出: Venäjä on suuri.

✨ 主要特性

多语言支持：这是一个支持多种目标语言的多语言翻译模型。
广泛的训练数据：训练数据来自OPUS，并使用[OPUS - MT - train](https://github.com/Helsinki - NLP/Opus - MT - train)的流程进行训练。
高效的实现：最初使用[Marian NMT](https://marian - nmt.github.io/)框架进行训练，该框架是一个用纯C++编写的高效NMT实现。

📦 安装指南

安装transformers库即可使用该模型：

pip install transformers

💻 使用示例

基础用法

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    "Russia is big.",
    "Touch wood!"
]

model_name = "pytorch-models/opus-mt-tc-big-en-fi"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print( tokenizer.decode(t, skip_special_tokens=True) )

高级用法

使用transformers的pipeline进行翻译：

from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-en-fi")
print(pipe("Russia is big."))

📚 详细文档

模型信息

属性	详情
发布时间	2022 - 03 - 09
源语言	英语（eng）
目标语言	芬兰语（fin）
有效目标语言标签	>>fin<<
模型类型	变压器（大）
训练数据	opusTCv20210807 + bt ([源](https://github.com/Helsinki - NLP/Tatoeba - Challenge))
分词方式	SentencePiece (spm32k, spm32k)
原始模型	[opusTCv20210807 + bt_transformer - big_2022 - 03 - 09.zip](https://object.pouta.csc.fi/Tatoeba - MT - models/eng - fin/opusTCv20210807 + bt_transformer - big_2022 - 03 - 09.zip)
更多已发布模型信息	[OPUS - MT eng - fin README](https://github.com/Helsinki - NLP/Tatoeba - Challenge/tree/master/models/eng - fin/README.md)
更多模型相关信息	MarianMT

注意事项

这是一个支持多种目标语言的多语言翻译模型，需要在句子开头使用>>id<<（id为有效的目标语言ID）形式的语言标记，例如>>fin<<。

基准测试

语言对	测试集	chr - F	BLEU	句子数量	单词数量
eng - fin	tatoeba - test - v2021 - 08 - 07	0.64352	39.3	10690	65122
eng - fin	flores101 - devtest	0.61334	27.6	1012	18781
eng - fin	newsdev2015	0.58367	24.2	1500	23091
eng - fin	newstest2015	0.60080	26.4	1370	19735
eng - fin	newstest2016	0.61636	28.8	3000	47678
eng - fin	newstest2017	0.64381	31.3	3002	45269
eng - fin	newstest2018	0.55626	19.7	3000	44836
eng - fin	newstest2019	0.58420	26.4	1997	38369
eng - fin	newstestB2016	0.57554	23.3	3000	45766
eng - fin	newstestB2017	0.60212	26.8	3002	45506

测试集翻译结果：[opusTCv20210807 + bt_transformer - big_2022 - 03 - 09.test.txt](https://object.pouta.csc.fi/Tatoeba - MT - models/eng - fin/opusTCv20210807 + bt_transformer - big_2022 - 03 - 09.test.txt)
测试集得分：[opusTCv20210807 + bt_transformer - big_2022 - 03 - 09.eval.txt](https://object.pouta.csc.fi/Tatoeba - MT - models/eng - fin/opusTCv20210807 + bt_transformer - big_2022 - 03 - 09.eval.txt)
基准测试结果：benchmark_results.txt
基准测试输出：benchmark_translations.zip

致谢

本项目得到了以下组织和项目的支持：

[欧洲语言网格](https://www.european - language - grid.eu/)的[试点项目2866](https://live.european - language - grid.eu/catalogue/#/resource/projects/2866)。
[FoTran项目](https://www.helsinki.fi/en/researchgroups/natural - language - understanding - with - cross - lingual - grounding)，由欧洲研究理事会（ERC）在欧盟的“地平线2020”研究和创新计划（资助协议编号771113）下资助。
MeMAD项目，由欧盟的“地平线2020”研究和创新计划资助，资助协议编号780069。

同时，感谢CSC -- 芬兰科学信息技术中心提供的慷慨计算资源和IT基础设施。

模型转换信息

属性	详情
transformers版本	4.16.2
OPUS - MT git哈希值	f084bad
转换时间	Tue Mar 22 14:42:32 EET 2022
转换机器	LM0 - 400 - 22516.local

引用信息

如果你使用了该模型，请引用以下出版物：

[OPUS - MT – Building open translation services for the World](https://aclanthology.org/2020.eamt - 1.61/)
[The Tatoeba Translation Challenge – Realistic Data Sets for Low Resource and Multilingual MT](https://aclanthology.org/2020.wmt - 1.139/)

@inproceedings{tiedemann-thottingal-2020-opus,
    title = "{OPUS}-{MT} {--} Building open translation services for the World",
    author = {Tiedemann, J{\"o}rg  and Thottingal, Santhosh},
    booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
    month = nov,
    year = "2020",
    address = "Lisboa, Portugal",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2020.eamt-1.61",
    pages = "479--480",
}

@inproceedings{tiedemann-2020-tatoeba,
    title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
    author = {Tiedemann, J{\"o}rg},
    booktitle = "Proceedings of the Fifth Conference on Machine Translation",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.wmt-1.139",
    pages = "1174--1182",
}