Elan-mt-bt-ja-en开源日英翻译模型 - 免费部署实现精准日英互译

首页

Elan Mt Bt Ja En

由 Mitsua 开发

ElanMT-BT-ja-en是由ELAN MITSUA项目/Abstract Engine开发的日语到英语翻译模型，仅使用开放许可数据和反向翻译的维基百科数据进行训练。

机器翻译

Transformers

支持多种语言#日语英语翻译 #开放许可数据训练 #反向翻译增强

下载量 502

发布时间 : 5/20/2024

模型简介

该模型是基于Marian MT架构的日语到英语翻译模型，专注于使用开放许可数据进行训练，避免了网络爬取或其他机器翻译语料库的使用。

模型特点

开放数据训练

仅使用CC0、CC BY和CC BY-SA等开放许可的语料库进行训练，避免了版权问题。

反向翻译增强

通过反向翻译模型增强训练数据，提高了翻译质量。

高质量词汇表现

新构建的150万行维基百科平行语料库显著提升了词汇层面的表现。

模型能力

日语到英语的文本翻译

多句文本处理

使用案例

文本翻译

日语到英语的文档翻译

将日语文档翻译成英语，适用于开放许可内容的翻译需求。

在FLORES+和NTREX数据集上表现良好，BLEU分数达到24.87和22.57。

🚀 ElanMT

ElanMT是由ELAN MITSUA项目 / Abstract Engine开发的翻译模型。其中，ElanMT - BT - ja - en 专注于日英翻译。尽管训练资源相对有限，但借助反向翻译和新构建的CC0语料库，该模型取得了与现有开源翻译模型相当的性能。

🚀 快速开始

安装Python包

pip install transformers accelerate sentencepiece

⚠️ 重要提示

此模型在 transformers==4.40.2 版本上进行了验证。

运行示例

from transformers import pipeline
translator = pipeline('translation', model='Mitsua/elan-mt-bt-ja-en')
translator('こんにちは。私はAIです。')

处理长句建议

对于较长的多个句子，建议使用 pySBD 进行处理。

pip install transformers accelerate sentencepiece pysbd

import pysbd
seg = pysbd.Segmenter(language="ja", clean=False)
txt = 'こんにちは。私はAIです。お元気ですか？'
print(translator(seg.segment(txt)))

此思路来源于 FuguMT 仓库。

✨ 主要特性

基于相对较少的资源进行训练，通过反向翻译和新构建的CC0语料库，达到了与现有开源翻译模型相当的性能。
训练过程中未使用网络爬取或其他机器翻译的语料库，保证了数据的合规性。

📦 安装指南

安装所需的Python包：

pip install transformers accelerate sentencepiece

💻 使用示例

基础用法

from transformers import pipeline
translator = pipeline('translation', model='Mitsua/elan-mt-bt-ja-en')
translator('こんにちは。私はAIです。')

高级用法

对于较长的多个句子，使用 pySBD 进行处理：

import pysbd
seg = pysbd.Segmenter(language="ja", clean=False)
txt = 'こんにちは。私はAIです。お元気ですか？'
print(translator(seg.segment(txt)))

📚 详细文档

模型详情

这是一个基于 Marian MT 6层编码器 - 解码器变压器架构和sentencepiece分词器的翻译模型。

属性	详情
开发者	ELAN MITSUA项目 / Abstract Engine
模型类型	翻译
源语言	日语
目标语言	英语
许可证	CC BY - SA 4.0

训练数据

在数据集收集方面，我们大量参考了 FuguMT作者的博客文章。

Mitsua/wikidata - parallel - descriptions - en - ja (CC0 1.0)：我们新构建了这个包含150万行的维基数据平行语料库，以扩充训练数据，这大大提高了词汇层面的表现。
The Kyoto Free Translation Task (KFTT) (CC BY - SA 3.0)
Tatoeba (CC BY 2.0 FR / CC0 1.0)
wikipedia - interlanguage - titles (The MIT License / CC BY - SA 4.0)：基于2024年5月6日的维基百科转储构建了平行标题。
WikiMatrix (CC BY - SA 4.0)
MDN Web Docs (The MIT / CC0 1.0 / CC BY - SA 2.5)
Wikimedia contenttranslation dump (CC BY - SA 4.0)：使用了2024年5月10日的转储。

⚠️ 重要提示

即使数据集本身是CC许可的，如果数据集中包含的语料库是基于网络爬取、未经授权使用受版权保护的作品或其他翻译模型的机器翻译输出，我们也不会使用。

训练过程

在训练过程和超参数调整方面，我们大量参考了 "Beating Edinburgh's WMT2017 system for en - de with Marian's Transformer model"。

在400万行的开源许可语料库上训练一个包含32k词汇的sentencepiece分词器。
在400万行的开源许可语料库上训练 en - ja 反向翻译模型，共训练6个周期，得到 ElanMT - base - en - ja。
在400万行的开源许可语料库上训练 ja - en 基础翻译模型，共训练6个周期，得到 ElanMT - base - ja - en。
使用反向翻译模型将2000万行的英语维基百科文章翻译成日语。
在2400万行的训练数据（包含反向翻译数据）上训练4个 ja - en 模型，这些模型是基于 ElanMT - base - ja - en 检查点进行微调的，共训练6个周期。
合并4个在FLORES + 开发集上验证得分最高的训练模型。
在100万行的高质量语料库子集上对合并后的模型进行微调，共训练5个周期。

评估

数据集

使用 FLORES+ (CC BY - SA 4.0) 的开发测试集进行评估。
NTREX (CC BY - SA 4.0)

结果

模型	参数数量	FLORES+ BLEU	FLORES+ chrf	NTREX BLEU	NTREX chrf
ElanMT - BT	61M	24.87	55.02	22.57	52.48
ElanMT - base	61M	21.61	52.53	18.43	49.09
ElanMT - tiny	15M	20.40	51.81	18.43	49.39
staka/fugumt - ja - en	61M	24.10	54.97	22.33	51.84
facebook/mbart - large - 50 - many - to - many - mmt	610M	23.88	53.98	22.59	51.57
facebook/nllb - 200 - distilled - 600M	615M	22.92	52.13	22.59	51.36
facebook/nllb - 200 - 3.3B	3B	28.13	56.86	27.65	55.60
google/madlad400 - 3b - mt	3B	26.95	56.62	26.11	54.61
google/madlad400 - 7b - mt	7B	28.84	57.46	28.19	55.85

⚠️ 重要提示

在 transformers==4.29.2 和 num_beams = 4 条件下进行测试。

BLEU分数由 sacreBLEU 计算得出。

🔧 技术细节

该模型基于 Marian MT 的6层编码器 - 解码器变压器架构，使用sentencepiece分词器。通过精心设计的训练流程，包括分词器训练、反向翻译模型训练、基础翻译模型训练、数据扩充和模型合并微调等步骤，在相对较少的资源下取得了较好的性能。

📄 许可证

本模型使用 CC BY - SA 4.0 许可证。

⚠️ 重要提示

翻译结果可能存在严重错误、有害信息或偏差。该模型是为了研究仅使用相对较小的许可语料库可达到的性能而开发的，不适合需要高翻译准确性的用例。根据CC BY - SA 4.0许可证第5条，ELAN MITSUA项目 / Abstract Engine不对因使用该模型而造成的任何直接或间接损失负责。