许可证:cc-by-sa-4.0
数据集:
- Mitsua/wikidata-parallel-descriptions-en-ja
语言:
- 日语
- 英语
评估指标:
- bleu
- chrf
库名称:transformers
流水线标签:translation
ElanMT
ElanMT-BT-ja-en 是由 ELAN MITSUA 项目 / Abstract Engine 开发的日语到英语翻译模型。
- ElanMT-base-ja-en 和 ElanMT-base-en-ja 是从零开始训练的,仅使用开放许可的语料库,如 CC0、CC BY 和 CC BY-SA。
- 本模型是 ElanMT-base-ja-en 的微调检查点,仅使用开放许可数据和通过 ElanMT-base-en-ja 反向翻译的维基百科数据进行训练。
- 在整个 ElanMT 模型的训练过程中,未使用 网络爬取或其他机器翻译的语料库。
尽管训练资源相对较少,得益于反向翻译和新构建的 CC0 语料库,该模型实现了与当前可用的开放翻译模型相当的性能。
模型详情
本模型基于 Marian MT 的 6 层编码器-解码器 Transformer 架构,使用 sentencepiece 分词器。
使用方法
- 安装 Python 包
pip install transformers accelerate sentencepiece
- 本模型在
transformers==4.40.2
上验证通过
- 运行
from transformers import pipeline
translator = pipeline('translation', model='Mitsua/elan-mt-bt-ja-en')
translator('こんにちは。私はAIです。')
- 对于较长的多句文本,推荐使用 pySBD。
pip install transformers accelerate sentencepiece pysbd
import pysbd
seg = pysbd.Segmenter(language="ja", clean=False)
txt = 'こんにちは。私はAIです。お元気ですか?'
print(translator(seg.segment(txt)))
此方法灵感来自 FuguMT 仓库。
训练数据
我们大量参考了 FuguMT 作者的博客文章 进行数据集收集。
- Mitsua/wikidata-parallel-descriptions-en-ja (CC0 1.0)
- 我们新构建了这个包含 150 万行数据的维基百科平行语料库以增强训练数据。这显著提升了词汇层面的表现。
- 京都自由翻译任务 (KFTT) (CC BY-SA 3.0)
- Graham Neubig, "The Kyoto Free Translation Task," http://www.phontron.com/kftt, 2011.
- Tatoeba (CC BY 2.0 FR / CC0 1.0)
- wikipedia-interlanguage-titles (MIT 许可证 / CC BY-SA 4.0)
- 我们基于 2024-05-06 的维基百科转储构建了平行标题数据。
- WikiMatrix (CC BY-SA 4.0)
- Holger Schwenk, Vishrav Chaudhary, Shuo Sun, Hongyu Gong and Francisco Guzmán, "WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs from Wikipedia"
- MDN Web 文档 (MIT / CC0 1.0 / CC BY-SA 2.5)
- https://github.com/mdn/translated-content
- 维基媒体内容翻译转储 (CC BY-SA 4.0)
*即使数据集本身是 CC 许可的,如果其中包含基于网络爬取、未经授权使用受版权保护作品或其他翻译模型机器翻译输出的语料库,我们也不会使用。
训练流程
我们大量参考了 "Beating Edinburgh's WMT2017 system for en-de with Marian's Transformer model" 进行训练过程和超参数调优。
- 在 400 万行开放许可语料上训练 32k 词汇量的 sentencepiece 分词器。
- 在 400 万行开放许可语料上训练
en-ja
反向翻译模型 6 个周期。= ElanMT-base-en-ja
- 在 400 万行开放许可语料上训练
ja-en
基础翻译模型 6 个周期。= ElanMT-base-ja-en
- 使用反向翻译模型将 2000 万行英文维基百科翻译为日文。
- 在 2400 万行增强反向翻译数据的训练数据上,从 ElanMT-base-ja-en 检查点微调训练 4 个
ja-en
模型,各训练 6 个周期。
- 合并 4 个在 FLORES+ 开发集上验证得分最佳的模型。
- 在 100 万行高质量语料子集上对合并模型进行 5 个周期的微调。
评估
数据集
结果
- *1 测试环境为
transformers==4.29.2
和 num_beams=4
- *2 BLEU 分数由
sacreBLEU
计算
免责声明
- 翻译结果可能非常不准确、有害或带有偏见。本模型是为了研究仅使用相对较小且经过许可的语料库可达到的性能而开发的,不适用于需要高翻译准确性的用例。根据 CC BY-SA 4.0 许可证第 5 条,ELAN MITSUA 项目 / Abstract Engine 不对因使用本模型而导致的任何直接或间接损失负责。
- 免責事項:翻訳結果は不正確で、有害であったりバイアスがかかっている可能性があります。本モデルは比較的小規模でライセンスされたコーパスのみで達成可能な性能を調査するために開発されたモデルであり、翻訳の正確性が必要なユースケースでの使用には適していません。絵藍ミツアプロジェクト及び株式会社アブストラクトエンジンはCC BY-SA 4.0ライセンス第5条に基づき、本モデルの使用によって生じた直接的または間接的な損失に対して、一切の責任を負いません。