🚀 ElanMT
ElanMT是由ELAN MITSUA项目 / Abstract Engine开发的翻译模型。其中,ElanMT - BT - ja - en 专注于日英翻译。尽管训练资源相对有限,但借助反向翻译和新构建的CC0语料库,该模型取得了与现有开源翻译模型相当的性能。
🚀 快速开始
安装Python包
pip install transformers accelerate sentencepiece
⚠️ 重要提示
此模型在 transformers==4.40.2
版本上进行了验证。
运行示例
from transformers import pipeline
translator = pipeline('translation', model='Mitsua/elan-mt-bt-ja-en')
translator('こんにちは。私はAIです。')
处理长句建议
对于较长的多个句子,建议使用 pySBD 进行处理。
pip install transformers accelerate sentencepiece pysbd
import pysbd
seg = pysbd.Segmenter(language="ja", clean=False)
txt = 'こんにちは。私はAIです。お元気ですか?'
print(translator(seg.segment(txt)))
此思路来源于 FuguMT 仓库。
✨ 主要特性
- 基于相对较少的资源进行训练,通过反向翻译和新构建的CC0语料库,达到了与现有开源翻译模型相当的性能。
- 训练过程中未使用网络爬取或其他机器翻译的语料库,保证了数据的合规性。
📦 安装指南
安装所需的Python包:
pip install transformers accelerate sentencepiece
💻 使用示例
基础用法
from transformers import pipeline
translator = pipeline('translation', model='Mitsua/elan-mt-bt-ja-en')
translator('こんにちは。私はAIです。')
高级用法
对于较长的多个句子,使用 pySBD 进行处理:
import pysbd
seg = pysbd.Segmenter(language="ja", clean=False)
txt = 'こんにちは。私はAIです。お元気ですか?'
print(translator(seg.segment(txt)))
📚 详细文档
模型详情
这是一个基于 Marian MT 6层编码器 - 解码器变压器架构和sentencepiece分词器的翻译模型。
训练数据
在数据集收集方面,我们大量参考了 FuguMT作者的博客文章。
⚠️ 重要提示
即使数据集本身是CC许可的,如果数据集中包含的语料库是基于网络爬取、未经授权使用受版权保护的作品或其他翻译模型的机器翻译输出,我们也不会使用。
训练过程
在训练过程和超参数调整方面,我们大量参考了 "Beating Edinburgh's WMT2017 system for en - de with Marian's Transformer model"。
- 在400万行的开源许可语料库上训练一个包含32k词汇的sentencepiece分词器。
- 在400万行的开源许可语料库上训练
en - ja
反向翻译模型,共训练6个周期,得到 ElanMT - base - en - ja。
- 在400万行的开源许可语料库上训练
ja - en
基础翻译模型,共训练6个周期,得到 ElanMT - base - ja - en。
- 使用反向翻译模型将2000万行的英语维基百科文章翻译成日语。
- 在2400万行的训练数据(包含反向翻译数据)上训练4个
ja - en
模型,这些模型是基于 ElanMT - base - ja - en 检查点进行微调的,共训练6个周期。
- 合并4个在FLORES + 开发集上验证得分最高的训练模型。
- 在100万行的高质量语料库子集上对合并后的模型进行微调,共训练5个周期。
评估
数据集
- 使用 FLORES+ (CC BY - SA 4.0) 的开发测试集进行评估。
- NTREX (CC BY - SA 4.0)
结果
⚠️ 重要提示
- 在
transformers==4.29.2
和 num_beams = 4
条件下进行测试。
- BLEU分数由
sacreBLEU
计算得出。
🔧 技术细节
该模型基于 Marian MT 的6层编码器 - 解码器变压器架构,使用sentencepiece分词器。通过精心设计的训练流程,包括分词器训练、反向翻译模型训练、基础翻译模型训练、数据扩充和模型合并微调等步骤,在相对较少的资源下取得了较好的性能。
📄 许可证
本模型使用 CC BY - SA 4.0 许可证。
⚠️ 重要提示
翻译结果可能存在严重错误、有害信息或偏差。该模型是为了研究仅使用相对较小的许可语料库可达到的性能而开发的,不适合需要高翻译准确性的用例。根据CC BY - SA 4.0许可证第5条,ELAN MITSUA项目 / Abstract Engine不对因使用该模型而造成的任何直接或间接损失负责。