库名称:transformers
标签:
- 翻译
- 藏语
- 佛教
- 佛法
许可证:mit
语言:
- bo(藏语)
- en(英语)
评估指标:
- bleu
- ter
- chrf
基础模型:
- google-t5/t5-small
流水线标签:translation
模型卡片:mlotsawa-ground-small
本模型是一个基于transformers的机器翻译模型,专为将藏传佛教文献翻译成英语而设计,隶属于更大的MLotsawa项目。
模型详情
模型描述
本模型是一个经过微调的T5模型(小型版本),包含6000万参数,专用于将藏传佛教文献从乌金体藏文翻译为英文。该模型使用**getok**分词器。训练数据与流程细节见下文。
作为基础模型,其性能虽已达标,但更适用于作为后续微调的基座——可通过更大规模语料或特定教派(如大圆满)语料进一步优化翻译质量。
- 开发者: billingsmoore
- 模型类型: 翻译
- 支持语言: 藏语、英语
- 许可证: MIT
- 微调基础模型: google-t5/t5-small
模型来源
用途
本模型可直接用于翻译,或通过微调提升性能。
直接使用
通过transformers流水线直接调用(示例代码):
from transformers import pipeline
pipe = pipeline('translation', 'billingsmoore/mlotsawa-ground-small', device='cpu')
input = ["ཁྱེད་ལ་བསྟོད་ཅིང་གསོལ་བ་བཏབ་པའི་མཐུས༔",
"བདག་གི་ཚེ་བསོད་དཔལ་འབྱོར་རྒྱས་པ་དང་༔",
"འཇིགས་པ་བཅུ་དྲུག་རྐྱེན་ངན་བར་ཆད་སོལ༔"]
output = pipe(input)
translation = [elt['translation_text'] for elt in output]
print(translation)
输出示例:
['Through the power of praising and praying to you', 'Increase my lifespan merit and prosperity', 'Remove the sixteen fears and obstacles of adversity.']
也可通过图形界面工具使用。
下游应用
通过额外微调可提升模型表现:
- 使用更大数据集增强通用性
- 针对特定文献(如大圆满典籍)专项优化
微调配方示例:
...
偏差、风险与局限
本模型仅适用于佛教文献翻译。鉴于文本的复杂性与重要性,所有译文均需经验丰富的译者复核后方可使用。此外,模型训练数据仅含藏传佛教内容,不适用于其他领域(如世俗藏语)。
训练详情
训练数据
861,417组藏英平行句对,来源包括公开资料及Monlam AI、藏喜马拉雅图书馆的授权数据。
训练流程
预训练
以3e-4学习率进行1轮跨度掩码重建训练,使模型适应新分词器及佛教文本特征。
微调
使用Adafactor优化器(初始学习率3e-4)进行50轮翻译任务微调。
评估
测试集指标:
BLEU |
chrF |
TER |
3.54 |
19.89 |
87.58 |
虽然分数较低,实际翻译质量尚可。示例对比:
《转心向善教言》(康钦·阿旺巴赞著 | Joseph McClellan英译)
原文 |
人工翻译 |
机器翻译 |
གྲུབ་བརྒྱའི་སྤྱི་མེས་པཎ་ཆེན་བི་མ་ལ། ། ... |
Grandsire of a hundred siddhas... |
Great paṇḍita Vimalamitra... |
《离诸怖畏·圣度母祈请文》(色拉康卓著 | Adam Pearcey英译)
原文 |
人工翻译 |
机器翻译 |
ཀ་དག་སྤྲོས་བྲལ་འོད་གསལ་རིག་པའི་དབྱིངས༔ ... |
Out of the primordially pure... |
Within the space of awareness... |
作者
billingsmoore
联系
billingsmoore[at]gmail[dot]com