语言: 英-中
标签:
- 质量评估
- 微翻译探索
许可证: Apache-2.0
TransQuest:基于跨语言Transformer的翻译质量评估
质量评估(QE)的目标是在无需参考译文的情况下,自动评判翻译质量。高精度且能轻松部署于多语种的QE技术,是当前商用翻译流程中缺失的关键环节——其应用场景极为丰富:当多个翻译引擎可选时,可筛选最佳译文;能向终端用户提示机器翻译内容的可靠性;还能判定译文是否可直接发布,或需经过人工译后编辑甚至重新翻译。质量评估可在不同层级实施:文档级、句子级和词汇级。
通过开源TransQuest,我们公开了在WMT 2020句子级直接评估任务中夺冠的研究成果。该框架性能超越当前主流开源QE工具如OpenKiwi和DeepQuest。
核心功能
- 句子级质量评估:支持译后编辑工作量预测与直接质量评分双维度
- 词汇级质量评估:可预测源语言词汇、目标语言词汇及目标语空缺位的质量
- 性能领先:在实验涉及的所有语种上均超越DeepQuest和OpenKiwi等前沿方案
- 预训练模型:提供15种语言对的预训练模型,托管于HuggingFace
安装指南
pip安装
pip install transquest
源码安装
git clone https://github.com/TharinduDR/TransQuest.git
cd TransQuest
pip install -r requirements.txt
预训练模型调用示例
from transquest.algo.word_level.microtransquest.run_model import MicroTransQuestModel
import torch
model = MicroTransQuestModel("xlmroberta", "TransQuest/microtransquest-en_zh-wiki", labels=["OK", "BAD"], use_cuda=torch.cuda.is_available())
source_tags, target_tags = model.predict([["if not , you may not be protected against the diseases . ", "ja tā nav , Jūs varat nepasargāt no slimībām . "]])
文档目录
- 安装指南 - 通过pip本地安装TransQuest
- 架构说明
- 句子级架构 - 提供MonoTransQuest和SiameseTransQuest双架构
- 词汇级架构 - 基于MicroTransQuest实现
- 应用案例 - 包含WMT质量评估任务的实战范例
- 句子级案例
- 词汇级案例
- 预训练模型 - 覆盖15种语言对的预训练模型
- 句子级模型
- 词汇级模型
- 联系我们 - 反馈技术问题
文献引用
若使用词汇级架构,请引用ACL 2021录用论文:
@InProceedings{ranasinghe2021,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {An Exploratory Analysis of Multilingual Word Level Quality Estimation with Cross-Lingual Transformers},
booktitle = {Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
year = {2021}
}
若使用句子级架构,请引用COLING 2020与WMT 2020会议论文:
@InProceedings{transquest:2020a,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {TransQuest: Translation Quality Estimation with Cross-lingual Transformers},
booktitle = {Proceedings of the 28th International Conference on Computational Linguistics},
year = {2020}
}
@InProceedings{transquest:2020b,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {TransQuest at WMT2020: Sentence-Level Direct Assessment},
booktitle = {Proceedings of the Fifth Conference on Machine Translation},
year = {2020}
}