language: ro-en
tags:
- 质量评估
- siamesetransquest
- 直接评估
license: apache-2.0
TransQuest:基于跨语言Transformer的翻译质量评估
质量评估(QE)的目标是在无需参考译文的情况下评估翻译质量。高精度且能轻松部署于多种语言对的QE技术,是当前众多商业翻译工作流中缺失的关键环节。这类系统具有多重应用潜力:当多个翻译引擎可用时筛选最佳译文、向终端用户提示自动翻译内容的可靠性,还能辅助决策——判断译文是否可直接在特定场景发布,或需要人工后期编辑/重新翻译。质量评估可在不同层级进行:文档级、句子级和词汇级。
通过TransQuest,我们开源了在WMT 2020句子级直接评估质量评估任务中夺冠的研究成果。该框架性能超越当前开源QE工具如OpenKiwi和DeepQuest。
核心功能
- 句子级质量评估:支持预测后期编辑工作量与直接评估双维度
- 词汇级质量评估:可预测源词质量、目标词质量及目标文本空缺质量
- 性能优势:在实验涉及的所有语言对上均超越DeepQuest和OpenKiwi等前沿方法
- 预训练模型:提供15种语言对的预训练模型,托管于HuggingFace
安装指南
pip安装
pip install transquest
源码安装
git clone https://github.com/TharinduDR/TransQuest.git
cd TransQuest
pip install -r requirements.txt
使用预训练模型
import torch
from transquest.algo.sentence_level.siamesetransquest.run_model import SiameseTransQuestModel
model = SiameseTransQuestModel("TransQuest/siamesetransquest-da-ro_en-wiki")
predictions = model.predict([["Reducerea acestor conflicte este importantă pentru conservare.", "Reducing these conflicts is not important for preservation."]])
print(predictions)
文档目录
详细使用请参阅文档:
- 安装指南 - 通过pip本地安装TransQuest
- 架构说明
- 句子级架构 - 提供MonoTransQuest和SiameseTransQuest双架构
- 词汇级架构 - 提供MicroTransQuest架构
- 应用示例 - 包含近期WMT质量评估任务的实战案例
- 句子级示例
- 词汇级示例
- 预训练模型 - 涵盖15种语言对的句子级/词汇级模型
- 句子级模型
- 词汇级模型
- 联系我们 - 使用问题反馈通道
引用文献
若使用词汇级架构,请引用ACL 2021录用论文:
@InProceedings{ranasinghe2021,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {An Exploratory Analysis of Multilingual Word Level Quality Estimation with Cross-Lingual Transformers},
booktitle = {Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
year = {2021}
}
若使用句子级架构,请引用COLING 2020与WMT 2020会议论文:
@InProceedings{transquest:2020a,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {TransQuest: Translation Quality Estimation with Cross-lingual Transformers},
booktitle = {Proceedings of the 28th International Conference on Computational Linguistics},
year = {2020}
}
@InProceedings{transquest:2020b,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {TransQuest at WMT2020: Sentence-Level Direct Assessment},
booktitle = {Proceedings of the Fifth Conference on Machine Translation},
year = {2020}
}