开源TransQuest翻译质量评估框架 - 免费部署提升翻译评估精准度

首页

Monotransquest Da Any En

由 TransQuest 开发

TransQuest是一个用于翻译质量评估的开源框架，在WMT 2020句子级直接评估质量评估共享任务中获胜。

机器翻译

Transformers

开源协议:Apache-2.0 #翻译质量评估 #多语言支持 #句子级预测

下载量 29

发布时间 : 3/2/2022

模型简介

TransQuest提供句子级和词级的翻译质量评估功能，支持预测后期编辑需求和直接评估，适用于多种语言对。

模型特点

高质量评估性能

在WMT 2020质量评估任务中表现优异，超越OpenKiwi和DeepQuest等现有框架

多语言支持

提供15种语言对的预训练质量评估模型

多层次评估

支持文档级、句子级和词级三个层次的翻译质量评估

两种评估方式

支持预测后期编辑需求和直接评估两种质量评估方式

模型能力

翻译质量评估

预测后期编辑需求

直接评估翻译质量

词级质量评估

句子级质量评估

使用案例

机器翻译

翻译引擎选择

当多个翻译引擎可用时，用于选择最佳翻译结果

提高翻译质量选择准确性

翻译内容可靠性评估

向最终用户提供自动翻译内容的可靠性评估

增强用户对翻译结果的信任度

翻译发布决策

决定是否可以直接发布翻译或需要人工后期编辑

优化翻译工作流程

🚀 TransQuest：基于跨语言Transformer的翻译质量评估工具

翻译质量评估（QE）旨在在不参考标准译文的情况下评估翻译质量。高精度且易于部署到多种语言对的QE，是许多商业翻译流程中缺失的一环，具有广泛的潜在用途。它可用于在多个翻译引擎输出中挑选最佳译文，或向终端用户告知自动翻译内容的可靠性。此外，QE系统还能判断译文是否可直接发布，是否需要人工后期编辑，或是否需人工重新翻译。翻译质量评估可在文档级、句子级和单词级进行。

我们通过 TransQuest 开源了翻译质量评估方面的研究成果，该成果还在 WMT 2020 的句子级直接评估质量评估共享任务中获胜。TransQuest 性能优于当前的开源质量评估框架，如 OpenKiwi 和 DeepQuest。

✨ 主要特性

句子级翻译质量评估：能够从预测后期编辑工作量和直接评估两个方面进行句子级翻译质量评估。
单词级翻译质量评估：可预测源单词、目标单词和目标空缺的质量。
性能卓越：在所有实验语言中，表现均优于当前最先进的质量评估方法，如 DeepQuest 和 OpenKiwi。
预训练模型丰富：在 HuggingFace 上提供了十五种语言对的预训练质量评估模型。

📦 安装指南

通过 pip 安装

pip install transquest

从源代码安装

git clone https://github.com/TharinduDR/TransQuest.git
cd TransQuest
pip install -r requirements.txt

💻 使用示例

基础用法

import torch
from transquest.algo.sentence_level.monotransquest.run_model import MonoTransQuestModel

model = MonoTransQuestModel("xlmroberta", "TransQuest/monotransquest-da-any_en", num_labels=1, use_cuda=torch.cuda.is_available())
predictions, raw_outputs = model.predict([["Reducerea acestor conflicte este importantă pentru conservare.", "Reducing these conflicts is not important for preservation."]])
print(predictions)

📚 详细文档

更多详细信息请参考以下文档：

安装指南：介绍如何使用 pip 在本地安装 TransQuest。
架构说明：查看 TransQuest 实现的架构。
1. 句子级架构：我们发布了两种用于句子级质量评估的架构，即 MonoTransQuest 和 SiameseTransQuest。
2. 单词级架构：我们发布了用于单词级质量评估的 MicroTransQuest 架构。
使用示例：提供了在最近的 WMT 质量评估共享任务中使用 TransQuest 的多个示例。
1. 句子级示例
2. 单词级示例
预训练模型：提供了涵盖句子级和单词级的十五种语言对的预训练质量评估模型。
1. 句子级模型
2. 单词级模型
联系我们：如果在使用 TransQuest 时遇到任何问题，请联系我们。

📄 许可证

本项目采用 Apache-2.0 许可证。

📚 引用说明

如果您使用了单词级架构，请考虑引用这篇已被 ACL 2021 接受的论文：

@InProceedings{ranasinghe2021,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {An Exploratory Analysis of Multilingual Word Level Quality Estimation with Cross-Lingual Transformers},
booktitle = {Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
year = {2021}
}

如果您使用了句子级架构，请考虑引用在 COLING 2020 和 WMT 2020（于 EMNLP 2020 举办）上发表的这些论文：

@InProceedings{transquest:2020a,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {TransQuest: Translation Quality Estimation with Cross-lingual Transformers},
booktitle = {Proceedings of the 28th International Conference on Computational Linguistics},
year = {2020}
}

@InProceedings{transquest:2020b,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {TransQuest at WMT2020: Sentence-Level Direct Assessment},
booktitle = {Proceedings of the Fifth Conference on Machine Translation},
year = {2020}
}