开源microtransquest-en_lv-pharmaceutical-smt模型 - 支持医药文本句词级翻译质量评估

首页

Microtransquest En Lv Pharmaceutical Smt

由 TransQuest 开发

TransQuest是一个开源的翻译质量评估框架，支持句子级和词汇级的质量评估，性能超越当前最优方法。

问答系统

Transformers

开源协议:Apache-2.0 #翻译质量评估 #跨语言Transformer #无参考评估

下载量 47

发布时间 : 3/2/2022

模型简介

TransQuest是一个基于跨语言Transformer的翻译质量评估系统，能够在无需参考译文的情况下评估翻译质量。它支持文档级、句子级和词汇级的质量评估，并提供15种语言对的预训练模型。

模型特点

高性能质量评估

在WMT 2020句子级直接评估质量评估任务中夺冠，性能超越OpenKiwi和DeepQuest等现有框架。

多层级评估

支持文档级、句子级和词汇级的翻译质量评估，满足不同场景需求。

多语言支持

提供15种语言对的预训练模型，覆盖广泛的翻译需求。

易于部署

提供简单的安装和使用指南，支持快速集成到现有翻译工作流中。

模型能力

句子级翻译质量评估

词汇级翻译质量评估

预测后期编辑需求

直接评估翻译质量

使用案例

翻译工作流优化

选择最佳译文

当存在多个翻译引擎时，使用QE选择最佳译文。

提高翻译质量和工作效率

翻译可靠性提示

向终端用户提示自动翻译内容的可靠性。

增强用户信任

翻译决策支持

发布决策

判断译文是否可直接发布，还是需要人工后期编辑或重新翻译。

优化翻译流程和成本

🚀 TransQuest：使用跨语言Transformer进行翻译质量评估

翻译质量评估（QE）的目标是在没有参考译文的情况下评估翻译的质量。高精度的QE能够轻松应用于多种语言对，这是许多商业翻译工作流程中所缺失的一环，因为它有众多潜在用途。当有多个翻译引擎可用时，QE可用于选择最佳翻译，也能让最终用户了解自动翻译内容的可靠性。此外，QE系统还可用于判断译文在特定上下文中是否可以直接发布，或者在发布前是否需要人工后编辑，又或者是否需要人工重新翻译。质量评估可以在不同层面进行：文档级、句子级和单词级。

借助TransQuest，我们开源了在翻译质量评估方面的研究成果，该成果还在WMT 2020的句子级直接评估质量评估共享任务中获胜。TransQuest的表现优于当前的开源质量评估框架，如OpenKiwi和DeepQuest。

✨ 主要特性

句子级翻译质量评估，涵盖预测后编辑工作量和直接评估两个方面。
单词级翻译质量评估，能够预测源单词、目标单词和目标间隙的质量。
在所有实验语言中，表现优于当前最先进的质量评估方法，如DeepQuest和OpenKiwi。
在HuggingFace上提供了十五种语言对的预训练质量评估模型。

📦 安装指南

从pip安装

pip install transquest

从源代码安装

git clone https://github.com/TharinduDR/TransQuest.git
cd TransQuest
pip install -r requirements.txt

💻 使用示例

基础用法

from transquest.algo.word_level.microtransquest.run_model import MicroTransQuestModel
import torch

model = MicroTransQuestModel("xlmroberta", "TransQuest/microtransquest-en_lv-pharmaceutical-smt", labels=["OK", "BAD"], use_cuda=torch.cuda.is_available())
source_tags, target_tags = model.predict([["if not , you may not be protected against the diseases . ", "ja tā nav , Jūs varat nepasargāt no slimībām . "]])

📚 详细文档

更多详细信息请参考以下文档：

安装 - 使用pip在本地安装TransQuest。
架构 - 查看TransQuest中实现的架构
1. 句子级架构 - 我们发布了两种架构：MonoTransQuest和SiameseTransQuest，用于进行句子级质量评估。
2. 单词级架构 - 我们发布了MicroTransQuest，用于进行单词级质量评估。
示例 - 我们提供了几个关于如何在最近的WMT质量评估共享任务中使用TransQuest的示例。
1. 句子级示例
2. 单词级示例
预训练模型 - 我们提供了涵盖句子级和单词级的十五种语言对的预训练质量评估模型。
1. 句子级模型
2. 单词级模型
联系我们 - 如有任何关于TransQuest的问题，请联系我们。

📄 许可证

本项目采用Apache 2.0许可证。

📖 引用

如果您使用单词级架构，请考虑引用这篇已被ACL 2021接受的论文：

@InProceedings{ranasinghe2021,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {An Exploratory Analysis of Multilingual Word Level Quality Estimation with Cross-Lingual Transformers},
booktitle = {Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
year = {2021}
}

如果您使用句子级架构，请考虑引用这些在COLING 2020和WMT 2020（于EMNLP 2020举办）上发表的论文：

@InProceedings{transquest:2020a,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {TransQuest: Translation Quality Estimation with Cross-lingual Transformers},
booktitle = {Proceedings of the 28th International Conference on Computational Linguistics},
year = {2020}
}

@InProceedings{transquest:2020b,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {TransQuest at WMT2020: Sentence-Level Direct Assessment},
booktitle = {Proceedings of the Fifth Conference on Machine Translation},
year = {2020}
}