wmt22-comet-da开源机器翻译评估模型 - 免费支持多语言对翻译质量评估

首页

Wmt22 Comet Da

由 Unbabel 开发

COMET-22是由Unbabel开发的机器翻译评估模型，基于XLM-R架构，支持多种语言对的翻译质量评估。

机器翻译支持多种语言开源协议:Apache-2.0 #多语言翻译评估 #参考依赖评分 #机器翻译质量检测

下载量 6,939

发布时间 : 2/10/2023

模型简介

该模型接收包含源语句、翻译文本和参考翻译的三元组，输出0-1之间的分数评估翻译质量。主要用于机器翻译系统的性能评估和质量控制。

模型特点

多语言支持

支持超过100种语言的翻译质量评估

直接评估

无需人工标注，直接评估翻译质量

高相关性

评估结果与人类判断高度相关

模型能力

机器翻译质量评分

多语言翻译评估

翻译系统性能比较

使用案例

机器翻译开发

翻译系统优化

用于评估不同机器翻译系统的输出质量

帮助开发者选择最佳翻译模型

翻译质量控制

翻译服务监控

持续监控翻译服务的输出质量

确保翻译服务维持在高质量水平

🚀 COMET翻译评估模型

本项目是一个基于COMET的翻译评估模型。它接收一个三元组（源句子、翻译结果、参考翻译），并返回一个分数，该分数反映了翻译结果相对于源句子和参考翻译的质量。

✨ 主要特性

多语言支持：基于XLM - RoBERTa，支持众多语言，包括但不限于英语、中文、法语、德语等。
精准评估：通过接收源句子、翻译结果和参考翻译，输出一个0到1之间的分数，直观反映翻译质量。

📦 安装指南

使用此模型需要安装unbabel-comet：

pip install --upgrade pip  # 确保pip是最新版本
pip install unbabel-comet

💻 使用示例

基础用法

可以通过comet CLI使用该模型：

comet-score -s {source-inputs}.txt -t {translation-outputs}.txt -r {references}.txt --model Unbabel/wmt22-comet-da

高级用法

使用Python调用该模型：

from comet import download_model, load_from_checkpoint

model_path = download_model("Unbabel/wmt22-comet-da")
model = load_from_checkpoint(model_path)
data = [
    {
        "src": "Dem Feuer konnte Einhalt geboten werden",
        "mt": "The fire could be stopped",
        "ref": "They were able to control the fire."
    },
    {
        "src": "Schulen und Kindergärten wurden eröffnet.",
        "mt": "Schools and kindergartens were open",
        "ref": "Schools and kindergartens opened"
    }
]
model_output = model.predict(data, batch_size=8, gpus=1)
print (model_output)

📚 详细文档

预期用途

本模型旨在用于机器翻译评估。给定一个包含（源句子、翻译结果、参考翻译）的三元组，模型会输出一个0到1之间的分数，其中1表示完美翻译。

覆盖语言

该模型基于XLM - R构建，支持以下语言：南非荷兰语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿萨姆语、阿塞拜疆语、巴斯克语、白俄罗斯语、孟加拉语、孟加拉语（罗马化）、波斯尼亚语、布列塔尼语、保加利亚语、缅甸语、缅甸语、加泰罗尼亚语、中文（简体）、中文（繁体）、克罗地亚语、捷克语、丹麦语、荷兰语、英语、世界语、爱沙尼亚语、菲律宾语、芬兰语、法语、加利西亚语、格鲁吉亚语、德语、希腊语、古吉拉特语、豪萨语、希伯来语、印地语、印地语（罗马化）、匈牙利语、冰岛语、印尼语、爱尔兰语、意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、韩语、库尔德语（库尔德文）、吉尔吉斯语、老挝语、拉丁语、拉脱维亚语、立陶宛语、马其顿语、马达加斯加语、马来语、马拉雅拉姆语、马拉地语、蒙古语、尼泊尔语、挪威语、奥里亚语、奥罗莫语、普什图语、波斯语、波兰语、葡萄牙语、旁遮普语、罗马尼亚语、俄语、梵语、苏格兰盖尔语、塞尔维亚语、信德语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、索马里语、西班牙语、巽他语、斯瓦希里语、瑞典语、泰米尔语、泰米尔语（罗马化）、泰卢固语、泰卢固语（罗马化）、泰语、土耳其语、乌克兰语、乌尔都语、乌尔都语（罗马化）、维吾尔语、乌兹别克语、越南语、威尔士语、西弗里斯兰语、科萨语、意第绪语。