🚀 COMET翻译评估模型
本项目是一个基于COMET的翻译评估模型。它接收一个三元组(源句子、翻译结果、参考翻译),并返回一个分数,该分数反映了翻译结果相对于源句子和参考翻译的质量。
✨ 主要特性
- 多语言支持:基于XLM - RoBERTa,支持众多语言,包括但不限于英语、中文、法语、德语等。
- 精准评估:通过接收源句子、翻译结果和参考翻译,输出一个0到1之间的分数,直观反映翻译质量。
📦 安装指南
使用此模型需要安装unbabel-comet
:
pip install --upgrade pip
pip install unbabel-comet
💻 使用示例
基础用法
可以通过comet CLI使用该模型:
comet-score -s {source-inputs}.txt -t {translation-outputs}.txt -r {references}.txt --model Unbabel/wmt22-comet-da
高级用法
使用Python调用该模型:
from comet import download_model, load_from_checkpoint
model_path = download_model("Unbabel/wmt22-comet-da")
model = load_from_checkpoint(model_path)
data = [
{
"src": "Dem Feuer konnte Einhalt geboten werden",
"mt": "The fire could be stopped",
"ref": "They were able to control the fire."
},
{
"src": "Schulen und Kindergärten wurden eröffnet.",
"mt": "Schools and kindergartens were open",
"ref": "Schools and kindergartens opened"
}
]
model_output = model.predict(data, batch_size=8, gpus=1)
print (model_output)
📚 详细文档
预期用途
本模型旨在用于机器翻译评估。给定一个包含(源句子、翻译结果、参考翻译)的三元组,模型会输出一个0到1之间的分数,其中1表示完美翻译。
覆盖语言
该模型基于XLM - R构建,支持以下语言:
南非荷兰语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿萨姆语、阿塞拜疆语、巴斯克语、白俄罗斯语、孟加拉语、孟加拉语(罗马化)、波斯尼亚语、布列塔尼语、保加利亚语、缅甸语、缅甸语、加泰罗尼亚语、中文(简体)、中文(繁体)、克罗地亚语、捷克语、丹麦语、荷兰语、英语、世界语、爱沙尼亚语、菲律宾语、芬兰语、法语、加利西亚语、格鲁吉亚语、德语、希腊语、古吉拉特语、豪萨语、希伯来语、印地语、印地语(罗马化)、匈牙利语、冰岛语、印尼语、爱尔兰语、意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、韩语、库尔德语(库尔德文)、吉尔吉斯语、老挝语、拉丁语、拉脱维亚语、立陶宛语、马其顿语、马达加斯加语、马来语、马拉雅拉姆语、马拉地语、蒙古语、尼泊尔语、挪威语、奥里亚语、奥罗莫语、普什图语、波斯语、波兰语、葡萄牙语、旁遮普语、罗马尼亚语、俄语、梵语、苏格兰盖尔语、塞尔维亚语、信德语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、索马里语、西班牙语、巽他语、斯瓦希里语、瑞典语、泰米尔语、泰米尔语(罗马化)、泰卢固语、泰卢固语(罗马化)、泰语、土耳其语、乌克兰语、乌尔都语、乌尔都语(罗马化)、维吾尔语、乌兹别克语、越南语、威尔士语、西弗里斯兰语、科萨语、意第绪语。
⚠️ 重要提示
因此,对于包含未覆盖语言的语言对,评估结果可能不可靠!
📄 许可证
本项目采用Apache - 2.0许可证。
🔖 引用
COMET-22: Unbabel-IST 2022 Submission for the Metrics Shared Task (Rei et al., WMT 2022)