M

Multilingual SimCSE

由 WENGSYX 开发
一种利用平行语言对训练的对比学习模型,通过不同语言的平行句对将文本映射到相同向量空间
下载量 84
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

基于mDeBERTa架构的多语言句子嵌入模型,使用对比学习在平行语料上训练,支持跨语言语义相似度计算

模型特点

跨语言对齐
通过平行语料训练使不同语言句子映射到统一语义空间
对比学习优化
采用SimCSE风格的对比损失函数增强语义表示
大规模训练
使用1亿组平行句对进行预训练

模型能力

跨语言句子嵌入
语义相似度计算
多语言文本对齐

使用案例

跨语言检索
多语言文档匹配
在不同语言的文档库中查找语义相似的文档
余弦相似度0.87(示例中'Hello,world'与'你好,世界'的相似度)
机器翻译辅助
翻译质量评估
通过嵌入相似度评估翻译结果的质量