M

MEXMA

由 facebook 开发
MEXMA是一种创新的跨语言句子编码器,通过整合句子级和词元级双重目标提升句子表征质量。
下载量 1,544
发布时间 : 10/4/2024
模型介绍
内容详情
替代品

模型简介

MEXMA是一种预训练的跨语言句子编码器,通过同时优化句子级和词元级目标来提升句子表征的质量,在双语文本挖掘和多项下游任务中表现优异。

模型特点

双重目标优化
同时使用句子级和词元级目标进行训练,减少信息丢失,提升表征质量
跨语言能力
通过一种语言的句子表征预测另一种语言的掩码词元,增强跨语言理解
高质量句子表征
在双语文本挖掘和多项下游任务中超越现有预训练跨语言句子编码器

模型能力

跨语言句子编码
句子相似度计算
双语文本挖掘

使用案例

文本挖掘
跨语言文档检索
在不同语言间查找语义相似的文档
相比仅使用句子级目标的模型有显著提升
下游NLP任务
跨语言文本分类
使用学习到的句子表征进行分类任务
性能优于现有预训练跨语言句子编码器